搜索
写经验 领红包
 > 财经

如何设计知识库(建立知识库的目的)

导语:如何使用自定义知识库构建自己的自定义ChatGPT

一个有关如何向 ChatGPT 机器人提供自定义数据源的分步指南

ChatGPT 已成为大多数人每天用来自动化各种任务的不可或缺的工具。如果您使用过 ChatGPT,您会意识到它有可能提供错误的答案,并且在某些比较专业的主题上除了上下文中你告诉它的信息外它一无所知。这就提出了一个问题,即我们如何利用自定义的数据源来调教 ChatGPT,来让 ChatGPT 在特定领域有更好的表现?

丰富的知识分布在我们每天与之互动的各种平台上,例如工作中的 confluence wiki 页面、Slack 组、公司知识库、Reddit、Stack Overflow、书籍、时事通讯和同事共享的谷歌文档。阅读完所有这些信息源本身就堪称是一项全职工作了。

如果您可以有选择地选择数据源并将该信息轻松地与您的数据一起输入到 ChatGPT 对话中,那不是很好吗?

1. 通过Prompt提供数据

在我们开始讨论如何扩展 ChatGPT 之前,让我们看看如何手动扩展 ChatGPT 以及问题是什么。扩展 ChatGPT 的传统方法是通过Prompt。

这很简单,因为 ChatGPT 是上下文感知的。首先,我们需要通过在实际问题之前附加原始文档内容来与 ChatGPT 进行交互。

I will ask you questions based on the following content:- Start of Content-Your very long text to give ChatGPT context- End of Content-

这种方法的问题在于模型的上下文有限;它只能接受大约 4,097 个 GPT-3 Token。使用这种方法,您很快就会遇到困难,因为它也是一个手动,乏味的过程,每次都要粘贴内容。

想象一下,有数百个PDF文档想要注入到 ChatGPT 中,您很快就会遇到付费的问题。您可能会认为 GPT-4 替代 GPT-3 之后,情况会有所改善。它于 2023.3.14 刚刚推出,可以处理 25000 个单词——大约是 GPT-3 的八倍。它还可以处理图像,以及处理比 GPT-3.5 更细微的指令。这仍然存在相同的基本问题,即数据输入限制。我们如何绕过其中一些限制?我们可以利用一个名为LlamaIndex的Python库。

2. 使用 LlamaIndex 扩展 ChatGPT(GPT 索引)

LlamaIndex,也称为GPT索引,是一个提供中央接口的项目,用于将您的LLM与外部数据连接起来。是的,你没看错。使用LlamaIndex,我们可以构建如下图所示的东西:

输入 ChatGPT 的自定义数据源

LlamaIndex 将您现有的数据源和类型与可用的数据连接器连接起来,例如(API、PDF、文档、SQL 等)它使您能够通过提供结构化和非结构化数据的索引来使用 LLM。这些索引通过消除典型的样板和痛点来促进上下文学习:以可访问的方式保留上下文以便快速插入。

这样,LlamaIndex就解决了提示词的长度限制。并通过为用户提供一种与索引交互的方式来解决文本拆分问题。LlamaInde还抽象了从文档中提取相关部分并将其提供给Prompt的过程。

3、具体操作步骤及代码

具体操作步骤及代码,放在了“AI聊天机器人俱乐部”中的“聊天机器人接口开发”一章,欢迎小伙伴们参与AI聊天机器人俱乐部,并查看详情:《AI聊天机器人俱乐部开业,来一起探索与AI协作的新时代吧!》

The End

我们还提供这些服务

本文内容由小奈整理编辑!