Langchain-Chatchat icon indicating copy to clipboard operation
Langchain-Chatchat copied to clipboard

如何提升根据问题搜索到对应知识的准确率

Open clintlong opened this issue 1 year ago • 2 comments

外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。 大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等

clintlong avatar Apr 19 '23 12:04 clintlong

如果是gpt一类参数多能力强的llm自然没问题,但如果考虑到本地部署场景,是参数较少模型,可能不能达到很好效果。

clintlong @.***>于2023年4月19日 周三20:55写道:

外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。

大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等

— Reply to this email directly, view it on GitHub https://github.com/imClumsyPanda/langchain-ChatGLM/issues/136, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABLH5ESJ7FXOCRGABXFD52LXB7ODZANCNFSM6AAAAAAXEBAIPY . You are receiving this because you are subscribed to this thread.Message ID: @.***>

imClumsyPanda avatar Apr 19 '23 15:04 imClumsyPanda

外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。 大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等

good idea

alexhmyang avatar May 21 '23 08:05 alexhmyang

这种只能人工预先处理文档,切分文档中段落为qa对,然后补充上下文了吧。

Amoteamame avatar Jul 23 '23 08:07 Amoteamame

这种只能人工预先处理文档,切分文档中段落为qa对,然后补充上下文了吧。

请问,切分为qa对之后,想知道只是出处(原始文档位置),那由该如何处理呢?

brealisty avatar Aug 25 '23 02:08 brealisty

在chat代码基础上还能添加parent_document召回吗。这个应该可以提升检索的效果,不过不知道在哪里添加

AMAG-AB avatar May 10 '24 07:05 AMAG-AB