Langchain-Chatchat 如何提升根据问题搜索到对应知识的准确率

外链知识库最大的问题在于问题是短文本，知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度，由无数的网页，基本上每个问题都可以找到对应的页面。企业内部知识库本身就是一个个不怎么规范的文档而已，项目将整段知识向量化很可能导致搜不到或者搜不准。大家有没有试过利用llm来提升搜索准确率，比如利用llm针对已有知识生成问题，这样子可以加一个问题-问题的匹配方式，然后给予每种匹配方式权重来得到最后的搜索结果。或者利用llm生成关键词等

Apr 19 '23 12:04 clintlong

如果是gpt一类参数多能力强的llm自然没问题，但如果考虑到本地部署场景，是参数较少模型，可能不能达到很好效果。

clintlong @.***>于2023年4月19日周三20:55写道：

外链知识库最大的问题在于问题是短文本，知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度，由无数的网页，基本上每个问题都可以找到对应的页面。企业内部知识库本身就是一个个不怎么规范的文档而已，项目将整段知识向量化很可能导致搜不到或者搜不准。

大家有没有试过利用llm来提升搜索准确率，比如利用llm针对已有知识生成问题，这样子可以加一个问题-问题的匹配方式，然后给予每种匹配方式权重来得到最后的搜索结果。或者利用llm生成关键词等

— Reply to this email directly, view it on GitHub https://github.com/imClumsyPanda/langchain-ChatGLM/issues/136, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABLH5ESJ7FXOCRGABXFD52LXB7ODZANCNFSM6AAAAAAXEBAIPY . You are receiving this because you are subscribed to this thread.Message ID: @.***>

Apr 19 '23 15:04 imClumsyPanda

外链知识库最大的问题在于问题是短文本，知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度，由无数的网页，基本上每个问题都可以找到对应的页面。企业内部知识库本身就是一个个不怎么规范的文档而已，项目将整段知识向量化很可能导致搜不到或者搜不准。大家有没有试过利用llm来提升搜索准确率，比如利用llm针对已有知识生成问题，这样子可以加一个问题-问题的匹配方式，然后给予每种匹配方式权重来得到最后的搜索结果。或者利用llm生成关键词等

good idea

May 21 '23 08:05 alexhmyang

这种只能人工预先处理文档，切分文档中段落为qa对，然后补充上下文了吧。

Jul 23 '23 08:07 Amoteamame

这种只能人工预先处理文档，切分文档中段落为qa对，然后补充上下文了吧。

请问，切分为qa对之后，想知道只是出处（原始文档位置），那由该如何处理呢？

Aug 25 '23 02:08 brealisty

在chat代码基础上还能添加parent_document召回吗。这个应该可以提升检索的效果，不过不知道在哪里添加

May 10 '24 07:05 AMAG-AB