Langchain-Chatchat
Langchain-Chatchat copied to clipboard
如何提升根据问题搜索到对应知识的准确率
外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。 大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等
如果是gpt一类参数多能力强的llm自然没问题,但如果考虑到本地部署场景,是参数较少模型,可能不能达到很好效果。
clintlong @.***>于2023年4月19日 周三20:55写道:
外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。
大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等
— Reply to this email directly, view it on GitHub https://github.com/imClumsyPanda/langchain-ChatGLM/issues/136, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABLH5ESJ7FXOCRGABXFD52LXB7ODZANCNFSM6AAAAAAXEBAIPY . You are receiving this because you are subscribed to this thread.Message ID: @.***>
外链知识库最大的问题在于问题是短文本,知识是中长文本。如何根据问题精准的搜索到对应的知识是个最大的问题。这类本地化项目不像百度,由无数的网页,基本上每个问题都可以找到对应的页面。 企业内部知识库本身就是一个个不怎么规范的文档而已,项目将整段知识向量化很可能导致搜不到或者搜不准。 大家有没有试过利用llm来提升搜索准确率,比如利用llm针对已有知识生成问题,这样子可以加一个问题-问题的匹配方式,然后给予每种匹配方式权重来得到最后的搜索结果。 或者利用llm生成关键词等
good idea
这种只能人工预先处理文档,切分文档中段落为qa对,然后补充上下文了吧。
这种只能人工预先处理文档,切分文档中段落为qa对,然后补充上下文了吧。
请问,切分为qa对之后,想知道只是出处(原始文档位置),那由该如何处理呢?
在chat代码基础上还能添加parent_document召回吗。这个应该可以提升检索的效果,不过不知道在哪里添加