MaxKB icon indicating copy to clipboard operation
MaxKB copied to clipboard

[FEATURE] 【知识库】增加全文检索和混合检索方式来提高召回率

Open impactCn opened this issue 1 year ago • 1 comments

MaxKB 版本

main

请描述您的需求或者改进建议

你好 MaxKB社区,我刚刚阅读了下代码。在 RAG 方面,社区采用多轮识别用户意图,转化成一个新问题,然后发起一个相似搜索,然后一并提交给 LLM ,在保证问题的准确。

仅仅只是相似搜索,其实准确率不太行。可以做下混合搜索,多路的召回方式。比如 关键字 + 相似搜索的混合搜索,或者语义搜索 + 相似搜索的混合搜索。

请描述你建议的实现方案

opensearch 实现了向量化,而且本身也是支持语义搜索的,比如 fuzzy 查询,这两者可以直接配合在一起。 或者其他向量数据库的所有数据组成一个大行,然后自己使用 BM25 全文检索,获取到当行的 id ,反查出来的原文,在一并提交过。

附加信息

No response

impactCn avatar Apr 12 '24 03:04 impactCn

感谢反馈,有计划增加全文检索,全文+向量的混合检索方式。

baixin513 avatar Apr 12 '24 03:04 baixin513