FastGPT
FastGPT copied to clipboard
知识库搜索精度 自动评测工具
例行检查
- [x] 我已确认目前没有类似 features
- [x] 我已确认我已升级到最新版本
- [x] 我已完整查看过项目 README,已确定现有版本无法满足需求
- [x] 我理解并愿意跟进此 features,协助测试和提供反馈
- [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 features 可能会被无视或直接关闭
功能描述
FastGPT目前支持手动搜索测试,这是一个很有用的功能。然而,为了提高效率并更客观地评估搜索精度,我设想了如下这种自动化方法来评测知识库搜索的准确性。
- 问题生成:调用LLM(大型语言模型)从知识库文档中自动生成相关问题,
- 问题/上下文对创建:每个生成的问题都会配对一个(或几个)“正确”的上下文块(即问题的答案或相关信息所在的文档段落),形成问题/上下文对。
- 搜索评估: 使用上述问题调用搜索接口,记录搜索返回的上下文块。 对比搜索结果和实际的上下文块,评估两者的一致性。 计算关键指标,包括实际上下文块的topk命中率和平均倒数排名(MRR),以评估搜索的精度。
这种评测方法来自 https://www.llamaindex.ai/blog/boosting-rag-picking-the-best-embedding-reranker-models-42d079022e83
应用场景
自动化的搜索精度评测能带来如下好处:
客观性:通过自动生成的问题/上下文对,确保评估的客观性和一致性。 效率:自动化流程减少了手动测试的需要,提高了评估效率。 可度量性:通过topk命中率和MRR提供了可量化的评估指标,方便跟踪搜索性能的改进。
支持
支持 RAG产品的灵魂就是知识库的索引方式 针对不同用户按照使用场景去做自动评测,计算哪种方式召回率最高 可以是产品的竞争力之一
支持
请问一下评测FastGPT中的应用RAG准确率有什么方法吗