FastGPT icon indicating copy to clipboard operation
FastGPT copied to clipboard

知识库搜索精度 自动评测工具

Open zhanghx0905 opened this issue 10 months ago • 4 comments

例行检查

  • [x] 我已确认目前没有类似 features
  • [x] 我已确认我已升级到最新版本
  • [x] 我已完整查看过项目 README,已确定现有版本无法满足需求
  • [x] 我理解并愿意跟进此 features,协助测试和提供反馈
  • [x] 我理解并认可上述内容,并理解项目维护者精力有限,不遵循规则的 features 可能会被无视或直接关闭

功能描述

FastGPT目前支持手动搜索测试,这是一个很有用的功能。然而,为了提高效率并更客观地评估搜索精度,我设想了如下这种自动化方法来评测知识库搜索的准确性。

  • 问题生成:调用LLM(大型语言模型)从知识库文档中自动生成相关问题,
  • 问题/上下文对创建:每个生成的问题都会配对一个(或几个)“正确”的上下文块(即问题的答案或相关信息所在的文档段落),形成问题/上下文对。
  • 搜索评估: 使用上述问题调用搜索接口,记录搜索返回的上下文块。 对比搜索结果和实际的上下文块,评估两者的一致性。 计算关键指标,包括实际上下文块的topk命中率和平均倒数排名(MRR),以评估搜索的精度。

这种评测方法来自 https://www.llamaindex.ai/blog/boosting-rag-picking-the-best-embedding-reranker-models-42d079022e83

应用场景

自动化的搜索精度评测能带来如下好处:

客观性:通过自动生成的问题/上下文对,确保评估的客观性和一致性。 效率:自动化流程减少了手动测试的需要,提高了评估效率。 可度量性:通过topk命中率和MRR提供了可量化的评估指标,方便跟踪搜索性能的改进。

zhanghx0905 avatar Apr 11 '24 12:04 zhanghx0905

支持

HelloEveryonehh avatar Apr 11 '24 12:04 HelloEveryonehh

支持 RAG产品的灵魂就是知识库的索引方式 针对不同用户按照使用场景去做自动评测,计算哪种方式召回率最高 可以是产品的竞争力之一

lijiajun1997 avatar Apr 12 '24 08:04 lijiajun1997

支持

LuKing4DB avatar Apr 23 '24 01:04 LuKing4DB

请问一下评测FastGPT中的应用RAG准确率有什么方法吗

Code-Bai avatar Sep 02 '24 14:09 Code-Bai