FastGPT 知识库搜索精度自动评测工具

例行检查

功能描述

FastGPT目前支持手动搜索测试，这是一个很有用的功能。然而，为了提高效率并更客观地评估搜索精度，我设想了如下这种自动化方法来评测知识库搜索的准确性。

问题生成：调用LLM（大型语言模型）从知识库文档中自动生成相关问题，
问题/上下文对创建：每个生成的问题都会配对一个(或几个)“正确”的上下文块（即问题的答案或相关信息所在的文档段落），形成问题/上下文对。
搜索评估：使用上述问题调用搜索接口，记录搜索返回的上下文块。对比搜索结果和实际的上下文块，评估两者的一致性。计算关键指标，包括实际上下文块的topk命中率和平均倒数排名（MRR），以评估搜索的精度。

这种评测方法来自 https://www.llamaindex.ai/blog/boosting-rag-picking-the-best-embedding-reranker-models-42d079022e83

应用场景

自动化的搜索精度评测能带来如下好处：

客观性：通过自动生成的问题/上下文对，确保评估的客观性和一致性。效率：自动化流程减少了手动测试的需要，提高了评估效率。可度量性：通过topk命中率和MRR提供了可量化的评估指标，方便跟踪搜索性能的改进。