FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

bge-reranker-v2.5-gemma2-lightweight输出结果归一化后都很高

Open dandanW91 opened this issue 1 year ago • 4 comments

为什么我测试bge-reranker-v2.5-gemma2-lightweight模型效果,归一化后结果都在0.99以上,是什么原因啊。

dandanW91 avatar Aug 08 '24 01:08 dandanW91

分数的具体数值主要用于参考,重要的是该查询与其所有文档之间分数的相对高低

545999961 avatar Aug 08 '24 02:08 545999961

分数的具体数值主要用于参考,重要的是该查询与其所有文档之间分数的相对高低

感谢回复,那表示不相关的相似度在99%以上也是合理的哈,我们是想卡阈值来过来召回结果,这样这个模型是不是不太适配这样的场景啊。

dandanW91 avatar Aug 08 '24 02:08 dandanW91

分数的具体数值主要用于参考,重要的是该查询与其所有文档之间分数的相对高低

感谢回复,那表示不相关的相似度在99%以上也是合理的哈,我们是想卡阈值来过来召回结果,这样这个模型是不是不太适配这样的场景啊。

阈值设定不太适合用于reranker。如果确实需要设置阈值,可以考虑取消归一化,直接使用原始分数进行设定;或者可以考虑使用其他靠后层的输出。不过相似度评估主要是基于分数的相对大小,分数本身参考意义不大。

545999961 avatar Aug 08 '24 02:08 545999961

分数的具体数值主要用于参考,重要的是该查询与其所有文档之间分数的相对高低

感谢回复,那表示不相关的相似度在99%以上也是合理的哈,我们是想卡阈值来过来召回结果,这样这个模型是不是不太适配这样的场景啊。

阈值设定不太适合用于reranker。如果确实需要设置阈值,可以考虑取消归一化,直接使用原始分数进行设定;或者可以考虑使用其他靠后层的输出。不过相似度评估主要是基于分数的相对大小,分数本身参考意义不大。

好的,非常感谢。

dandanW91 avatar Aug 08 '24 02:08 dandanW91