FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

BGE-Reranker-Large BUG 报告(评估是否为bug)

Open nanbowan1718 opened this issue 3 months ago • 0 comments

你好 在测试中,我发现完全相同的文本间关联度,反而略低于语义高度相似但不完全一致的文本。例如: 文本 A:“资金流出金额位于 (0,25%] 区间的支出总金额” 文本 A 与自身的关联度为 0.99992736 文本 A与“资金流出金额位于 (0,25%] 区间的支出总笔数” 的关联度为 0.99992745(略高于前者) 基于此现象,我产生一个疑问:bge-reranker-large 模型在训练阶段,其数据集中是否未包含 “完全相同文本关联度为 1” 的样本?这是否是导致上述结果的原因?

附件中为相关测试的代码截图,供参考。

Image

nanbowan1718 avatar Sep 25 '25 10:09 nanbowan1718