FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

希望知道如何解决bge1.5之前版本不相似句子之间的相似度分数很高的问题

Open adol001 opened this issue 1 year ago • 1 comments

  1. 不相似句子之间的相似度分数很高

建议使用bge v1.5,它缓解了相似度分布的问题。

由于我们通过温度为0.01的对比学习来微调模型, 当前BGE模型的相似度分布大约在[0.6, 1]区间内。 因此,相似度大于0.6并不表示这两个句子相似。

对于下游任务,如段落检索或语义相似性, 重要的是分数的相对顺序,而不是绝对值。 如果你需要根据相似度阈值过滤相似句子, 请根据数据的相似度分布(如0.8,0.85,甚至0.9)选择合适的相似度阈值。

是从1.5以后,温度改成0.02解决的吗?

adol001 avatar Mar 18 '24 08:03 adol001

是的。温度系数越高,分布越均匀,但太高容易导致效果下降。

staoxiao avatar Mar 18 '24 10:03 staoxiao