希望知道如何解决bge1.5之前版本不相似句子之间的相似度分数很高的问题

Open adol001 opened this issue 1 year ago • 1 comments

建议使用bge v1.5，它缓解了相似度分布的问题。

由于我们通过温度为0.01的对比学习来微调模型，当前BGE模型的相似度分布大约在[0.6, 1]区间内。因此，相似度大于0.6并不表示这两个句子相似。

对于下游任务，如段落检索或语义相似性，重要的是分数的相对顺序，而不是绝对值。如果你需要根据相似度阈值过滤相似句子，请根据数据的相似度分布(如0.8,0.85，甚至0.9)选择合适的相似度阈值。

是从1.5以后，温度改成0.02解决的吗？

Mar 18 '24 08:03 adol001

是的。温度系数越高，分布越均匀，但太高容易导致效果下降。

Mar 18 '24 10:03 staoxiao