FlagEmbedding
FlagEmbedding copied to clipboard
希望知道如何解决bge1.5之前版本不相似句子之间的相似度分数很高的问题
- 不相似句子之间的相似度分数很高
建议使用bge v1.5,它缓解了相似度分布的问题。
由于我们通过温度为0.01的对比学习来微调模型, 当前BGE模型的相似度分布大约在[0.6, 1]区间内。 因此,相似度大于0.6并不表示这两个句子相似。
对于下游任务,如段落检索或语义相似性, 重要的是分数的相对顺序,而不是绝对值。 如果你需要根据相似度阈值过滤相似句子, 请根据数据的相似度分布(如0.8,0.85,甚至0.9)选择合适的相似度阈值。
是从1.5以后,温度改成0.02解决的吗?
是的。温度系数越高,分布越均匀,但太高容易导致效果下降。