FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

相似度分布变化的问题

Open iamreallyi9 opened this issue 11 months ago • 4 comments

相同的文本,使用余弦相似度,微调前相似度在0.8左右,微调后相似度0.5左右,发生明显变化。如果只是召回用取topk的话内容变化倒是不大,影响也不大。想咨询下可能的原因是?个人怀疑原因1是neg样本选择导致,neg样本存在伪负样本。2是epoch太多?

iamreallyi9 avatar Mar 15 '24 03:03 iamreallyi9

负样本中存在伪负例或者和正样本太相似,会导致整体的分数下降。但只要保持正样本分数比负样本高就行。

staoxiao avatar Mar 15 '24 10:03 staoxiao

额外提供一个实验中的信息,是否启用normalized参数对于模型的输出分布有很大的影响,

iamreallyi9 avatar Mar 20 '24 10:03 iamreallyi9

额外提供一个实验中的信息,是否启用normalized参数对于模型的输出分布有很大的影响, 所以是启用normalized 会导致输出分布比较均匀是吧

chenyunsai avatar Mar 23 '24 09:03 chenyunsai

额外提供一个实验中的信息,是否启用normalized参数对于模型的输出分布有很大的影响,

normalized会归一化向量,使得最终计算的是余弦相似度,范围在[-1, 1]。如果设置为False,使用向量内积计算相似度,而向量内积是没有范围分布的。

staoxiao avatar Mar 23 '24 12:03 staoxiao