FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

rerank base 微调之后分数全部变成负数

Open YYYFEI opened this issue 1 year ago • 3 comments

使用rerank base模型在领域数据上微调,微调出来的分数都变成了负数 image 使用的参数: image

我使用大模型根据正样本生成问题,并用这个问题去检索出10个负样本,并且已经确保在训练数据中负样本全部都是负样本。请问还需要排查什么问题吗?

YYYFEI avatar Aug 05 '24 03:08 YYYFEI

可以查询正样本是否排在负样本前面。训练使用交叉熵损失,优化的是正样本和负样本的分数差,不保证正样本分数>0,

staoxiao avatar Aug 05 '24 07:08 staoxiao

可以查询正样本是否排在负样本前面。训练使用交叉熵损失,优化的是正样本和负样本的分数差,不保证正样本分数>0,

如果重新训练后,正负样本得分趋于一致,会是什么原因呢。 image 会不会是负样本太难而导致的呢?例如我的正负样本从产品文档中抽取,很多正负样本的区别是型号名称不一样,其他内容基本一致

YYYFEI avatar Aug 05 '24 08:08 YYYFEI

可以查询正样本是否排在负样本前面。训练使用交叉熵损失,优化的是正样本和负样本的分数差,不保证正样本分数>0,

如果重新训练后,正负样本得分趋于一致,会是什么原因呢。 image 会不会是负样本太难而导致的呢?例如我的正负样本从产品文档中抽取,很多正负样本的区别是型号名称不一样,其他内容基本一致

只是型号名称不一样的话负样本确实有点太难,可以考虑去除掉这些负样本

545999961 avatar Aug 08 '24 02:08 545999961