FlagEmbedding 关于微调时数据组织方式

原始数据：pair模式的正负样本 rerank微调数据组织方式：

对于正样本，使用难样本采样策略，使用默认参数
对于负样本A-B，构造成{"query": A, "pos": [A], "neg": [B]}，后续也采用难样本采样策略继续补充neg样本；话说这里用大模型生成一个假的正样本A'，效果会好一些吗🤔

这样微调bge-reranker-v2-m3后，训练loss正常下降，但是测试集上指标变化不大；打分表现是分数整体变小，都偏负数

请教下，如果我想保留人工标注的负样本对数据，应该怎么构造reranker的微调数据呢？感谢🙏

Jul 22 '24 06:07 currylym

没有太理解这个问题。自带的负样本对数据，写入到neg里即可。

Jul 22 '24 11:07 staoxiao

可能没说清楚，不好意思～

我这边只有pair格式的正负样本对，就是只有query-pos和query-neg样本；然后上面解释了我现在样本构造的方式，辛苦再看下🙏

Jul 22 '24 11:07 currylym

这种是不是得改loss函数了🙏 @staoxiao

Jul 23 '24 09:07 currylym

这种是不是得改loss函数了🙏 @staoxiao 改loss会好一些，使用二分类损失，这样就不需要同时拥有正样本和负样本。要保留负样本，用大模型生成一个假的正样本A，应该要比直接复制A作为正样本要好。

Jul 23 '24 10:07 staoxiao

这种是不是得改loss函数了🙏 @staoxiao 改loss会好一些，使用二分类损失，这样就不需要同时拥有正样本和负样本。要保留负样本，用大模型生成一个假的正样本A，应该要比直接复制A作为正样本要好。

好的，谢谢大佬🙏

Jul 23 '24 11:07 currylym