FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

关于微调时数据组织方式

Open currylym opened this issue 1 year ago • 5 comments

原始数据:pair模式的正负样本 rerank微调数据组织方式:

  1. 对于正样本,使用难样本采样策略,使用默认参数
  2. 对于负样本A-B,构造成{"query": A, "pos": [A], "neg": [B]},后续也采用难样本采样策略继续补充neg样本;话说这里用大模型生成一个假的正样本A',效果会好一些吗🤔

这样微调bge-reranker-v2-m3后,训练loss正常下降,但是测试集上指标变化不大;打分表现是分数整体变小,都偏负数

请教下,如果我想保留人工标注的负样本对数据,应该怎么构造reranker的微调数据呢? 感谢🙏

currylym avatar Jul 22 '24 06:07 currylym

没有太理解这个问题。自带的负样本对数据,写入到neg里即可。

staoxiao avatar Jul 22 '24 11:07 staoxiao

可能没说清楚,不好意思~

我这边只有pair格式的正负样本对,就是只有query-pos和query-neg样本;然后上面解释了我现在样本构造的方式,辛苦再看下🙏

currylym avatar Jul 22 '24 11:07 currylym

这种是不是得改loss函数了🙏 @staoxiao

currylym avatar Jul 23 '24 09:07 currylym

这种是不是得改loss函数了🙏 @staoxiao 改loss会好一些,使用二分类损失,这样就不需要同时拥有正样本和负样本。 要保留负样本,用大模型生成一个假的正样本A,应该要比直接复制A作为正样本要好。

staoxiao avatar Jul 23 '24 10:07 staoxiao

这种是不是得改loss函数了🙏 @staoxiao 改loss会好一些,使用二分类损失,这样就不需要同时拥有正样本和负样本。 要保留负样本,用大模型生成一个假的正样本A,应该要比直接复制A作为正样本要好。

好的,谢谢大佬🙏

currylym avatar Jul 23 '24 11:07 currylym