FlagEmbedding
FlagEmbedding copied to clipboard
关于微调时数据组织方式
原始数据:pair模式的正负样本 rerank微调数据组织方式:
- 对于正样本,使用难样本采样策略,使用默认参数
- 对于负样本A-B,构造成{"query": A, "pos": [A], "neg": [B]},后续也采用难样本采样策略继续补充neg样本;话说这里用大模型生成一个假的正样本A',效果会好一些吗🤔
这样微调bge-reranker-v2-m3后,训练loss正常下降,但是测试集上指标变化不大;打分表现是分数整体变小,都偏负数
请教下,如果我想保留人工标注的负样本对数据,应该怎么构造reranker的微调数据呢? 感谢🙏
没有太理解这个问题。自带的负样本对数据,写入到neg里即可。
可能没说清楚,不好意思~
我这边只有pair格式的正负样本对,就是只有query-pos和query-neg样本;然后上面解释了我现在样本构造的方式,辛苦再看下🙏
这种是不是得改loss函数了🙏 @staoxiao
这种是不是得改loss函数了🙏 @staoxiao 改loss会好一些,使用二分类损失,这样就不需要同时拥有正样本和负样本。 要保留负样本,用大模型生成一个假的正样本A,应该要比直接复制A作为正样本要好。
这种是不是得改loss函数了🙏 @staoxiao 改loss会好一些,使用二分类损失,这样就不需要同时拥有正样本和负样本。 要保留负样本,用大模型生成一个假的正样本A,应该要比直接复制A作为正样本要好。
好的,谢谢大佬🙏