对于有确定答案的问题,如果mpo训练的label中不包含cot过程,只有answer,mpo训练是否有效?
非常感谢您的工作! 在阅读internvl2.5mpo的文章和代码时,我发现对于有确定答案的问题,在生成mpo训练数据的时候就会带上cot过程 但我的模型是一个经过无cot数据sft的1b模型,不具有cot能力,且我的领域数据都是具有确定答案的,这种情况下应该如何构造mpo数据?文中提出的mpo方法在这种情况下是否还有效?
你好,
如果已经有明确的正确答案,可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率?如果正确率可以的话,我认为,或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。
如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对,因为MPO能work的原因其实是更好地引入了针对负样本的监督信号,从而帮助模型修剪自己的分布空间,更接近理想的分布空间,只有答案的样本很难起到这个效果
如果有answer的话最好还是基于模型采样一个推理过程来构建正负样本对,因为MPO能work的原因其实是更好地引入了针对负样本的监督信号,从而帮助模型修剪自己的分布空间,更接近理想的分布空间,只有答案的样本很难起到这个效果
非常感谢您的回复,我的意思是,我是否可以基于模型推理过程构建不含cot的正负样本对,然后用于MPO训练?因为我看到paper中的结果都是有cot的正负样本对
你好,
如果已经有明确的正确答案,可以通过MPO论文中ground truth的管线。你采用的领域数据是否试验过其他开源模型的回复正确率?如果正确率可以的话,我认为,或许可以通过先借助其他模型初步训练你的1b模型的CoT能力。
感谢您的回复,我的领域数据在其他开源模型上回复正确率较低,之前担心1b模型cot能力较差,带来反效果,因此没有做相关训练。我会尝试一下!