lixiaoyuan1029 comments

Results 1 comments of


                                            lixiaoyuan1029

DPO训练问题

> > 可能是数据集质量问题，https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji 试试用这个数据集，另外提醒一下不要重复多个epoch，beta系数的调整实验也很关键。 > > 感谢回复！想问一下就是我从dpo训练集里抽了几条数据测试我训练好的模型，但模型并没有按照训练的chosen答案进行回答（当然也没有按照rejected的去答），感觉和未训练过的模型答的差别不太大，这种情况是正常的吗，还是说loss收敛之后训练集的问题应该完全按照chosen去答（之前一直做SFT，对dpo不太了解） > > 另外可以请教下一般dpo训练多少epoch为好，loss降到什么值效果比较好，rewards/margins能够作为衡量模型效果的指标吗，还有像beta等其他参数有什么调整策略吗？你好你好，这个问题我也遇到了，我在尝试对glm4微调，用的就是https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji这个数据集，训练和测试loss均下降了，但调完与原始模型生成的答案几乎一样，甚至训练数据生成的也没有什么偏好，请问你这个问题解决了吗