lixiaoyuan1029
Results
1
comments of
lixiaoyuan1029
> > 可能是数据集质量问题,https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji 试试用这个数据集,另外提醒一下不要重复多个epoch,beta系数的调整实验也很关键。 > > 感谢回复!想问一下就是我从dpo训练集里抽了几条数据测试我训练好的模型,但模型并没有按照训练的chosen答案进行回答(当然也没有按照rejected的去答),感觉和未训练过的模型答的差别不太大,这种情况是正常的吗,还是说loss收敛之后训练集的问题应该完全按照chosen去答(之前一直做SFT,对dpo不太了解) > > 另外可以请教下一般dpo训练多少epoch为好,loss降到什么值效果比较好,rewards/margins能够作为衡量模型效果的指标吗,还有像beta等其他参数有什么调整策略吗? 你好你好,这个问题我也遇到了,我在尝试对glm4微调,用的就是https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji这个数据集,训练和测试loss均下降了,但调完与原始模型生成的答案几乎一样,甚至训练数据生成的也没有什么偏好,请问你这个问题解决了吗