Gaominsong
Results
2
comments of
Gaominsong
我看论文中推荐的epoch为1,你把num_train_epochs:设置为1试试。
> > 我看论文中推荐的epoch为1,你把num_train_epochs:设置为1试试。 > > 感谢您的回复,但是我的数据量为27000,只训练一轮会不会太少了? 因为我最近也在学DPO,从我看到的资料来看dpo通常只能训练一个epoch,多了显著过拟合,另外lr可以调小一点。你可以先进行一轮训练看看chosen rewards - rejected rewards曲线。 另外,如果你的训练数据不是基于DPO初始化模型生成的,你可以先使用偏好训练数据中的prompt+y_w进行SFT,SFT后的模型再进行DPO训练效果要好很多。