Gaominsong comments

Repositories
Issues
Comments

Results 2 comments of


                                            Gaominsong

DPO训练完成后，推理阶段模型重复输出

我看论文中推荐的epoch为1，你把num_train_epochs:设置为1试试。

> > 我看论文中推荐的epoch为1，你把num_train_epochs：设置为1试试。 > > 感谢您的回复，但是我的数据量为27000，只训练一轮会不会太少了？因为我最近也在学DPO，从我看到的资料来看dpo通常只能训练一个epoch，多了显著过拟合，另外lr可以调小一点。你可以先进行一轮训练看看chosen rewards - rejected rewards曲线。另外，如果你的训练数据不是基于DPO初始化模型生成的，你可以先使用偏好训练数据中的prompt+y_w进行SFT，SFT后的模型再进行DPO训练效果要好很多。