wangYue
Results
1
comments of
wangYue
> 因为我最近也在学DPO,从我看到的资料来看dpo通常只能训练一个epoch,多了显著过拟合,另外lr可以调小一点。你可以先进行一轮训练看看chosen rewards - rejected rewards曲线。 请教一下: 1. 为什么lr调小会比较好? 2. 为什么基于DPO初始化模型生成的数据对中的y_w不能进行sft?