wangYue comments

Repositories
Issues
Comments

Results 1 comments of


                                            wangYue

DPO训练完成后，推理阶段模型重复输出

> 因为我最近也在学DPO，从我看到的资料来看dpo通常只能训练一个epoch，多了显著过拟合，另外lr可以调小一点。你可以先进行一轮训练看看chosen rewards - rejected rewards曲线。请教一下： 1. 为什么lr调小会比较好？ 2. 为什么基于DPO初始化模型生成的数据对中的y_w不能进行sft？