MOSS-RLHF PPO-max 对比原始PPO 的效果

请问有 PPO-max 对比原始PPO 的效果提升么？文章只介绍了PPO-max 对比 SFT的模型效果

Jul 12 '23 03:07 hywchina

PPO-max帮助研究者们找到更好的方法使RLHF训练过程稳定，PPO-max和原始PPO的区别更多的在于能不能够稳定训练RLHF过程，而不是效果的差异。

Jul 12 '23 04:07 Ablustrund

我们发现训练失败的模型，往往会重复一句话直到生成的Max length.

Jul 12 '23 04:07 Ablustrund

有尝试训练更多的step吗？

Jul 13 '23 08:07 zhangyipin

norm+clip的配置是否只会减缓这个问题的出现【作用和减小lr是一致的吗】。训练更多的step，仍会收敛到max-length上。

Jul 13 '23 08:07 zhangyipin

norm+clip的配置是否只会减缓这个问题的出现【作用和减小lr是一致的吗】。训练更多的step，仍会收敛到max-length上。

是的我们尝试了最多5000step，kl-penalty会很大程度缓解甚至不会崩掉。更多trick只是缓解

Jul 13 '23 14:07 Ablustrund

请问随机种子是否也有影响？同样的超参数，随机种子不同收敛效果也不一样。另外为什么buffersize要尽量小呢？buffersize越小，方差越大，而且会导致batchsize也比较小

Jul 14 '23 08:07 ymr12

请问随机种子是否也有影响？同样的超参数，随机种子不同收敛效果也不一样。另外为什么buffersize要尽量小呢？buffersize越小，方差越大，而且会导致batchsize也比较小

我们使用相同的随机种子进行全部实验。buffersize尽可能小，意味着训练过程更加“on policy”。

Jul 14 '23 10:07 Ablustrund

请问随机种子是否也有影响？同样的超参数，随机种子不同收敛效果也不一样。另外为什么buffersize要尽量小呢？buffersize越小，方差越大，而且会导致batchsize也比较小

我们使用相同的随机种子进行全部实验。buffersize尽可能小，意味着训练过程更加“on policy”。

@Ablustrund 请问论文中提到rollout size为128，train batch size为32，为什么这里训练脚本中设置的都是为2，哪种设置更好呢

Jul 20 '23 02:07 akk-123

MOSS-RLHF MOSS-RLHF copied to clipboard