MOSS-RLHF
MOSS-RLHF copied to clipboard
PPO-max 对比 原始PPO 的效果
请问有 PPO-max 对比 原始PPO 的效果提升么?文章只介绍了PPO-max 对比 SFT的模型效果
PPO-max帮助研究者们找到更好的方法使RLHF训练过程稳定,PPO-max和原始PPO的区别更多的在于能不能够稳定训练RLHF过程,而不是效果的差异。
我们发现训练失败的模型,往往会重复一句话直到生成的Max length.
有尝试训练更多的step吗?
norm+clip的配置是否只会减缓这个问题的出现【作用和减小lr是一致的吗】。训练更多的step,仍会收敛到max-length上。
norm+clip的配置是否只会减缓这个问题的出现【作用和减小lr是一致的吗】。训练更多的step,仍会收敛到max-length上。
是的 我们尝试了最多5000step,kl-penalty会很大程度缓解甚至不会崩掉。更多trick只是缓解
请问随机种子是否也有影响?同样的超参数,随机种子不同收敛效果也不一样。另外为什么buffersize要尽量小呢?buffersize越小,方差越大,而且会导致batchsize也比较小
请问随机种子是否也有影响?同样的超参数,随机种子不同收敛效果也不一样。另外为什么buffersize要尽量小呢?buffersize越小,方差越大,而且会导致batchsize也比较小
我们使用相同的随机种子进行全部实验。buffersize尽可能小,意味着训练过程更加“on policy”。
请问随机种子是否也有影响?同样的超参数,随机种子不同收敛效果也不一样。另外为什么buffersize要尽量小呢?buffersize越小,方差越大,而且会导致batchsize也比较小
我们使用相同的随机种子进行全部实验。buffersize尽可能小,意味着训练过程更加“on policy”。
@Ablustrund 请问论文中提到rollout size为128,train batch size为32,为什么这里训练脚本中设置的都是为2,哪种设置更好呢