RLHF_PPO issues

Results 2 RLHF_PPO issues

Sort by recently updated

PPO损失中新老模型prob值对比，为什么用的是reference模型的probs？

感谢作者简洁清晰的代码，我看代码发现计算PPO损失的时候，需要用新模型的prob/老模型的prob，我理解这个老模型应该是上一个步骤的actor模型吧？但是，我见代码中old_probs用的是reference模型的probs。这个地方是写错了吗？ https://github.com/OctopusMind/RLHF_PPO/blob/main/ppo.py#L68C42-L68C50

loganzhang1