RLHF_PPO
RLHF_PPO copied to clipboard
PPO损失中新老模型prob值对比,为什么用的是reference模型的probs?
感谢作者简洁清晰的代码,我看代码发现计算PPO损失的时候,需要用新模型的prob/老模型的prob,我理解这个老模型应该是上一个步骤的actor模型吧?但是,我见代码中old_probs用的是reference模型的probs。这个地方是写错了吗? https://github.com/OctopusMind/RLHF_PPO/blob/main/ppo.py#L68C42-L68C50