RLHF_PPO icon indicating copy to clipboard operation
RLHF_PPO copied to clipboard

ppo算法实现

Results 2 RLHF_PPO issues
Sort by recently updated
recently updated
newest added

感谢作者简洁清晰的代码,我看代码发现计算PPO损失的时候,需要用新模型的prob/老模型的prob,我理解这个老模型应该是上一个步骤的actor模型吧?但是,我见代码中old_probs用的是reference模型的probs。这个地方是写错了吗? https://github.com/OctopusMind/RLHF_PPO/blob/main/ppo.py#L68C42-L68C50

不过还是非常感谢您的工作,对没有实操过的小白很有帮助