loganzhang1
Results
2
issues of
loganzhang1
你好,我有点不理解数据中的from和to代表着什么呢?希望可以得到解答。谢谢 例如: When I got home, there was a message on the machine because the owner realized that our waitress forgot to charge us for our wine.
感谢作者简洁清晰的代码,我看代码发现计算PPO损失的时候,需要用新模型的prob/老模型的prob,我理解这个老模型应该是上一个步骤的actor模型吧?但是,我见代码中old_probs用的是reference模型的probs。这个地方是写错了吗? https://github.com/OctopusMind/RLHF_PPO/blob/main/ppo.py#L68C42-L68C50