jiangweishe

Results 1 comments of jiangweishe

> @qiwang067 > > > 感恩,整理得很清楚,不过有个小问题,查了一下好像大部分都认为PPO是on-policy的,而非off-policy? > > > > 感谢您的反馈,PPO 的确是 on-policy 的,本章参考的资料有一些问题,会尽快更新 > > 添加了 PPO 是 on-policy 算法的解释 你好,请问ppo是用旧的θ'来更新新的θ,为什么还是on-policy呢?