PPO.py里的140行是不是写错了

Open hykon123 opened this issue 3 years ago • 0 comments

PPO.py里的140行是不是写错了，returns = advantage(batch) + values[batch] ，为什么是advantage，而不是reward

May 21 '22 09:05 hykon123