rl-tutorials
rl-tutorials copied to clipboard
PPO.py里的140行是不是写错了
PPO.py里的140行是不是写错了,returns = advantage(batch) + values[batch] ,为什么是advantage,而不是reward