rl-tutorials issues

PPO.py里的140行是不是写错了，returns = advantage(batch) + values[batch] ，为什么是advantage，而不是reward

1

十分感谢作者的分享，我有一个疑惑就是按理在更新中，每一个episode都只会输出一个损失函数，但实际上每次都会出来很多个损失函数，画图的看的话回合数只有200，但是损失函数甚至上万个，这是什么原因？

6

可以新增PPO continuous 版本么看了好多版本==但是都晕晕乎乎的，从你的tutorial开始学的RL代码，所以还是想看看你咋写的T.T

1

您好，在PPO的task0_train.py的103行可能有个小错误， cfg.train_eps 是不是应该为 cfg.eval_eps？

Benchmark development: MountainCar-v0 + DQN Change include the benchmark files and presets

1

作为书中第一个上手项目，结论与书中不一致是不是很confusing 是不是因为用了FirstVisitMC

rl-tutorials
rl-tutorials copied to clipboard