rl-tutorials
rl-tutorials copied to clipboard
basic algorithms of reinforcement learning
PPO.py里的140行是不是写错了,returns = advantage(batch) + values[batch] ,为什么是advantage,而不是reward
损失函数
十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?
可以新增PPO continuous 版本么 看了好多版本==但是都晕晕乎乎的,从你的tutorial开始学的RL代码,所以还是想看看你咋写的T.T
一个小笔误
您好,在PPO的task0_train.py的103行可能有个小错误, cfg.train_eps 是不是应该为 cfg.eval_eps?
Benchmark development: MountainCar-v0 + DQN Change include the benchmark files and presets
作为书中第一个上手项目,结论与书中不一致是不是很confusing 是不是因为用了FirstVisitMC