rl-tutorials icon indicating copy to clipboard operation
rl-tutorials copied to clipboard

basic algorithms of reinforcement learning

Results 10 rl-tutorials issues
Sort by recently updated
recently updated
newest added

PPO.py里的140行是不是写错了,returns = advantage(batch) + values[batch] ,为什么是advantage,而不是reward

十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?

可以新增PPO continuous 版本么 看了好多版本==但是都晕晕乎乎的,从你的tutorial开始学的RL代码,所以还是想看看你咋写的T.T

您好,在PPO的task0_train.py的103行可能有个小错误, cfg.train_eps 是不是应该为 cfg.eval_eps?

Benchmark development: MountainCar-v0 + DQN Change include the benchmark files and presets

作为书中第一个上手项目,结论与书中不一致是不是很confusing 是不是因为用了FirstVisitMC