Keavnn
Keavnn
- [ ] 优化MARL中的训练部分,避免繁多的键值索引
@GongXiaomeng 你的启动命令是什么
@GongXiaomeng 我无法复现该问题,你可以详细说说,或者日后我添加对`robosuite `的支持,并做测试。
- 适配gym - 测试LSTM是否正确开启训练 - 修复On-policy算法
This repo is under reconstruction right now, so the code implementation in the repository is not rigorously tested.
- [x] 检查将代码中关于运算维度的选择(dim/axis)把能设置为-1的都设置为-1。
- [x] 校正RNN隐状态在使用探索策略时的迭代更新 [abf6b0a](https://github.com/StepNeverStop/RLs/commit/abf6b0aee4ccbe67c2da1c981117c396bec25843) - [x] 实现按策略与环境交互的间隔更新策略 [abf6b0a](https://github.com/StepNeverStop/RLs/commit/abf6b0aee4ccbe67c2da1c981117c396bec25843)