johnjim0816 comments

Results 51 comments of


                                            johnjim0816

joyrl

> 可以给个简单的任务展示吗 : ) （同意目前蘑菇书代码已经包含一些基础，最近在写配置文件框架

joyrl

> 同意建议以项目规划的第一和第二目标完成为主。第三部分我们好像还没有成功的产品，期待可以大获成功。第四部分可以先不作为立项内容，与目前主计划距离较远。该规划可以在完成其他目标后再单独立项目前我们的想法也正如此

joyrl-book

> 现在joyrl_book里面是不是还没有代码？我看主要都是文字和图片上面开源工具就是代码。。。

joyrl-book

> 后续代码会贴在教程中么？我看现在教程里面都是图文从Q-learning算法开始已经贴了

pip install torch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0报错问题

> 在window上配环境时，pip install torch==1.10.0 torchvision==0.11.1 torchaudio==0.10.0报错，改为pip install torch==1.10.0 torchvision==0.11.1 torchaudio==0.10.0解决了，为加快速度使用了镜像源我更新一下readme，感谢

其他很多.yaml文件运行不了

> 作者你好，我想知道为什么我将.yaml文件为preset里的其他文件之后，运行会一直出错。难道只能运行你给的例子吗？其他的很多.yaml文件都运行不了目前还处于开发迁移阶段，很多几个月前更新的yaml文件都是上个版本跑通的，所以到这个版本会有一些参数没有对齐的问题，你可以告诉我你想跑的yaml，我们会第一时间更新，否则没有需求的情况下我们计划先扩充算法库再迭代掉所有的yaml

> 作者你好，我想跑Pendulum-v1_TD3_mp_Train.yaml，Pendulum-v1_TD3_mp_Test.yaml，还有CartPole-v1文件夹里的yaml文件。这个改参数需要怎么改，有的yaml文件里的env_cfg:new_step_api: true，一运行就显示是多余的参数，但是去掉也运行不了。另外我想问一下，那个gym软件包用的是从pip下载的还是joyrl-main\joyrl\envs\gym里的发件人：johnjim0816 ***@***.***> 发送日期：2024-02-23 21:57:41 收件人：datawhalechina/joyrl ***@***.***> 抄送人：Feng Zhou ***@***.***>,Author ***@***.***> 主题：Re: [datawhalechina/joyrl] 其他很多.yaml文件运行不了 (Issue #9) 作者你好，我想知道为什么我将.yaml文件为preset里的其他文件之后，运行会一直出错。难道只能运行你给的例子吗？其他的很多.yaml文件都运行不了目前还处于开发迁移阶段，很多几个月前更新的yaml文件都是上个版本跑通的，所以到这个版本会有一些参数没有对齐的问题，你可以告诉我你想跑的yaml，我们会第一时间更新，否则没有需求的情况下我们计划先扩充算法库再迭代掉所有的yaml — Reply to this email directly, view it on GitHub,...

关于joyrl，初学者的困惑，请作者帮忙答疑解惑

> 网上很多能找到的教程都是利用已有的环境来教学，但实际上对于很多非强化学习专业研究者来说如何快速利用强化学习包来解决自己领域内场景的问题才是最棘手的，因此希望作者可以出一个教程甚至可以录一个视频，从下载joyrl，到编写自己的一个环境，到调用joyrl对应的rl算法，到最后解决，能够写出一整个完整的教程，我觉得这是对于其他教程来说一个很好的突破。希望作者可以考虑一下并尽快抓住这个初学者的痛处，毕竟现在考研结束了，很多研0的同学都开始找自己感兴趣的方向了，如果趁这个时候可以做出一个好的教程，那么对于想要学习rl的研0同学一定是帮助很大的。算法理论部分目前有配套的joyrl book，你说的交叉领域问题我们会在一周内出一个初版的自定义环境教程，敬请期待

fixbug in DQN.ipynb

> i can't run DQN.ipynb,so i have to changed some code in DQN.ipynb.Maybe are bugs? 应该是Gym版本不对

公式错误

> [3.2 状态价值函数和动作价值函数](https://datawhalechina.github.io/joyrl-book/#/ch3/main?id=_32-%e7%8a%b6%e6%80%81%e4%bb%b7%e5%80%bc%e5%87%bd%e6%95%b0%e5%92%8c%e5%8a%a8%e4%bd%9c%e4%bb%b7%e5%80%bc%e5%87%bd%e6%95%b0) > > V π ( s ) 的计算有问题，应该是从 R t + 1 开始这个下标问题，一般有两种写法，一个写法是把第一步的奖励设为R_0，另外一种是R_1，目前本教程已修正，统一为前一种说法～