Bo Zhou

Results 126 comments of Bo Zhou

我们用的方法并没有特殊trick,sim2real 的整体思路已经在paper里面提及了,建议你先自行尝试下我们的方法,没必要完全按照我们的来。

这个sim2real的方法并非本文原创(我们有cite原paper的),也非文章的创新重点,所以在文章中我们没有花太多篇幅描述这部分的细节,希望能理解:)

`运行Dynamic_train.py时出现了下面3个问题` 我看了下`Dynamic_train.py`是没有并行代码的,好奇你这个并行的错误怎么来的,是你自己改造并行版本的吗?

hello,感谢对于我们课程的认可。建议先star下PARL关注我们仓库后续的研发进度:) 1. 这个mountain car的环境有个典型的奖励设定是,只有最终达到终点了,最后一步才会有正向奖励,其余时间步是不会出现正向奖励的,所以你gamma越大,从最终步那里回传奖励信号的范围越广泛,模型有更多的正向奖励信号,收敛更容易。 2. 128这个设定不是必须的,也可以改为其他size的,比如64或者256。这个的设定一般是依据问题根据经验判断的。经验地讲,要解决的问题越复杂,模型规模倾向于更大。 3. 乱序取出来训练是没问题的。这块建议解读下DQN原论文,我在这里不展开解答了。

hello,感谢反馈。看起来像是你的sudo权限下的python环境没有安装parl。试着执行以下命令? ```shell sudo python from parl.utils import logger ```

hello,看起来像是gym版本的问题,你确认下本地的gym版本和aistudio上的版本,看下是否一致。

感谢您对于PARL的关注。我逐个回答下问题: 1. 可以参考我们的两份文档了解下他们的区别: https://github.com/PaddlePaddle/PARL/blob/develop/docs/zh_CN/xparl/example2.md https://github.com/PaddlePaddle/PARL/blob/develop/docs/zh_CN/xparl/example1.md “为什么在异步的IMPALA里选择用多线程呢?”异步意味着需要多个逻辑同时并发,多线程是个好选择。 2. 这不涉及到谁更快的问题,而是可不可行的问题。从网络传输原理的角度,整个网络没法直接序列化成二进制序列,然后通过网络传输。后者是通过转换成常见数据类型然后走网络传输的。

https://github.com/PaddlePaddle/PARL/blob/e4a20ae6390265203b359f2b85e1fdd30d373434/examples/PPO/mujoco_model.py#L78 如果想要归一化,在这里加入一个tanh激活函数即可

目前可以先使用torch版本的噢:)目前我们正在复现Decision Transformer,人力还排不开。