Bo Zhou comments

Results 126 comments of


                                            Bo Zhou

Dynamic_train时加载data/dynamic/内的数据含义请教

我们用的方法并没有特殊trick，sim2real 的整体思路已经在paper里面提及了，建议你先自行尝试下我们的方法，没必要完全按照我们的来。

Dynamic_train时加载data/dynamic/内的数据含义请教

这个sim2real的方法并非本文原创（我们有cite原paper的），也非文章的创新重点，所以在文章中我们没有花太多篇幅描述这部分的细节，希望能理解：）

运行Dynamic_train.py时报错Exception in thread Thread-2：parl.remote.exceptions.RemoteError: [PARL remote error when calling function init]:

`运行Dynamic_train.py时出现了下面3个问题` 我看了下`Dynamic_train.py`是没有并行代码的，好奇你这个并行的错误怎么来的，是你自己改造并行版本的吗？

运行Dynamic_train.py时报错Exception in thread Thread-2：parl.remote.exceptions.RemoteError: [PARL remote error when calling function init]:

抱歉，今天会议比较多，我们尽快看下这个问题。

关于DQN的几个疑问

hello，感谢对于我们课程的认可。建议先star下PARL关注我们仓库后续的研发进度：） 1. 这个mountain car的环境有个典型的奖励设定是，只有最终达到终点了，最后一步才会有正向奖励，其余时间步是不会出现正向奖励的，所以你gamma越大，从最终步那里回传奖励信号的范围越广泛，模型有更多的正向奖励信号，收敛更容易。 2. 128这个设定不是必须的，也可以改为其他size的，比如64或者256。这个的设定一般是依据问题根据经验判断的。经验地讲，要解决的问题越复杂，模型规模倾向于更大。 3. 乱序取出来训练是没问题的。这块建议解读下DQN原论文，我在这里不展开解答了。

from parl.utils import logger,replay_memory出现错误

hello，感谢反馈。看起来像是你的sudo权限下的python环境没有安装parl。试着执行以下命令？ ```shell sudo python from parl.utils import logger ```

AI Studio 运行 DQN例程报错

hello，看起来像是gym版本的问题，你确认下本地的gym版本和aistudio上的版本，看下是否一致。

关于PARL分布式

感谢您对于PARL的关注。我逐个回答下问题： 1. 可以参考我们的两份文档了解下他们的区别： https://github.com/PaddlePaddle/PARL/blob/develop/docs/zh_CN/xparl/example2.md https://github.com/PaddlePaddle/PARL/blob/develop/docs/zh_CN/xparl/example1.md “为什么在异步的IMPALA里选择用多线程呢？”异步意味着需要多个逻辑同时并发，多线程是个好选择。 2. 这不涉及到谁更快的问题，而是可不可行的问题。从网络传输原理的角度，整个网络没法直接序列化成二进制序列，然后通过网络传输。后者是通过转换成常见数据类型然后走网络传输的。

PPO输出动作归一化

https://github.com/PaddlePaddle/PARL/blob/e4a20ae6390265203b359f2b85e1fdd30d373434/examples/PPO/mujoco_model.py#L78 如果想要归一化，在这里加入一个tanh激活函数即可

请问是否可以增加paddle版本的MAPPO算法和示例呢？

目前可以先使用torch版本的噢：）目前我们正在复现Decision Transformer，人力还排不开。