Bo Zhou

Results 126 comments of Bo Zhou

是这样的,agent的初始化依赖于algorithm,你的agent加了修饰符之后,变成虚拟的agent了(不在本地运行),但是你的algorithm还在本地初始化。目前algorithm是比较复杂的类,暂不支持直接序列化的。 你可以参考我们A2C的写法,写一个actor类,在类里面初始化model、algorithm、agent。

我大概知道问题在哪里了。这和PARL目前的代码分发实现逻辑相关,分发了所有的代码文件,但是对于要修饰符所在的代码文件进行了特殊处理:只分发修饰符修饰的类(具体原因好像是为了初始化更快,我记不大清楚了)。这个问题我们后续会修复,感谢指出。 现在建议参考actor.py的方式实现智能体分发。

我们目前的example 是针对静态图版本的,动态图 paddle 目前不建议配合PARL 使用。 建议paddle 版本与 这里对齐:https://github.com/PaddlePaddle/PARL#dependencies 也就是1.8.5 版本

了解的,这个我们之前在做调研的时候有自己实现过。这个的实现成本不高,要不你提个PR给我们? https://github.com/PaddlePaddle/PARL/blob/develop/parl/algorithms/paddle/maddpg.py 在这上面参考maddpg 来修改即可,这样你也可以成为PARL的contributor了:)

可以把代码贴在这个issue,我们帮你一起看看的

感觉改的没问题,目前有遇到什么问题呢?算法不收敛?还是算法收敛效果不好?

我晚点跑下你的代码看看:)

hello,你的代码已经发现了一处bug: ```python cost = act_reg + actor_loss * 1e-3 ``` 这个cost计算时,1e-3要加在左边的`act_reg`正则项这上面的。 我们重新写了一份MATD3,就不放在PARL官方仓库了,你可以直接参考: https://github.com/ZiyuanMa/MATD3