cwy

Results 9 comments of cwy

> @GitSoftwareNow I didn't know I've got the answer. I really appreciate that. Although I do not try to build at this moment, one day I will try your suggestion....

> MATD3 是MADDPG + TD3 吗? 是针对多智能体的TD3算法呢,即把MADDPG中的DDPG更换为TD3。因为想使用parl框架,清晰 条理性。感谢

> 了解的,这个我们之前在做调研的时候有自己实现过。这个的实现成本不高,要不你提个PR给我们? https://github.com/PaddlePaddle/PARL/blob/develop/parl/algorithms/paddle/maddpg.py 在这上面参考maddpg 来修改即可,这样你也可以成为PARL的contributor了:) 在尝试对于paddle的MADDPG进行修改后,最终效果不理想,暂时还没有找到问题所在呢>

> 可以把代码贴在这个issue,我们帮你一起看看的 好的呢 matd3.py ```python import parl import paddle import paddle.nn as nn import paddle.nn.functional as F from parl.utils.utils import check_model_method from copy import deepcopy __all__ = ['MATD3'] from parl.core.paddle.policy_distribution...

> 可以把代码贴在这个issue,我们帮你一起看看的 ```python import parl import paddle import paddle.nn as nn import paddle.nn.functional as F class MAModel(parl.Model): def __init__(self, obs_dim, action_dim, critic_in_dim): super(MAModel, self).__init__() self.actor_model = Actor(obs_dim, action_dim) self.critic_model =...

> 可以把代码贴在这个issue,我们帮你一起看看的 simple_agent.py部分 修改如下 ```python for i in range(self.n): target_act_next = agents[i].alg.predict( batch_obs_next_n[i], use_target_model=True) noise = np.random.normal(0, self.alg.policy_noise, size=target_act_next.shape) noise = paddle.clip(noise, -self.alg.noise_clip, self.alg.noise_clip) target_act_next=target_act_next+noise target_act_next = paddle.clip(target_act_next, -1., 1.)...

> 感觉改的没问题,目前有遇到什么问题呢?算法不收敛?还是算法收敛效果不好? 不收敛呢,Mean episode reward一直不提升

> 我晚点跑下你的代码看看:) 好呢!辛苦您

> hello,你的代码已经发现了一处bug: > > ```python > cost = act_reg + actor_loss * 1e-3 > ``` > > 这个cost计算时,1e-3要加在左边的`act_reg`正则项这上面的。 我们重新写了一份MATD3,就不放在PARL官方仓库了,你可以直接参考: https://github.com/ZiyuanMa/MATD3 非常感谢您耐心的解答!收获了很多,祝paddle越来越好