PARL icon indicating copy to clipboard operation
PARL copied to clipboard

请问是否可以增加离散动作空间版本的PPO示例?

Open AaronJny opened this issue 3 years ago • 5 comments

您好,请问是否可以增加离散动作空间版本的PPO示例?

在网络上搜索PARL的PPO离散动作空间相关实现也搜索不到。

我自己尝试去在PARL PPO连续动作空间任务示例的基础上去修改离散版本的,并在pong-v4上进行验证,效果不太理想。

感谢!

AaronJny avatar May 09 '22 03:05 AaronJny

十分感谢你的建议,我们会把这个放在近期的开发计划中(PS:我们上个月完善了MADDPG的离散/连续控制.)

TomorrowIsAnOtherDay avatar May 09 '22 04:05 TomorrowIsAnOtherDay

好的,感谢回复,mark一下,期待更新,大佬们辛苦了

十分感谢你的建议,我们会把这个放在近期的开发计划中(PS:我们上个月完善了MADDPG的离散/连续控制.)

AaronJny avatar May 09 '22 05:05 AaronJny

@TomorrowIsAnOtherDay paddle 的 Categorical 分布好像不支持batch的方式求log_probs,只能自己实现一个吗

xiaojiongzi avatar May 18 '22 11:05 xiaojiongzi

关于paddle接口的问题,请去paddle官方仓库上提问哈,会有专门的团队解答的。

TomorrowIsAnOtherDay avatar May 25 '22 16:05 TomorrowIsAnOtherDay

同步一下,离散动作空间版本的PPO正在开发中,https://github.com/PaddlePaddle/PARL/pull/939 ,敬请期待

rical730 avatar Aug 18 '22 10:08 rical730