PARL 请问是否可以增加离散动作空间版本的PPO示例？

您好，请问是否可以增加离散动作空间版本的PPO示例？

在网络上搜索PARL的PPO离散动作空间相关实现也搜索不到。

我自己尝试去在PARL PPO连续动作空间任务示例的基础上去修改离散版本的，并在pong-v4上进行验证，效果不太理想。

感谢！

May 09 '22 03:05 AaronJny

十分感谢你的建议，我们会把这个放在近期的开发计划中（PS：我们上个月完善了MADDPG的离散/连续控制.）

May 09 '22 04:05 TomorrowIsAnOtherDay

好的，感谢回复，mark一下，期待更新，大佬们辛苦了

十分感谢你的建议，我们会把这个放在近期的开发计划中（PS：我们上个月完善了MADDPG的离散/连续控制.）

May 09 '22 05:05 AaronJny

@TomorrowIsAnOtherDay paddle 的 Categorical 分布好像不支持batch的方式求log_probs，只能自己实现一个吗

May 18 '22 11:05 xiaojiongzi

关于paddle接口的问题，请去paddle官方仓库上提问哈，会有专门的团队解答的。

May 25 '22 16:05 TomorrowIsAnOtherDay

同步一下，离散动作空间版本的PPO正在开发中，https://github.com/PaddlePaddle/PARL/pull/939 ，敬请期待

Aug 18 '22 10:08 rical730