PPOxFamily Chapter7 Discussion

Chapter7 Discussion

Open PaParaZz1 opened this issue 1 year ago • 2 comments

本 issue 将会追踪和记录各种有关课程第七讲的问题和延伸思考，欢迎有兴趣的同学在这个 issue 中评论，课程组会定期整理信息

May 31 '23 13:05 PaParaZz1

@PaParaZz1 您好！非常感谢分享。最近我遇到一个问题，动作空间是间断连续的时候(例如，动作空间[-1, 1]中规定[-0.3 0.6]不可取)，我尝试了标准的DDPG,SAC,PPO等算法似乎都无能为力。我是通过设置is_done=ture作为一个巨大的惩罚来限制agent动作映射的。非常期望您的建议。谢谢！

Jul 11 '23 06:07 xianglunkai

My suggestion is to clip action into a proper interval before calling step method to env by using an env wrapper.

Here is an example:

example.txt

Jul 24 '23 06:07 zjowowen

PPOxFamily PPOxFamily copied to clipboard

Chapter7 Discussion

PPOxFamily
PPOxFamily copied to clipboard