PPO输出动作归一化

Open yufeng-Lu520 opened this issue 3 years ago • 2 comments

请问example里的PPO算法中，agent.sample输出的动作为什么不是-1到1呢，如何让输出的动作归一化？

Aug 17 '22 03:08 yufeng-Lu520

https://github.com/PaddlePaddle/PARL/blob/e4a20ae6390265203b359f2b85e1fdd30d373434/examples/PPO/mujoco_model.py#L78 如果想要归一化，在这里加入一个tanh激活函数即可

Aug 17 '22 06:08 TomorrowIsAnOtherDay

十分感谢，已经解决

Aug 17 '22 14:08 yufeng-Lu520