PARL icon indicating copy to clipboard operation
PARL copied to clipboard

PPO输出动作归一化

Open yufeng-Lu520 opened this issue 3 years ago • 2 comments

请问example里的PPO算法中,agent.sample输出的动作为什么不是-1到1呢,如何让输出的动作归一化?

yufeng-Lu520 avatar Aug 17 '22 03:08 yufeng-Lu520

https://github.com/PaddlePaddle/PARL/blob/e4a20ae6390265203b359f2b85e1fdd30d373434/examples/PPO/mujoco_model.py#L78 如果想要归一化,在这里加入一个tanh激活函数即可

TomorrowIsAnOtherDay avatar Aug 17 '22 06:08 TomorrowIsAnOtherDay

十分感谢,已经解决

yufeng-Lu520 avatar Aug 17 '22 14:08 yufeng-Lu520