JimYang
Results
2
comments of
JimYang
请问博主PPO算法里的θk多久更新一次?如果是每次迭代都更新的话,那采样效率岂不是依然不高?
请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?