JimYang

Results 2 comments of JimYang

请问博主PPO算法里的θk多久更新一次?如果是每次迭代都更新的话,那采样效率岂不是依然不高?

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?