DRL 经验回放

经验回放

Open shuzi opened this issue 2 years ago • 1 comments

trafficstars

3_DQN_1.pdf 里面 importance sampling 需要scaling learning rate ，请问为什么重要性高的经验要用比较低的learning rate

Mar 15 '23 06:03 shuzi

3_DQN_1.pdf 里面 importance sampling 需要scaling learning rate ，请问为什么重要性高的经验要用比较低的learning rate

您好我是这么理解的，按照公式的话分母上的数越大这个数越小；按照实际情况的话老师提到了“某类state出现的频率比较低，比如超级玛丽中的BOSS关卡”，那么我的理解是你可参考的场景（state)转移(transmission)也会相应的变少，不利于你去做参数的调整。假如你将学习率设置的太大，那么在曲线上的表示就是你很容易跳过最优点。而出现频率较多的states因为参考很多进而在误差曲线占据的范围也多，较大的学习率可以加快搜索。

Mar 30 '23 06:03 DCLe-DA

DRL DRL copied to clipboard

经验回放

DRL
DRL copied to clipboard