DRL
DRL copied to clipboard
经验回放
3_DQN_1.pdf 里面 importance sampling 需要scaling learning rate , 请问为什么重要性高的经验要用比较低的learning rate
3_DQN_1.pdf 里面 importance sampling 需要scaling learning rate , 请问为什么重要性高的经验要用比较低的learning rate
您好我是这么理解的,按照公式的话分母上的数越大这个数越小;按照实际情况的话老师提到了“某类state出现的频率比较低,比如超级玛丽中的BOSS关卡”,那么我的理解是你可参考的场景(state)转移(transmission)也会相应的变少,不利于你去做参数的调整。假如你将学习率设置的太大,那么在曲线上的表示就是你很容易跳过最优点。而出现频率较多的states因为参考很多进而在误差曲线占据的范围也多,较大的学习率可以加快搜索。