AlphaZero_Gomoku icon indicating copy to clipboard operation
AlphaZero_Gomoku copied to clipboard

关于KL散度控制学习率的问题

Open rommeldhy opened this issue 7 years ago • 4 comments

您好,注意到代码中有通过比较新旧两个神经网络输出的KL散度来控制学习率的方法,实验过程中学习率先快速增加然后逐渐减少,说明这个方法确实有用。想问一下这种方法有相关的文献资料的介绍吗?还是您凭经验创造出来的呢?

rommeldhy avatar Jun 14 '18 07:06 rommeldhy

这种方式是从PPO算法(Proximal Policy Optimization Algorithm)论文和一些相关实现中借鉴来的

junxiaosong avatar Jun 20 '18 03:06 junxiaosong

@junxiaosong 原来如此,非常感谢!

rommeldhy avatar Jun 20 '18 05:06 rommeldhy

都说为啥和TRPO的思想有点像。。。

hijkzzz avatar Jan 03 '19 00:01 hijkzzz

能问下里面的kl的阈值和学习率调整参数的值是凭经验吗?还是有一定计算方法?谢谢

zyfo2 avatar Jul 08 '20 09:07 zyfo2