AlphaZero_Gomoku 关于KL散度控制学习率的问题

关于KL散度控制学习率的问题

Open rommeldhy opened this issue 7 years ago • 4 comments

您好，注意到代码中有通过比较新旧两个神经网络输出的KL散度来控制学习率的方法，实验过程中学习率先快速增加然后逐渐减少，说明这个方法确实有用。想问一下这种方法有相关的文献资料的介绍吗？还是您凭经验创造出来的呢？

Jun 14 '18 07:06 rommeldhy

这种方式是从PPO算法（Proximal Policy Optimization Algorithm）论文和一些相关实现中借鉴来的

Jun 20 '18 03:06 junxiaosong

@junxiaosong 原来如此，非常感谢！

Jun 20 '18 05:06 rommeldhy

都说为啥和TRPO的思想有点像。。。

Jan 03 '19 00:01 hijkzzz

能问下里面的kl的阈值和学习率调整参数的值是凭经验吗？还是有一定计算方法？谢谢

Jul 08 '20 09:07 zyfo2