AlphaZero_Gomoku icon indicating copy to clipboard operation
AlphaZero_Gomoku copied to clipboard

关于MCTS中计算Q值的方法的区别

Open JeffSoong opened this issue 7 years ago • 2 comments

我看一些文章中Q是取的平均值,但是我看代码中Q是滑动平均值,这两个值应该是不一样的,所以想问一下为什么代码中用滑动平均?

JeffSoong avatar Jun 06 '18 03:06 JeffSoong

代码里其实也是算的平均值,只是用了增量计算的形式,如果你展开的话,会发现计算公式如下: Q = ((n-1)*Q_old + leaf_value)/n

junxiaosong avatar Jun 06 '18 11:06 junxiaosong

多谢,这个看的时候大意了,只关注Q值了,没有看到n的加一跟Q是在一块算的

JeffSoong avatar Jun 08 '18 10:06 JeffSoong