AlphaZero_Gomoku issues

Results 77 AlphaZero_Gomoku issues

Sort by recently updated

关于添加Dirichlet Noise的疑问

您好！论文中提到对prior probabilities in the root node添加dirichlet noise，按[AlphaGo Zero](https://deepmind.com/documents/119/agz_unformatted_nature.pdf)和[AlphaZero](https://arxiv.org/pdf/1712.01815.pdf)论文里的notation来看，这里的prior probabilities应该指的是policy value network在feedforward相应的game state后输出的move probabilities，而不是mcts playout之后用visit count算出的search probabilities，但看下面这里好像是在visit count算出的search probabilities上加了dirichlet noise？ https://github.com/junxiaosong/AlphaZero_Gomoku/blob/66292c55cc53acfae7f7bc5a15a370571549bdd9/mcts_alphaZero.py#L190-L198 下面是下赢奕心那位的implementation，看起来是在root node的move probabilities加了noise的 (另外注意到他的alpha用了0.04，估计是因为用的15x15的棋盘?) https://github.com/zhongjn/gomokuer/blob/f44a6f3389b9a97647ce3c8fef17d0363cdb609b/search.cpp#L186-L188

bhpfelix

关于探索度的问题

alphazero的原文里写的前30步走子设置tau=1，即按照概率随机选取动作。之后设置tau趋于0，再采用概率加上狄利克雷噪声的方式选取动作。这里的实现好像是tau=1，再加上狄利克雷噪声。这两种方法有理论上或者直觉上的差异吗？

initial-h

关于五子棋训练的问题 ,以及explain_var_old的意义

首先感谢分享程序。请问在6x6 四子棋的训练过程中，有没有调节learning_rate或者其他参数？程序里的c_puct=5 , 温度t=1，学习率 0.002，batch_size 512 , deque最大长度10000, kl-targ=0.02 ,epochs=5 我使用你程序里的预设参数 tensorflow训练6x6 四子棋，loss下降到2左右就无法下降了，调节学习率也没成功。。。求帮助解答，谢谢另外，不明白explain_var_old这个参考数值的意义。

tfliu

_playout方法中的update_recursive为什么要传入 -leaf_value?

mcts_alphaZero.py中 137行不应该是传leaf_value么？

Leonardo711

关于human_play中编译报错

编译后model_file显示没有定义，请问如何添加文件至工程中？

Curry30h

请问如何用tensorflow加载模型文件

请问给的best_policy_8_8_5.model 怎么用tensorflow加载啊。直接用这个路径创建PolicyValueNet类会报错。谢谢！

moonsin

关于评估方法的疑问

@junxiaosong 如果我没看错的话您的评估方式为用current_policy对抗pure_MCTS，如果胜率比最高胜率要高就上位覆盖best_policy。那么我可不可以将评估方式改为用current_policy对抗best_policy，如果current_policy胜率比best_policy胜率更高就让current_policy上位覆盖best_policy。另外还有个小疑问： ——best_win_ratio是不是train.py训练程序被终止下次重启后初始化为0.0了，这样上次练好的模型会被稍次的model替换了吧。

Joker2770

一些个人建议

1、让训练可以中断，中断后可从断点继续训练； 2、分布式训练，以集中多台计算机资源进行训练（参考：http://zero.sjeng.org/ ）； 3、保存自对弈数据（棋谱）。

Joker2770

use human play data.

[AlphaPig](https://github.com/anxingle/AlphaPig) I use some human play data to speed up training process, and seems works! Hopes have some help. And thanks a million @junxiaosong

anxingle

用tensorflow 训练1000局仍然无法收敛

用的是默认的配置：6x6 board and 4 in a row. macos上跑的。 batch i:1100, episode_len:21 kl:0.00058,lr_multiplier:11.391,loss:4.518421649932861,entropy:3.5188446044921875,explained_var_old:0.000,explained_var_new:0.000 current self-play batch: 1100 num_playouts:1000, win: 2, lose: 8, tie:0 请指教。

yuan9778

AlphaZero_Gomoku
AlphaZero_Gomoku copied to clipboard

Metadata

关于添加Dirichlet Noise的疑问

关于探索度的问题

关于五子棋训练的问题 ,以及explain_var_old的意义

_playout方法中的update_recursive为什么要传入 -leaf_value?

关于human_play中编译报错

请问如何用tensorflow加载模型文件

关于评估方法的疑问

一些个人建议

use human play data.

用tensorflow 训练1000局仍然无法收敛

← Metadata

Owner

Metadata

AlphaZero_Gomoku AlphaZero_Gomoku copied to clipboard

Metadata

← Metadata

Owner

Metadata

AlphaZero_Gomoku
AlphaZero_Gomoku copied to clipboard