AlphaZero_Gomoku icon indicating copy to clipboard operation
AlphaZero_Gomoku copied to clipboard

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

Results 77 AlphaZero_Gomoku issues
Sort by recently updated
recently updated
newest added

您好!论文中提到对prior probabilities in the root node添加dirichlet noise,按[AlphaGo Zero](https://deepmind.com/documents/119/agz_unformatted_nature.pdf)和[AlphaZero](https://arxiv.org/pdf/1712.01815.pdf)论文里的notation来看,这里的prior probabilities应该指的是policy value network在feedforward相应的game state后输出的move probabilities,而不是mcts playout之后用visit count算出的search probabilities,但看下面这里好像是在visit count算出的search probabilities上加了dirichlet noise? https://github.com/junxiaosong/AlphaZero_Gomoku/blob/66292c55cc53acfae7f7bc5a15a370571549bdd9/mcts_alphaZero.py#L190-L198 下面是下赢奕心那位的implementation,看起来是在root node的move probabilities加了noise的 (另外注意到他的alpha用了0.04,估计是因为用的15x15的棋盘?) https://github.com/zhongjn/gomokuer/blob/f44a6f3389b9a97647ce3c8fef17d0363cdb609b/search.cpp#L186-L188

alphazero的原文里写的前30步走子设置tau=1,即按照概率随机选取动作。之后设置tau趋于0,再采用概率加上狄利克雷噪声的方式选取动作。 这里的实现好像是tau=1,再加上狄利克雷噪声。 这两种方法有理论上或者直觉上的差异吗?

首先感谢分享程序。 请问在6x6 四子棋的训练过程中,有没有调节learning_rate或者其他参数? 程序里的c_puct=5 , 温度t=1,学习率 0.002,batch_size 512 , deque最大长度10000, kl-targ=0.02 ,epochs=5 我使用你程序里的预设参数 tensorflow训练6x6 四子棋 ,loss下降到2左右就无法下降了,调节学习率也没成功。。。求帮助解答,谢谢 另外,不明白explain_var_old这个参考数值的意义。

mcts_alphaZero.py中 137行 不应该是传leaf_value么?

编译后model_file显示没有定义,请问如何添加文件至工程中?

请问给的best_policy_8_8_5.model 怎么用tensorflow加载啊。 直接用这个路径创建PolicyValueNet类会报错。 谢谢!

@junxiaosong 如果我没看错的话您的评估方式为用current_policy对抗pure_MCTS,如果胜率比最高胜率要高就上位覆盖best_policy。那么我可不可以将评估方式改为用current_policy对抗best_policy,如果current_policy胜率比best_policy胜率更高就让current_policy上位覆盖best_policy。 另外还有个小疑问: ——best_win_ratio是不是train.py训练程序被终止下次重启后初始化为0.0了,这样上次练好的模型会被稍次的model替换了吧。

1、让训练可以中断,中断后可从断点继续训练; 2、分布式训练,以集中多台计算机资源进行训练(参考:http://zero.sjeng.org/ ); 3、保存自对弈数据(棋谱)。

[AlphaPig](https://github.com/anxingle/AlphaPig) I use some human play data to speed up training process, and seems works! Hopes have some help. And thanks a million @junxiaosong

用的是默认的配置:6x6 board and 4 in a row. macos上跑的。 batch i:1100, episode_len:21 kl:0.00058,lr_multiplier:11.391,loss:4.518421649932861,entropy:3.5188446044921875,explained_var_old:0.000,explained_var_new:0.000 current self-play batch: 1100 num_playouts:1000, win: 2, lose: 8, tie:0 请指教。