aobazero
aobazero copied to clipboard
AlphaZeroは思考時間が長いと先手勝率が高い
今まで気づかなかったのですが、論文のFig 2をよく見ると AlphaZeroはelmoに対して思考時間が長いほど、先手での勝率が上がっています。
下はグラフから読み取ったAlphaZeroの対elmoの勝率です。 グラフに合わせて、AlphaZeroが後手のとき、先手のとき、の勝と引き分けの値、 そして先手と後手での勝率の差です。
思考時間が1/100の時は、先手と後手の差は+30 ELO、勝率で0.54程度の差で、 これなら通常の将棋の勝率に近いです。 しかし、思考時間を増やすごとに先手と後手の差は広がり、 same time(持時間3時間)では +390 ELO もの差になっています。
AlphaZeroは探索速度は4TPUで 58000回/秒 なので持時間3時間の100分の1、108秒だと 1手1秒程度かと思います。elmoは 44 threadで 25100k /秒 です。
現在のAobaZero(w1650)の勝率は
1手 800 playout 対 elmoの1手 346k 勝率 87.9% (先手勝率 89%、後手勝率 87%)
1手 8000 playout 対 elmoの1手 3462k 勝率 78.9% (先手勝率 81%、後手勝率 77%) 先手で宣言勝ちは95%の割合
1手58000 playout 対 elmoの1手 25100k 勝率 計測中
まだ先手勝率が上がっていく気配はないです。 1手1秒の再現実験でも20日間かかり、持時間3時間で1000局の再現実験は3年ぐらいで厳しそうです。
AlphaZeroの対elmoでの思考時間を変えた時の勝率(グラフから読み取った数値)
勝 引分 勝率 ELO 先手と後手の差(ELO)
1/100
42.8%, 5.6% (45.6% -31 )
49.6%, 0.5% (49.9% -1 ) +30
1/30
68.0% 2.1% (69.1% +140 )
79.1% 0.9% (79.6% +237 ) +97
1/10
69.9% 2.8% (71.3% +158 )
91.2% 0 % (91.2% +406 ) +248
1/3
80.0% 1.6% (80.8% +250 )
95.2% 0.8% (95.6% +535 ) +285
same time
84.2% 2.2% (85.3% +305 )
98.2% 0 % (98.2% +695 ) +390
A general reinforcement learning algorithm that masters chess,shogi,and Go through self-play https://science.sciencemag.org/content/sci/362/6419/1140.full.pdf