aobazero
aobazero copied to clipboard
現在のAobaZeroの対elmoの勝率
論文に近い条件でelmo(WCSC27)対戦させた結果が下です。
AlphaZeroはelmoに対して
勝率91.2%(+410)(先手番だと98.2%(+695)、後手で84.2%(+291)) 持時間3時間15秒。1手3分?
AobaZeroはelmoに対して
勝率73.8%(+179)(先手番だと78.3%(+223)、後手で69.1%(+140)) 1手10秒相当
ですので、+231 ほどまだ差があります。 w1650 と少し古いweightの結果で最新は +40 ほど強いので差は +191 ほどかもしれません。
先手番の差は +472(695 - 223)
後手番の差は +151(291 - 140)
と、先手番での差が大きいです。 気になる要因としてはAlphaZeroは思考時間が長いほど先手勝率が高く、 1手10秒相当のAobaZeroもその傾向が出ています。1手3分相当で今の20倍ほど 時間をかければレート差は小さくなるのかもしれません。
AlphaZeroは思考時間が長いと先手勝率が高い https://github.com/kobanium/aobazero/issues/36
AobaZero vs elmo(WCSC27) (AlphaZeroの論文の1手10秒相当)
全体勝率 0.738 (86勝5分29敗) +179 Elo
先手勝率 0.783 (46勝2分12敗) 宣言45勝 +223 Elo (後手との差 +83 Elo)
後手勝率 0.691 (40勝3分17敗) 宣言25勝 +140 Elo
AobaZero, w1650, 580000 playout/手, 最初の30手までは勝率2%以下ならSoftmaxで選択。
elmo(WCSC27) 251000k /手, 6 threads, HASH 8GB, elmo付属の定跡使用
この120局で、2080Tiの学習の空き時間を使って2か月半かかってます。