Hiroshi Yamashita

Results 21 issues of Hiroshi Yamashita

Hi, I run cgf2023 weight on CGOS. But It seems Sayuri passes without removing all dead stones. http://www.yss-aya.com/cgos/viewer.cgi?19x19/SGF/2023/08/24/876080.sgf Is there any option to remove all dead stones? I use RTX...

enhancement

学習率を今までの `learning rate = 0.001, mini_batch = 64 (mini_batch = 64, iter_size = 1)` から `learning rate = 0.02, mini_batch = 4096 (mini_batch = 128, iter_size = 32)` に変更しました。 次のw775.txtから新しい学習率になります。...

2019年3月に開始して2年2か月で3980万棋譜を作成しました(AlphaZeroは2400万棋譜)。 これまで棋譜作成に協力していただいた皆様、バグを報告したり遊んで下さった方々に感謝いたします。 AlphaZeroには推定で154 Elo(後手番では86 Elo、先手番で377 Elo)負けています(後述)。 将棋のルールだけを教えて「勝ちやすい」という条件だけで一般的に指されてる囲い、戦型の大部分を再発見することができました。 確認された囲い:雁木、矢倉、美濃囲い、高美濃、銀冠、左美濃、中住まい、右玉、矢倉穴熊 確認された戦型:相掛かり、横歩取り、横歩取り青野流、角換わり棒銀、角換わり早繰り銀、角換わり腰掛け銀、 後手四間飛車、矢倉脇システム、ひねり飛車 先手番では振飛車は指しませんが、後手番では四間飛車を好んで指していました。 穴熊も矢倉から穴熊に組み替える矢倉穴熊は指します(▲78金▲67金型)。 ▲78金▲79金の正統な?穴熊は見つけていません。 半面、一目散に穴熊を目指す指し方や、多彩な振飛車(中飛車、三間飛車)などは見つけていません。 人間によって長く指されている指し方を一部発見できていないのはこの手法が万能ではないことも示していると思います。 最終的な棋風は相掛かりや角換わりを好むすぐ殴り掛かる居飛車党でこれはAlphaZeroの公開されている棋譜と似ています。 序盤の微妙な駒組の評価や、王が三段目以上に上がったときの形勢判断、入玉できるか、の見切りの力などが優れていると思います。 半面、終盤での読み抜け、飛角の長い利きをうっかり、などが弱点です。 この後は40blockに移行します。 w3459.txt が最後の20blockで w3460.txt からが 40blockとなります。 39825686棋譜以降は40blockと20blockが混在します。 40blockは1974万棋譜までは20blockと同様に、そこから3970万棋譜までは1局面平均1回、でなく(1/8)回学習するように8倍速で学習したものをベースにしています。強化学習前で +70 Eloほど 20 blockより強いです。有効数字を6桁から3桁に変更することでweightの*.xzのサイズは76MBから80MB、と少し増えただけになっています。有効数字は2桁でも最新のw3435でも棋力に変化はありませんでした。...

Since March 2019, we have generated 39.8 million games for 2 years and 2 months (AlphaZero has generated 24 million games). We would like to thank everyone who has cooperated...

投了の棋譜ですが、現在も投了の閾値を自動調節するために全体の10%の棋譜で投了を禁止しています。 2212万棋譜以降で、棋譜の3行目に "-r 0.0" がついている棋譜のみを対象とした場合、 '-q -r 0.0 棋譜の最後が下のいずれかで終わっているのが閾値で投了した棋譜で %TORYO,'autousi %TORYO,'autousi,resign-th= 何もついていない下の形式が投了を禁止して詰み上がりまで指した棋譜になります。 %TORYO 棋譜数は減ってしまいますが、この形式の棋譜だけを学習対象とすれば長手数の棋譜も以前と ほぼ同じ割合で含まれていると思われます。 下はKristallweizenと1手800playoutで対戦させた場合の宣言勝ちの割合です。 現在は先手では60%、後手では25%が宣言となっています。 一番多かったときは先手で80%で、w2770付近から急に減少しています。 ほぼweight_decayを小さくした時期(w2750)と一致しますが、それより少し前の 投了10%(w2250)、投了自動調整(w2564)の影響かもしれません。 ![20210312dec_krist](https://user-images.githubusercontent.com/35514258/111235454-08439400-8634-11eb-82f8-05c58c2dcaa6.png)

論文に近い条件でelmo(WCSC27)対戦させた結果が下です。 AlphaZeroはelmoに対して 勝率91.2%(+410)(先手番だと98.2%(+695)、後手で84.2%(+291)) 持時間3時間15秒。1手3分? AobaZeroはelmoに対して 勝率73.8%(+179)(先手番だと78.3%(+223)、後手で69.1%(+140)) 1手10秒相当 ですので、+231 ほどまだ差があります。 w1650 と少し古いweightの結果で最新は +40 ほど強いので差は +191 ほどかもしれません。 先手番の差は +472(695 - 223) 後手番の差は +151(291 - 140) と、先手番での差が大きいです。 気になる要因としてはAlphaZeroは思考時間が長いほど先手勝率が高く、 1手10秒相当のAobaZeroもその傾向が出ています。1手3分相当で今の20倍ほど 時間をかければレート差は小さくなるのかもしれません。 AlphaZeroは思考時間が長いと先手勝率が高い https://github.com/kobanium/aobazero/issues/36 AobaZero...

重みの更新を10000棋譜から34285棋譜に変更しました。 これはAlphaZeroが2400万棋譜、70万回学習、mini-batch=4096、1000回学習ごとに重み更新、なので 3.4285万棋譜(=2400/(700000/1000))に合わせたためです。 今までは1万棋譜ごとで直近の50万棋譜からサンプリング、なので50世代、 3.4285万棋譜だと15世代が含まれます。 mini-batch=128 だと32000回学習((4096/128)*1000)ごとに重み更新、なので 3.4285万棋譜で32000回学習になるように 1棋譜あたり1.07142回学習されるように 棋譜追加時の学習回数も調整しています。 今までは1棋譜あたり1回の学習でした。 1回で128局面を学習するので現在の平均手数85手だと1局面あたり1.41回ほど学習することになります。

棋譜生成される方は更新をお願いします。 投了勝率が自動調節になりました。間違った投了の割合が5%未満になるようにしています。 現在の投了の勝率は23%とかなり大きな値です。 この影響で投了なしだったときは平均手数が141手だったのが 10%で投了、で105手に 23%で投了、で82手ぐらいまで下がってます。 閾値の確認のために全体の10%の棋譜では投了せず、その棋譜の直近1000局(正確には0.999の指数移動平均) 新しい推定値 = 古い推定値 * 0.999 + 0.001 で間違った投了が5%未満になるようにしています。 これに関連して棋譜(*.csa)のフォーマットが変更になってます。 +6978KI,'v=0.545,800,6978KI, ... のように "v=" でMCTSで探索して最大回数の手の勝率、を追加しています。(実際に着手した手ではないです)。 勝率は自分の手番から見た勝率でv=1.0で自分が勝ち、v=0.0で負けです。 https://github.com/kobanium/aobazero/releases また2225万棋譜まで公開されています。 https://drive.google.com/drive/folders/1dbE5xWGQLsduR00oxEGPpZQJtQr_EQ75 水たまりさんが、一括してダウンロードできるスクリプトを公開されてます。 AobaZeroの棋譜をコマンドラインからダウンロードする https://tokumini.hatenablog.com/entry/2020/09/11/140000

現在、developブランチで勝率10%以下で棋譜生成の自己対戦を投了するようにしています。 ただし、投了の間違い(最後まで指せば勝つのに投げてしまった)の割合が5%以下なのを確認するために 対戦の10%の棋譜では投了しないようにしています。 勝率10%で投了させることで間違う割合は1.23%ほどです。 投了させることで、囲碁の9路では棋力の向上があった、とのRayの小林さんの報告があります。 勝敗に影響のない局面(26%ほど)が減り、より重要な局面を学習できるためかもしれません。 この影響で平均手数も141手から132手に減ってます。aobazのバージョン13から適用されてます。、 Colabで動かすと投了が適用されます。近日中にv1.6にリリースも更新します。 投了勝率 全棋譜数 勝率で投げた数 間違った投了 割合 全手数 減る手数 割合 1% 2926 2526 1( 0.04 %) 408681 57413( 14.0 %) 2% 2926 2580 4(...

AobaZeroは対Kristallweizenとの棋力計測に磯崎氏が作成された互角局面集を使っています。 これを使わずに「やねうら王 標準定跡」を相手側だけつかうようにすると AobaZero w1650の1手800 playoutは Kristallweizen 1手500k 相手だと +114 ELO 強く、 elmo 1手346k 相手だと +155 ELO 強くなります。 これは互角局面集にAobaZeroが指さない戦型(穴熊や先手振飛車、対振で船囲いから急戦など)が 含まれてるためと思われます。 Kristallweizenやelmoも自分の評価関数が得意な戦型だけを選ぶように調整すれば強くなるでしょうし、 双方に公平な条件での勝率の測定は難しそうです。 AobaZero(w1650)の1手800playout 対 Kristallweizen、elmoで互角局面集、standard_book.dbを使った場合。 AobaZeroは一切乱数性なし。 Kristallweizen 1手500k 勝 分...