AlphaZeroに投了宣言しないといけないかも知れない

AlphaZeroの論文が出てきました。arxivに出してた論文はイケてなかったですが今回のはイケてます。

 

前回の論文に対しては今の御時世でWCSC27のelmoに勝ったぐらいで convincingly defeated a world champion program とか言わないでよとか、投了の基準が900点なの意味がわからんとか、定跡はどうしたのかとか、棋譜がないのはどういうことかとか散々な評価をした記憶があります。

 

が、なんと今回は棋譜があります。しかも羽生竜王棋譜コメを貰ったようです。棋譜の公開に伴い、戦型の分布も明らかになりました。Zero言いながらちゃんと居飛車を指します。WCSC28でCrazyShogiも矢倉組んでたので驚くほどではないかも知れません。

 

そして、棋譜の公開と同じくらいイケてるのがaperypaq(Apery-Qhapaq関数、略してaperypaq。2017年末から2018年頭ぐらいにかけてsotaだった)を相手にも対局をしていることです。というのも、AlphaZeroとやねうら王+KPPTとでは探索も評価も異質であるため、AlphaZeroとやねうら王系列のレートを同じ土俵で扱って良いのか解らなかったからです。

 

QRLのレーティングではelmoとaperypaqのレート差は170程度、AlphaZeroとelmoのレート差が(勝率91%、400ちょい。なおelmoもaperypaqも探索部のバージョンが4.79にあがっている)なので、AlphaZeroとaperypaqのレート差は230程度となり、AlphaZeroの勝率は80%程度と予想されます。aperypaqを相手にした勝率は図でしか与えられていませんが

 

f:id:qhapaq:20181207215404p:plain

 

こんな感じになっており、図の長さから測定すると約88%(勝率から換算されるレートはaperypaq+340)程度の勝率であると推測できます。測定誤差の範囲かもしれませんが、KPPT同士の対局で強くなってもAlphaZeroに対する勝率があまり上がらないことが示唆されています。

 

個人的にそれに輪をかけてきな臭いのが先手の圧倒的な勝率の高さです。今のコンピュータ将棋が先手ゲーであることは間違いないですが、先後のレート差は精々50程度(先手6割行かないかなぐらい)です。しかし、AlphaZeroの先手は後手に比べてレートに換算して100程度の上昇を果たしています。未だ我々が知らないだけで将棋は想像以上に先手ゲーなのかも知れません。AlphaZero同士の対局での先手勝率が知りたい!!

 

さて、こうなるとorqhaやnnuekai7がelmoに対して90%前後の勝率を出していたとしても、AlphaZeroにはすり潰されてしまう危険があります。後手番なんて特に危ないでしょう。

 

が、このまま引き下がるのも悔しいので手元に潜ませているもっと強いorqha(レートnnuekai7+40ぐらい)の棋譜を公開します(ロタさんありがとう!)。orqhaでもelmoに9割は勝ちます。しかもTPUを買わなくてもサクサク動く。凄い!

 

CPUとTPUの差とか電気代とか学習コストとかを考えるとAlphaZeroの convincingly defeated a world champion program はある程度は話を盛っている気がしますが、前回の論文と違って今回の論文を読んだ感じ、予算度外視で戦えばAlphaZeroが勝つだろうと言わざるを得ません(前の論文の時はそこまで強そうじゃなかったんですが)。即ち相手としてAlphaZeroは追わねばならない存在なのだなと感じました。お見事。

 

【余談】

視力の良い人なら気付くかもしれませんが、前回の論文ではelmoがElmoとtypoされていましたが、今回の論文でもaperyqhapaqがaperyphapaqとtypoされています。あとelmoもElmoのままです。AlqhaZEroェ......

 

これを機にコム将棋海外勢が増えたら良いなと思い、将棋ソフト導入wikiを創ってみました。良ければ編集よろ