今の将棋ソフトはAlphaZeroを超えている件

AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニング強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。

 

人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-2-8で破ったAlphaZero。elmoとのレート差は約400。コンピュータ将棋も終わった。

 

......と思ったかも知れません。あの時は。

 

しかし、AlphaZeroの論文(2017年12月発表)から1年も経たないうちその神話は終焉を迎えました。

 

レーティングサイト(/)のレーティング表からもお察しの通り、今の将棋ソフトのレーティングはelmo+400ぐらいの値が出ています。

 

f:id:qhapaq:20181006174130j:plain

 

orqha0926はorqhaの最新バージョン(公開版orqhaに対してR+50くらい)です。測定者はロタさん、棋譜こちらからダウンロードできます。勝率88%。素のレートでいえばAlphaZeroより40程度低い値です。しかし、原著論文は

 

・AlphaZero(TPU)とelmo(CPU)の計算資源は費用比較だとAlphaZeroがかなり有利

・AlphaZeroの試合回数が100しかない(orqha vs elmoだって途中経過では156-1-14(91%)ぐらいの勝率は出てた)

・投了値がなぜか-900になっていて、終盤戦が出てこない

・elmoをElmoとtypoしてる

 

と言った問題点を抱えています(その代わりにorqhaの棋譜は持ち時間が大分短いわけですが)。

 

勝率差がここまで詰まっているのを鑑みれば、ハードの違いを加味すれば今の最強のソフトはまず間違いなくAlphaZeroより強いでしょう。

 

【以下、プロレス的な煽り文】

DeepMind恐れるに足らず。TPUにいくら使ったか知りませんが、その覇権とやらを打ち崩すのに6コア12スレのPCがあれば十分です。

ブレイクスルーだ、技術的失業、シンギュラリティだと宣いますが、巨人の肩を甘く見るからこういう目にあうのです(まあ、orqha自身がやねうら王、NNUE、illqhaの肩に乗ってるのは公知の事実ですしの)。

どうでしょう、DeepMindに材料開発部門ができたら私を雇ってみませんか?

 

【追記:露骨な宣伝】

AlphaZeroを恐らく超えているだろうNNUE関数のorqha。その開発者によるコンピュータ将棋の教科書が技術書典で頒布されます。

 

アピール文のページはこちら:

qhapaq.hatenablog.com

イベントのページ:

https://techbookfest.org/event/tbf05
https://techbookfest.org/event/tbf05/circle/53170003

 

良ければ足をお運びください。web通販も予定しています!