読者です 読者をやめる 読者になる 読者になる

アピール文から読み解くWCSC27の見どころ(技巧編)

久々のシリーズ物として、WCSC27に参加しているソフトのアピール文を、私、Qhapaqの開発者が読解/解説していきたいと思います。本シリーズを通じて、皆様がコンピュータ将棋を好きになってくれれば、そして、人工知能の織りなす科学を楽しんでいただければ幸いです。

 

前回記事:アピール文から読み解くWCSC27の見どころ(ponanza_chainer編)

 

注:以下の考察はQhapaq開発者の予想です。開発者に確認をとっているわけではありません。あくまで参考として楽しんでいただけると幸いです。

 

・新境地を切り開く孤高のマイスター 技巧

技巧のアピール文:

http://www2.computer-shogi.org/wcsc27/appeal/Gikou/gikou_appeal_wcsc27.pdf

floodgateに彗星の如く現れ、ponanzaを四間飛車で倒すという鮮烈なデビューを果たした技巧。その伝説は、当時(2017年時点では今も)最もメジャーだった3駒ではなく、2駒と効きを使った評価関数を編み出したこと、突然(?)オープンソース化されたことなど枚挙に暇がありません。技巧が切り開いた将棋は、開発者のみならず、将棋界全体に多大な利益をもたらしています。

以下、技巧がどれだけ偉大であるかをできるだけ解りやすく(?)解説していきたいと思います。

 

・2駒と効きを用いた評価関数

注:幸運なことにもsdt4でのQhapaqのテスト対局の相手は技巧でした(結果は途中終了)。ソフトが無事に稼働するかを眺める間、やることがないので開発者の出村さんと色々ディスカッションをさせていただきました。以下の考察には出村さんから教えていただいた情報も含まれていますが、あくまで私の記憶が元であることをご承知おきください。

技巧を語る上で欠かせない特徴は、評価関数が2駒と効きで表されていることでしょう。効きを評価に組み入れたのは「数の攻めによる突破」や、「玉は包み込むようにして寄せる」といった人間的な将棋の考え方を将棋に取り入れたかったからだと聞いています。

例えば、矢倉の86の地点は歩と銀が効いており、これを突破するには3つ以上の駒で攻める(棒銀なら飛銀歩)必要があります。従来の3駒の評価関数では、関与する駒が4個以上ある形を直接扱うことが出来ないため、実際に駒を動かして検証する他ありませんが、効きを使えば静止探索でもある程度正確に評価できるという寸法です。

こうした特徴から、技巧は駒がぶつかってからが強いと予想することが出来ます。手前味噌の解析で恐縮ですが、技巧 vs silentmajority(浮かむ瀬のバイナリが8月頃のものであり、勝率はほぼイーブン)でのソフトごとの評価値と勝率の分布も似たような現象を示唆(技巧のほうが評価値がより正確に勝率を示している)しています。

jtapi-public-4.appspot.com

 

イデアとしては割と人間的なものである一方、それをゼロから実装するとなると地獄が待っています。技巧のソースコードは非常に解りやすく、美しく書かれていますが、読んでいると段々と怖くなってくることがままあります。

 

・技巧の抱える幾つかのアキレス腱

技巧は特に中終盤の盤面を正確に表せる一方、序盤で形勢を損ねがち(特に6月技巧は)という弱点を抱えているようです(sdt4でのQhapaq vs 技巧も50手目ぐらいで終わったけど、その時点ではQhapaqが少し有利をとっていました)。これは、囲いを評価するときには3駒関係が便利だからではないかと私は予想しています。

例えば、横歩で玉を52においた場合、61金+72銀型や、62銀+72金型などが囲いの候補になります。3駒関係を使えば、これら玉形の点数を変数一つで決められますが、2駒+効きではこうした囲いを評価するのに複数の変数が必要になります。

また、技巧は他のKPPT型のソフトとは評価軸が異なるため、良くも悪くも力にブレが生じがちです。sdt4で技巧は真やねうら王に勝ち、白美神に負けていますが、他のKPPT型ソフトがだいたいレート通りの勝敗をする中で、技巧だけはレートの特異点的な振る舞いをしています。

 

・今回技巧がやって来そうなこと

技巧のアピール文で特に目が行くのは前年度比4倍のXeon軍団です(技巧の技術力を買ってスポンサーが付いたのだと思いたい)。6月技巧のクラスタは短い持ち時間で読んだ良手の候補を、1ノードに1手ずつ割り振るという手法でしたが、64台もあると64位の手はめったに仕事をしないと思うので、1つの手に2つ以上のノードを割り振って楽観合議制にしてくるのかなと予想しています。

学習部について、技巧は実現確率(棋譜から出やすい手筋を学習させているようです。学習部のための学習部は6月技巧でも公開されており、初めて読んだ時は思わず「oh、クレイジー...」とツブヤキました。)を使っていると書いてますが、multipvなどを駆使した実現確率もどきの雑巾ではQhapaqは強くならなかったので、それ以上の工夫を仕掛けてきてると予想しています。ポーカーの論文で話題のQ-learningとかは技巧が組み入れてきそうです。

あと、出村さんがこの記事を読んでいる可能性は低いと思いますが、勝率は自己対戦ではなく浮かむ瀬ややねうら王の勝率ベースでチューニングしたほうがいいと思います。本大会も大半はKPPT勢のようなので。

 

・Qhapaq的総評

独自技術を貫くと、ユーザが多い技術の数の攻めに苦しむことが多々あります。技巧は優れたソフトである一方、独自性に由来した苦戦(前回みたいにponanza以外には全勝とはならない)もすると予想しています。

ただ、ponanzaを倒せる確率が最も高いソフトも技巧だと思います。アンチ雑巾絞りを掲げるライブラリ勢のQhapaq如きが言っていい言葉だかは知りませんが、理論やくざ仲間として技巧のことは応援しています!

前回のWCSCでは当たることが出来なかったので、今回はぜひ戦ってみたい(できれば2次予選の突破を確定させた後で)です。