コンピュータ将棋における定跡とメタゲーム

1:00 第一版リリース

本稿はコンピュータ将棋アドベントカレンダー 12/11の記事として投稿されたものです。

www.adventar.org

定跡合戦は大会ドラマ上、切っても切れない存在であると同時に、コンピュータ将棋における数少ないメタゲーム要素の一つでもあります。本稿では第四回電王トーナメントまでの定跡の変遷とその思想、更に、今後流行るかもしれない定跡理論について解説いたします。

shogi1.com

棋譜解析という名のチキンレース

コンピュータ将棋開発者の間でも、序盤をどのように指すのが一番良いのかは度々議論されてきました。第四回電王トーナメント前までは定跡は人間や強いソフトの棋譜を解析(変な序盤になってないか、ソフトに読ませ、評価値が悪い棋譜を削る)することで、作られていましたが、読みが浅いと深く読んだ定跡を搭載した相手に苦しく、深く読ませると定跡に搭載できる棋譜が減り、自分だけ定跡から外れた状態になりやすいというジレンマが存在していました。

また、評価関数が変化するたびに定跡もそれに合わせたものにしたいと考えると、何度も棋譜を解析するのは開発効率が悪く、いつ定跡を考えるかというチキンレースにも開発者は苦しむはめになりました。

チキンレースから降りるという発想】

この状態を打破したのが、WCSC26後にリリースされたやねうら大定跡です。やねうら大定跡は点数が良い棋譜を使うのではなく、棋譜の局面でコンピュータが深く考えて出した最善手(またはそれに点数が近い手)を指す方式となっていました。

棋譜の手を直接使わなくなったおかげで、異なるソフトが同じ手を定跡として搭載している確率は飛躍的に減少し、従来の定跡に比べ、かなり早い段階で双方定跡から外れた状態を実現できるようになりました。定跡から外れるような変な手(初手58金とか)は必ずしも良い手ではありませんでしたが、ponanzaでの検証でも大きなデメリットがないことは示唆されていたし、加えて、当時のソフトはボナメソベース(6月技巧もこれ)のものが多く、力戦系を苦手とするものが多かったので、大定跡は多くの定跡に対して良い勝率を得ることができました。

 

各手の勝率:Ponanza調べ 76歩51.39% 26歩51.23% 78金51.07% 68玉49.95% 38銀49.93% 58玉49.86% 96歩49.77% 36歩49.69% 48銀49.6%

 

【時間攻めの武器としての定跡】

大定跡の活躍は、定跡は有利な形を作るためのものではなく、時間攻めの要素として活用するという発想をもたらしてくれました。

例えば、将棋が100手で決着がつくとすれば、最初の10手を自分だけ定跡で0.1秒指しできると持ち時間が1割増えることに相当します。これはレートに換算して20強の価値があり、ponanza解析による初手で変な手を指すデメリットを打ち消すには十分です。

この思想を最大限活用したのが第4回電王トーナメントの真やねうら定跡です。

 

yaneuraou.yaneu.com

大会二日目では真やねうら定跡を搭載した†白美神†が襲いかかってきたため、Qhapaqは大変なピンチを迎えました。しかし、幸いにも(?)前日に新しく実装した時間攻めルーチンが逆に†白美神†を追い詰めることに成功しました。

 

【定跡不要論】

Qhapaqが大会1日目の深夜に実装した機能。それは、「序盤は16手は1手15秒しか読まない」というものでした。序盤は深く読んでも変な手を指しても大勢に影響は出ないのなら、定跡なんて入れず、短い時間で指すようにすれば、評価関数と定跡の不整合などの問題も起こらないという発想です。

※:偉そうに解説してますが、浮かむ瀬が似たようなことをしていたので便乗しただけです

この戦略は少なくとも明確な悪手は指さなかった(評価値は双方100程度で先手良しのまま16手目まで抜けた)し、定跡チキンレースから完全に脱却できるため、定跡の時代は終わったなという気持ちにその時はなりました...

 

【スナイパーとしての定跡】

しかし最近、この定跡不要論を揺るがす新たな定跡が生まれました。そう、まふ定跡です。

http://www.uuunuuun.com/single-post/2016/11/06/%E6%8A%80%E5%B7%A7%E6%96%B0%E5%AE%9A%E8%B7%A1

この定跡は、6月技巧に搭載することで、そのレートを100前後上昇させることに成功しています。加えて、浮かむ瀬などに搭載することで定跡offの状態にも勝ち越すことができるとのことです。

まふ定跡はアマチュアの棋譜などを製作者が人力で解析したものを用いており、その制作過程について細かく評価をすることは難しいですが、定跡を抜けた直後の点数のヒストグラムをとると確かに技巧側に良い局面の割合が増えています。

まふ定跡の特に凄い点は持ち時間や定跡を使うエンジンによらず、レート上昇を成し遂げていることです。これは、まふ定跡が「序盤変な手を指さないようするもの」ではなく「相手が仮にミスをしたら咎めるもの」という毛色を持っているからと言えましょう。

「変な手を指させないようにする」という方針だと変であるか否かの判断が難しいような状態を的確に扱うことができず、評価部が変わるたびに更新をしなければなりませんが、「明確な悪手を咎める」方針であれば、評価部がよほど強くならない限りは定跡は使いまわせることになります。そして、相手が明確な悪手を指さなかった場合は、定跡に頼らずに普通に挿せばいいのです。

 

【近未来の定跡】

ここ暫くの定跡のメタゲームは、改めてまとめると

「変な手を指させないようにする(棋譜ベース)」→「相手に得をさせないようにする(大定跡)」→「自分が損をしない局面を素早く選ぶ(真定跡)」→「損をさせないだけなら定跡を切ればいい」→「相手の悪い手をリスト化すればよい」

ということができます。私自身は、今後定跡は更にスナイパー的な要素を強く持つようになると考えています。定跡を搭載せずに指させる以上に悪い手を指させない定跡を作るのは難しい(ひとつの形を避けてもまた別の形が出てくる)のに比べ、明確に悪い手をリスト化ほうが定跡の質を上げるには堅実だからです。

2020年ぐらいには、「あ、定跡が出てきたってことは、これQhapaq自分がいいと思ってますよ」ぐらい言われるかもわかりません。

 

上記思想に基づき、まふ定跡の悪手を咎める定跡を作っているところですが、まあ、苦戦してます。前回公開した定跡よりは強いのを作って公開するつもりではありますが。。。