量子ガシャ用のツールの完全版、及び河童定跡の棋譜を公開します

量子ガシャを用いた定跡生成用ツールを公開します。本ファイルのアップロードを以て、河童定跡生成に必要なツールは全部揃った(少なくとも、私が定跡を作るときに使ったツールは全部公開した)ことになります。使い方の詳細はツールに同梱の"look_at_me.txt"をご覧ください。

定跡は作る気はないけど、手元の浮かむ瀬ややねうら王の棋譜を解析して序盤研究したいという方もツールごとDLしてください。使い方については"棋譜抽出用ソフトとして使いたい場合.txt"をご覧ください。

 

【重要】onedriveの課金契約がそろそろ切れるので、このファイルは引っ越しする可能性があります。twitter 等で拡散する際は、本ブログのページを拡散していただけると幸いです。

https://1drv.ms/u/s!Ag5CrRBmeQHym19Ql_bDEC7fJB19

(やねうら王Quaga、bookmaker、carnival.bat、が入っています。これ単体で定跡作成が可能になります)

 

【ライセンス】

大した作品ではないですが、親元のやねうら王に準拠して本ツールもGPLライセンスに従います。本ツールを使って定跡を作成した方は、良ければ本ツールを使った旨を明記していただけると幸いです。

 

【河童定跡の勝利局集】

今まで作ってきた河童定跡の棋譜を量子ガシャ同梱のcarnival.batで分けたものを公開します。Qhapaqが先手/後手勝ちやすいと思ってる局面集として戦略研究に使うもよし、Qhapaqの弱点を探して大会でQhapaqをボコボコにするもよしです。

ver 四間飛車

https://1drv.ms/u/s!Ag5CrRBmeQHym2EFi3jLMa8ChjhU

ver 一手損

https://1drv.ms/u/s!Ag5CrRBmeQHym2C7pZvgOvJD7kz_

 

【読み方】

sente-x フォルダ内には先手が上手くやったと思しき棋譜

gote-xフォルダ内には後手が上手くやったと思しき棋譜が入っています。

将棋guiで作った棋譜ファイルなので将棋guiで読むこと推奨です。

手元の将棋guiがShogiGUIv0.0.5.4なので、バージョンの違いによっては上手くコメントが表示されないかもしれません。お許しください…

後手番でやたら早繰り銀をやりたがるQhapaqの一手損定跡を公開します

四間飛車検証の途中ですが、竜王戦が近いということでQhapaqに一手損を研究させていました。

 

研究の結果、やたらと早繰り銀をやりたがる定跡が完成しましたので、ここに公開します。

https://1drv.ms/u/s!Ag5CrRBmeQHym1zqL3m1rtKNKQNv

 【使い方】

やねうら王のstandard_book.dbを差し替えてください。

やねうら王Quagaをお持ちの場合はquantumbookを、そうでない場合はnarrowbookをonにすることを推奨します(多分offだと弱い)

76歩、34歩、86歩、88角成を初期局面として定跡を作っています。一手損以外の定跡は持たせていません。

WCSC参加者が大会で本定跡を使うことも可能です。詳しくは

やねうら王系列最強(?)のQhapaq定跡を公開します(二代目)[12.18マニュアル更新] - qhapaq’s diary

をご覧ください。

 

【特徴】

もともとの一手損は後手勝率が43%弱であり、ノーマル四間飛車程ではないにしても、後手にとって良い戦略とは言えない(とQhapaqは思っている)ようでした。

しかし、量子ガシャと定跡スナイパー理論を用いて、

vs 定跡off  1938 - 177 - 1640(46%)

vs 大定跡   1949 - 163 - 1665(46%)

vs 真定跡 1904 - 174 - 1790(48%)

まで勝率を高めることができました。

Qhapaqでの後手勝率は47%強であるため、 後手番戦略としては許されるレベル...かもしれません(先手も最適化すればまた後手の勝率は下がるでしょうけど)。

 

【やたら早繰り銀をやりたがる件】

表題の通り、河童一手損定跡はやたらと早繰り銀をやりたがる傾向にあります。特に先手が早繰り銀をやる場合、腰掛け銀ではなく相早繰り銀にしたがるようです。

f:id:qhapaq:20161222011023p:plain

76歩、34歩、86歩、88角成から

42銀、25歩、33銀、48銀、62銀、77銀、32金、36歩、74歩、37銀、73銀、78金、84歩、68玉、85歩、46銀、64銀、58金、52玉

一手損相早繰り銀は今年の竜王戦では出てきましたが、素人観る将にはあまり縁のない形です。でも、Qhapaqは後手でも早繰り銀が好きなようです。加えて、Qhapaqは後手の玉をやたらと52に置きたがります。

相手が腰掛け銀の場合は52玉はやりにくいらしく、42に玉を動かしてきますが、早繰り銀なら兎に角52に玉を置きたいらしく、相手の銀の態度が決まるまで玉を動かさないぐらいの心意気で52に玉を置きたがります。

Qhapaqに長時間読ませたところ、この局面自体はほぼ0点で互角だそうです。

 

上記局面からの後手の勝ちパターンは幾つかありますが、基本的に攻め合いに持ち込み飛車先の突破を目指します。52玉、61金の意味が解りやすい例を一つ紹介します。

f:id:qhapaq:20161222013414p:plain

上の図から、66歩、75歩、同歩、同銀、76歩打、86歩、同歩、同銀、同銀、同飛、87歩打、76飛、77銀打、72飛

この局面でQhapaqに長く読ませると-400ぐらいで後手が良いと言っています。ここで先手の候補手は83角打と出ますが、飛車には紐がついていますし、72角成、同金の局面では先手には飛車を打つスペースがありません。かといって、2筋を突破しても後手玉は遠く、後手からは76歩という解りやすい攻めがある上に角の打ち込みスペースも豊富であるため、後手やりやすいということなのでしょう。

実際の棋譜はここから83角打、76歩打、88銀、71飛、35歩、同歩、同銀、74銀打以下、後手が快勝しています。

一歩間違えれば後手玉は即座に崩壊するので怖くはありますが、一手損には先手早繰り銀としてくる相手をシンプルな攻めで殴り倒せる魅力的な戦法なのではないかと期待しています。

 

【追伸:Qhapaqの勝利局集について】

勝率測定用に使った棋譜が全部で15000局ぐらいあり、これら全てをアップロードすると貧弱な河童ハウスの回線は潰れてしまうため、ネット回線を確保し次第の公開となります。同時に、将棋guiでのコンピュータ将棋同士の対戦の棋譜ファイルの中から先手/後手がうまく指した(一定以下の点数を出さなかった)棋譜を抽出するツール、bookmakermakerも公開予定です。お楽しみに。

Qhapaq振り飛車が居飛車穴熊に勝てない件

今週からは暫く、量子ガシャを使った戦型研究について解説していきます。第一弾はみんな大好き(?)四間飛車です。


【開始局面】
76歩、34歩、26歩、44歩、48銀、42飛

f:id:qhapaq:20161217232659p:plain

まで進んだこの局面とします。理想的には角交換とか中飛車とかから最強の振り飛車を決めたいのですが、ある程度序盤を強制しないと振り飛車を弱いと思ってるコンピュータは振り飛車にしてくれないのです。この局面から定跡無しで戦わせる(0.2秒将棋。1手10万局面程度読んでる)と後手勝率は40%弱。戦型の縛り無しで戦わせると後手勝率は48%前後の値が出る中でこれなので、確かに居飛車に比べて弱いと言えます。

【学習結果(12.17時点)】

量子ガシャを用いて定跡を整備した結果
vs 定跡off 520 - 27 - 462 (47%)
vs 真定跡 553 - 30 - 437(44%)
vs 大定跡 544 - 41 - 391(41%)

となりました。定跡offに対して大分強くなった一方で、何故か大定跡にだけ妙に弱い結果となっています。一体何が起こったのでしょう。

【河童振り飛車は急戦派?】
河童振り飛車定跡に登録された、振り飛車側がうまく勝ったという棋譜を眺めてみます。
vs 定跡off

開始局面から 68玉、62玉、58金、33角、78銀、32銀、96歩、94歩、86歩、72玉、79玉、45歩

f:id:qhapaq:20161217232902p:plain

 

開始局面から、定跡offで最も頻繁に指される手は68玉のようです。居飛車側は78銀を早めに決めて、銀冠、左美濃、高美濃を見せています(これが本当にいい手かは謎です。相居飛車での居角左美濃の影響かもわかりません)。これに対して河童振り飛車は美濃囲いの完成すら待たずに45歩から開戦を要求しています。

人間的な推理をするならば、振り飛車の大きな問題点は手損であるが、居飛車の76歩が陣形の傷になっているうちに勝負をしかければ、実質的な手損は解消できるといったところでしょうか。

【大定跡の秘策 66歩】
開始局面を大定跡に読ませると手の候補が6つ(66歩、56歩、58金、68玉、77角、25歩)あがってきます。この中で、定跡offで指されにくい手が66歩と56歩です。

 

66歩からの変化一例:

62玉、68玉、45歩、58金、32銀、25歩、33角、56歩、72玉、57銀、82玉、78玉、92香、77角、43銀、98香、94歩、68金、91玉、96歩、82銀、88玉、54銀、99玉、71金、88銀(図面では先手番となってますが実際は後手番です)

f:id:qhapaq:20161217233852p:plain

56歩についても、52金、66歩、64歩、68玉・・・以下、持久戦模様になりがちです。

 

66歩と早々に角道を塞いでしまう、46歩からの4筋の歩交換を許すなど、よく言われる将棋の教訓に反しまくっているのが特徴的です。

66歩が形として本当に優れているのか、または、自分から攻めにくい局面にすることで持久戦模様にする確率を上げているのか(※)はわかりませんが、定跡offと大定跡との勝率差を見る限り、振り飛車で持久戦を相手にするのは辛いとQhapaqは思っているようです。

※:コンピュータに指してほしくない手を指させないために、敢えて形を限定するような手を早いうちに指すという戦略は開発者にはよく知られた手法です。例えば、昨年のapery定跡は振り飛車を避けるために初手を26歩に固定している、などです。

 

【河童定跡を用いた居飛車穴熊対策】

勝率的にQhapaq振り飛車が持久戦を苦手にしていることに加え、「基本的にその場の読みに任せるが、序盤から有利になる手をストックしておくことで適宜相手を狙撃する」という定跡スナイパー理論は手数の長くなる将棋を苦手としています。

藤井システムなどの有力な対策を定跡に仕込み、20手ぐらいまではそれを使い、20手目以降はスナイパー理論を使うなどの手も考えられますが、ハム将棋並みの棋力と、4筋の歩がぶつかった後の角換り並の暇しか持たない私には辛い話です。

そこで現在、大定跡との対局回数を増やし、レパートリーの暴力で持久戦での戦い方を模索するという方針をとっています。四間飛車が本当に居飛車穴熊を苦手としているのであれば、棋譜を増やしたぐらいでは勝率は上がらないのでしょうが、棋譜を増やした結果、定跡が短い手数で途切れにくくはなりました。

河童振り飛車定跡を公開する際は、定跡用に喰わせた棋譜も一緒に公開する予定です。居飛車穴熊対策を加えようとすると、ものすごい数の棋譜が必要になってしまいますが、コンピュータが思う勝ちやすい振り飛車局面集として、みなさまの将棋研究に役立てば幸いです。

 

四間飛車の次は一手損角換りに挑戦予定です。一手損は竜王戦で非常に注目を浴びていますし、戦型強制能力が高いためうまく回れば非常に役に立つと言えましょう。Qhapaqの予備実験では後手勝率が43%と少々苦しい戦略と思われているようですが、果たしてどうなることやら。

やねうら王系列最強(?)のQhapaq定跡を公開します(二代目)[12.18マニュアル更新]

アドベントカレンダーで紹介した「定跡スナイパー理論」に基づいて独自に作成した、やねうら王のstandard_book.db形式の定跡ファイルを公開します。

【重要】onedriveの課金契約がそろそろ切れるので、このファイルは引っ越しする可能性があります。twitter 等で拡散する際は、本ブログのページを拡散していただけると幸いです。

https://1drv.ms/u/s!Ag5CrRBmeQHym1eN0ayk5kjCjBLA

前のバージョンはこちら:

やねうら王系列最強(?)のQhapaq定跡を公開します - qhapaq’s diary

定跡スナイパー理論についてはこちら:

コンピュータ将棋における定跡とメタゲーム - qhapaq’s diary


同時に、スナイパー定跡を高速に抽出する手法、「量子ガシャ」(QuantumGasha、略してカガとお呼びください)用のルーチンを搭載した
やねうら王Quagaと量子ガシャによる定跡作成ツール群も公開します(ただし極めて使いにくいです。余裕があったら今後アップデートします)。やねうら王Quagaは真やねうら王のnarrowbook部分を書き換えたものです。

https://1drv.ms/u/s!Ag5CrRBmeQHym1jRQupgBuACe1Sm

ソースコードはこちら:

https://1drv.ms/u/s!Ag5CrRBmeQHym1tb0Pg60-tcUS9T

正直、バグやらマニュアルの不備やらで無事に動かない確率がかなり高いと思います。トラブルが生じた際は私のtwitterまでご連絡ください。


【使い方 for 河童定跡】
standard_book.dbをこのファイルに挿げ替えてください。
やねうら王でnarrowbookをonにするか、やねうら王QuagaでQuantumbookをonにしてお使いください。offでも動きますが、恐らく弱くなります(未検証)

【特徴】
・standarad_book形式(棋譜にある手をそのまま指す)形式です
・それなりに幅広い手を指すようにしています(先手後手あわせて1800局程度収録)
・手元のPCでの0.2秒対局(2コア、一手当たりに読む鏡面は10万程度、最新版Qhapaqバイナリ(非公開、真やねバイナリより少しだけ強い))で

vs 真定跡 813 - 63 -716

vs 浮かむ瀬 with まふ定跡 1511 - 97 - 2020

参考資料:

真定跡 vs 浮かむ瀬 with まふ定跡 907 - 90 - 1769

※:浮かむ瀬はやねうら王に比べ短い時間で強くなるようにチューニングされています。故に定跡の質が全く同じでも勝率は50%にはなりません。余談ですが、長い持ち時間ではやねうら王のほうが強くなるそうです(参考:http://www.uuunuuun.com/

※:本来は河童定跡を浮かむ瀬で動かすか、まふ定跡をやねうら王で動かすべきなのですが、インフラ整備をする暇がなかったので読者の宿題とします。


という成績をあげています。既存定跡に対する勝率はあまり上がりませんでした(もとい、まふ定跡への勝率が下がるのが嫌で前のバージョンから変えてない)が、まふ定跡への対策をかなり厚くしました。他のやねうら王定跡に対してレート20ちょい、対まふ定跡については他定跡に比べ50程度上昇しています。

 

【手法としての特徴】
・定跡生成に人間による局面評価を一切挟んでいません。
・相手の癖や手の勝ちやすさを機械が自動で解析+対策する仕様ですのでソフト対策や戦型研究にも使えるはずです

【WCSC参加者の皆様へ】
まふ定跡、やねうら王ライブラリの定跡との対局棋譜をベースに作っているので、私にどれだけ著作権があるかは謎ですが、私個人はWCSC参加者の本ライブラリの仕様を妨げることは致しません。ただ、ご利用の際は、使っている旨をアピール文などに書いていただけると幸いです。仮に私に著作権があるなら、本定跡はGPLライセンスに従います。

まふ定跡の扱いについてのまふ氏の見解は、2016/12/13時点では、最新版まふ定跡のreadmeにて確認可能です。

【謝辞】
本定跡の作成にあたり、定跡の可能性を再発見してくださった、まふ定跡制作チームの皆様に感謝申し上げます。


【本定跡の作成方法と河童定跡メイカーの公開について】
本定跡の作成にあたり、量子ガシャという最適化手法を開発しました。
本手法は量子焼きなまし法を将棋に適用することで導出されているのですが、導出には理系大学院クラスの数学物理知識が必要なので割愛します。
なお、導出は死ぬほど面倒ですが、アルゴリズムは恐ろしく楽な作りです。

**注意:これらツールは自己責任でお使いください**

以下、OSはwindows。やねうら王Quaga、及び、bookmakerを用いての開発を前提とします。

一応、手元のwindowsでは動きましたが、環境依存性はあってもおかしくありません。使用は自己責任でおねがいします。


1.対策したい相手(エンジン、評価関数、定跡)とstandard定跡、大定跡、真定跡、評価関数に乱数を載せたnobookなど戦わせます。
別に上記のような構成にする必要はありません。棋譜がある程度バラけていればよいです。自動対局は将棋所、将棋guiなどをお使いください。

2.定跡を載せたい方のエンジンが勝った棋譜を抽出する
例えば、河童定跡/大定跡/ランダム評価関数 on やねうら王 vs まふ定跡 on 技巧であれば、やねうら王側が勝った棋譜だけを、先手で勝った対局、後手で勝った対局別に抽出します。抽出は手動でやるとしんどいので、シェルなどを使ってください。定跡生成セットに入っている

movefiles.bat

を.kifファイルが入っているフォルダに置き実行すれば、sentewin、gotewinというフォルダが生成され、先手/後手が勝った対局が自動的に入ります。

3.局面のとりまとめ
各フォルダに勝利局面が蓄えられたら、sfenファイルはakiさんが公開されているblunderconverterで一行のsfenファイルに変換します。出力はこんな感じになるはずです。棋譜は全て連結してひとつのファイルになるようにしてください。

github.com


startpos moves 7g7f ....
startpos moves 2g2f ....

4.局面を喰わせることで新しい定跡を作る
先手が勝った局面では先手の手だけを、後手が勝った局面では後手の手だけを定跡に入れるのがポイントです。bookmaker.exeを起動し
makebook from_sfen kif-sente.sfen kif-gote.sfen standard_book.db moves 32

kif-senteには先手が勝った棋譜を、kif-goteには後手が勝った棋譜を入れてください。これらファイルはbookmaker.exeと同じディレクトリにおいてください。上記の例だと32手目まで登録されます。


5.standard_book.dbを差し替え、対策したい相手と新しい定跡を積んだやねうら王Quagaを戦わせます。同時並行で大定跡、真定跡、評価関数に乱数を載せたnobookなども対策したい相手と戦わせます
この際、やねうら王QuagaのQuantumbookはonにしてください。Quantumbookは定跡生成時に使った棋譜の分布に合わせて指し手を変える機能です。
同時にやねうら王Quagaの定跡以外の定跡を積んだやねうら王と対策相手を戦わせてください。
やねうら王Quagaのstandard_book形式は一度定跡を作ってしまうと指し手が狭くなってしまうので、こうすることで手の探索範囲を広げます。
非Quagaのエンジンを増やすと探索範囲が広がる一方で収束が遅くなります。私が定跡を作る際はQuaga3、nobook(または真定跡)1で戦わせました。

6.3−5の手順を繰り返す
戦わせる、勝った棋譜≒勝ちやすい棋譜を集める、その棋譜を定跡にして戦わせる、より勝ちやすい棋譜が多く生き残る、
その棋譜を定跡にして戦わせる。。。を繰り返すことで、勝ちやすい棋譜の出現率が上昇し、対策相手への勝率が向上していきます。

【step3の補足】
勝った局面を集めるだけでもある程度の効果は得られますが、定跡スナイパー理論に基づけば、逆転勝ちや微差の勝利は定跡にする価値に乏しいです(詳しくは前回の記事参照)。

そこで、勝った局面の中でも先手/後手が一度も不利になることなく勝った局面だけを抽出することで更に勝率を高める(どのぐらい増えるかは相手による。まふ定跡相手だとレート30弱伸びたけど、やねうら王定跡には殆ど伸びなかった)ことができます。

実際、Qhapaqの定跡は32手目以降先手は100点以上、後手は-50点未満の点数しか出なかった棋譜だけを用いています。
点数による棋譜落としのツールも手元にはあるのですが、使い勝手がどうしようもなく悪い(非プログラマに使えるようになってない)ので目下拡張中です。私がリア充になれたら公開されると思います。

 

【Q & A】

・batファイルが動かない、makebookファイルが動かない

一番ありうるのは文字コードの違いです。Quagaツールは全てshift_jis+CRLFを前提に作っています(元となったやねうら王のmakebookもCRLFじゃないと開業とみなしてくれない様子)。

batファイルはkifファイルうち特定の文字列を含むものを抽出して移動するという仕様です。デフォルトでは将棋gui(将棋所)基準の"先手の勝ち"/"後手の勝ち"という文字列を検索しています。必要に応じてbatファイルをテキストエディタなどで編集して検索文字列を変えてください。

コンピュータ将棋における定跡とメタゲーム

1:00 第一版リリース

本稿はコンピュータ将棋アドベントカレンダー 12/11の記事として投稿されたものです。

www.adventar.org

定跡合戦は大会ドラマ上、切っても切れない存在であると同時に、コンピュータ将棋における数少ないメタゲーム要素の一つでもあります。本稿では第四回電王トーナメントまでの定跡の変遷とその思想、更に、今後流行るかもしれない定跡理論について解説いたします。

shogi1.com

棋譜解析という名のチキンレース

コンピュータ将棋開発者の間でも、序盤をどのように指すのが一番良いのかは度々議論されてきました。第四回電王トーナメント前までは定跡は人間や強いソフトの棋譜を解析(変な序盤になってないか、ソフトに読ませ、評価値が悪い棋譜を削る)することで、作られていましたが、読みが浅いと深く読んだ定跡を搭載した相手に苦しく、深く読ませると定跡に搭載できる棋譜が減り、自分だけ定跡から外れた状態になりやすいというジレンマが存在していました。

また、評価関数が変化するたびに定跡もそれに合わせたものにしたいと考えると、何度も棋譜を解析するのは開発効率が悪く、いつ定跡を考えるかというチキンレースにも開発者は苦しむはめになりました。

チキンレースから降りるという発想】

この状態を打破したのが、WCSC26後にリリースされたやねうら大定跡です。やねうら大定跡は点数が良い棋譜を使うのではなく、棋譜の局面でコンピュータが深く考えて出した最善手(またはそれに点数が近い手)を指す方式となっていました。

棋譜の手を直接使わなくなったおかげで、異なるソフトが同じ手を定跡として搭載している確率は飛躍的に減少し、従来の定跡に比べ、かなり早い段階で双方定跡から外れた状態を実現できるようになりました。定跡から外れるような変な手(初手58金とか)は必ずしも良い手ではありませんでしたが、ponanzaでの検証でも大きなデメリットがないことは示唆されていたし、加えて、当時のソフトはボナメソベース(6月技巧もこれ)のものが多く、力戦系を苦手とするものが多かったので、大定跡は多くの定跡に対して良い勝率を得ることができました。

 

各手の勝率:Ponanza調べ 76歩51.39% 26歩51.23% 78金51.07% 68玉49.95% 38銀49.93% 58玉49.86% 96歩49.77% 36歩49.69% 48銀49.6%

 

【時間攻めの武器としての定跡】

大定跡の活躍は、定跡は有利な形を作るためのものではなく、時間攻めの要素として活用するという発想をもたらしてくれました。

例えば、将棋が100手で決着がつくとすれば、最初の10手を自分だけ定跡で0.1秒指しできると持ち時間が1割増えることに相当します。これはレートに換算して20強の価値があり、ponanza解析による初手で変な手を指すデメリットを打ち消すには十分です。

この思想を最大限活用したのが第4回電王トーナメントの真やねうら定跡です。

 

yaneuraou.yaneu.com

大会二日目では真やねうら定跡を搭載した†白美神†が襲いかかってきたため、Qhapaqは大変なピンチを迎えました。しかし、幸いにも(?)前日に新しく実装した時間攻めルーチンが逆に†白美神†を追い詰めることに成功しました。

 

【定跡不要論】

Qhapaqが大会1日目の深夜に実装した機能。それは、「序盤は16手は1手15秒しか読まない」というものでした。序盤は深く読んでも変な手を指しても大勢に影響は出ないのなら、定跡なんて入れず、短い時間で指すようにすれば、評価関数と定跡の不整合などの問題も起こらないという発想です。

※:偉そうに解説してますが、浮かむ瀬が似たようなことをしていたので便乗しただけです

この戦略は少なくとも明確な悪手は指さなかった(評価値は双方100程度で先手良しのまま16手目まで抜けた)し、定跡チキンレースから完全に脱却できるため、定跡の時代は終わったなという気持ちにその時はなりました...

 

【スナイパーとしての定跡】

しかし最近、この定跡不要論を揺るがす新たな定跡が生まれました。そう、まふ定跡です。

http://www.uuunuuun.com/single-post/2016/11/06/%E6%8A%80%E5%B7%A7%E6%96%B0%E5%AE%9A%E8%B7%A1

この定跡は、6月技巧に搭載することで、そのレートを100前後上昇させることに成功しています。加えて、浮かむ瀬などに搭載することで定跡offの状態にも勝ち越すことができるとのことです。

まふ定跡はアマチュアの棋譜などを製作者が人力で解析したものを用いており、その制作過程について細かく評価をすることは難しいですが、定跡を抜けた直後の点数のヒストグラムをとると確かに技巧側に良い局面の割合が増えています。

まふ定跡の特に凄い点は持ち時間や定跡を使うエンジンによらず、レート上昇を成し遂げていることです。これは、まふ定跡が「序盤変な手を指さないようするもの」ではなく「相手が仮にミスをしたら咎めるもの」という毛色を持っているからと言えましょう。

「変な手を指させないようにする」という方針だと変であるか否かの判断が難しいような状態を的確に扱うことができず、評価部が変わるたびに更新をしなければなりませんが、「明確な悪手を咎める」方針であれば、評価部がよほど強くならない限りは定跡は使いまわせることになります。そして、相手が明確な悪手を指さなかった場合は、定跡に頼らずに普通に挿せばいいのです。

 

【近未来の定跡】

ここ暫くの定跡のメタゲームは、改めてまとめると

「変な手を指させないようにする(棋譜ベース)」→「相手に得をさせないようにする(大定跡)」→「自分が損をしない局面を素早く選ぶ(真定跡)」→「損をさせないだけなら定跡を切ればいい」→「相手の悪い手をリスト化すればよい」

ということができます。私自身は、今後定跡は更にスナイパー的な要素を強く持つようになると考えています。定跡を搭載せずに指させる以上に悪い手を指させない定跡を作るのは難しい(ひとつの形を避けてもまた別の形が出てくる)のに比べ、明確に悪い手をリスト化ほうが定跡の質を上げるには堅実だからです。

2020年ぐらいには、「あ、定跡が出てきたってことは、これQhapaq自分がいいと思ってますよ」ぐらい言われるかもわかりません。

 

上記思想に基づき、まふ定跡の悪手を咎める定跡を作っているところですが、まあ、苦戦してます。前回公開した定跡よりは強いのを作って公開するつもりではありますが。。。

やねうら王系列最強(?)のQhapaq定跡を公開します

まふ氏らによって作られた、技巧新定跡をヒントに独自作成した、

やねうら王のstandard_book.db形式の定跡ファイルです。手元のPCでの実験では真やねうら定跡にも大定跡にも勝ち越しているので、やねうら王で扱える定跡の中では最強かもしれません。

 

以下のページからダウンロードできます。

【重要】onedriveの課金契約がそろそろ切れるので、このファイルは引っ越しする可能性があります。twitter等で拡散する際は、本ブログのページを拡散していただけると幸いです。

https://1drv.ms/u/s!Ag5CrRBmeQHym1WyLKM3lO6BhH0U

 

# 技巧の新定跡についての詳細は定跡ファイル本体のreadme、または、uuunuuun氏によるレート検証をご参照ください。

 

【使い方】

standard_book.dbをこのファイルに挿げ替えてください。

narrowbookはonにしてください。

offでも動きますが、恐らく弱くなります(未検証)

 

【特徴】

・standarad_book形式(棋譜にある手をそのまま指す)形式です。

大定跡/真定跡形式に比べ人間的(?)な棋譜を喰わせて作っているため、定跡を長く指してくれる傾向にあり、序盤研究に使いやすい形になっています(希望的観測)。

 

・手元のPCでの0.2秒対局(2コア、一手当たりに読む鏡面は10万程度、最新版Qhapaqバイナリ(非公開、真やねバイナリより少しだけ強い))で

 

vs 定跡なし 1705 - 94 - 1519

vs 大定跡 1713 - 114 - 1503

vs 真定跡 1714 - 105 - 1535

 

と、現在公開されているやねうら王の定跡よりもほんのり強い作りになっています。

 

注:皆様が今後してくださるかもしれない検証と比べるという意味では、浮かむ瀬や真やねうら王バイナリで実験するべきなのかもしれませんが、棋譜を学習データとして再利用したいため、Qhapaqのバイナリでしか測定を行っていません。

 

【WCSC参加者へ】

まふ定跡、やねうら王ライブラリの定跡との対局棋譜をベースに作っているので、私にどれだけ著作権があるかは謎ですが、私個人はWCSC参加者の本ライブラリの仕様を妨げることは致しません。ただ、ご利用の際は、使っている旨をアピール文などに書いていただけると幸いです。仮に私に著作権があるなら、本定跡はGPLライセンスに従います。

 

【作り方】

死に覚え形式で作っています。人間の棋譜+評価関数に乱数を乗せたコンピュータの棋譜から作り上げたstandard_book.db形式の定跡を、各種ソフト(Qhapaqバイナリ+新やねうら王+定跡なし、真やね、大定跡、及び、技巧 with まふ定跡)と戦わせ、勝てた棋譜から新たなstandard_book.dbを作るという作業を繰り返すことでレートを上げています。此処に公開するのは四世代目の定跡です。

雑巾絞りにおけるランダムムーブの意味考

コンピュータ将棋の評価関数を強くする方法に「雑巾絞り」というものがあります。簡単に言えば、1-2手先までしか読まない設定の弱いコンピュータの見解(先手/後手のどちらがいいか、次に何を指すべきか)を3-8手程度まで先を読んだ相対的に強いコンピュータが修正するという手法です。

この手法は第26回コンピュータ将棋選手権から第4回電王トーナメントにかけて、コンピュータ将棋開発者の間で爆発的に流行しました。多くの開発者は雑巾絞りの最適化にまい進してましたし、大会結果そのものも、雑巾を上手く絞れたかに成績が強く依存していたといっても過言ではありません。

雑巾絞り用の教師局面を作成する際に、多くのソフトは極めて短い持ち時間(1局1秒以内に終わる程度)で対局させたものは使わず、何手かに1回、ランダムで手を動かすようにしています。

将棋の手の大半はパスに劣るという格言があるように、ランダムで行われる手の殆どはすさまじく酷い手です。故に、1-2割の確率でランダムムーブを行わせていた浮かむ瀬(apery)の教師データには将棋が強い人から見たらあり得ないほどの悲惨な局面が含まれていたはずです。

この仕様を目の当たりにして、私は「こんな悲惨な局面だらけの学習が効率的なはずがない」とMultiPVの上位3手を評価値の差に応じてランダムに選ぶなどの教師生成を行っていたのですが、どうしてかランダムムーブ入りの教師よりも弱くなってしまいました。教師局面の数は同じなのに、です。

この問題についていろいろ考えた結果以下のような仮説にたどり着きました。

【感覚的な話】

将棋にはいくつもの優れた形があります。矢倉囲いや美濃囲い、棒銀、腰掛銀などが一例です。では、矢倉囲いと美濃囲い、棒銀と腰掛銀はどちらの方がより高得点な形でしょうか。

人間であれば、駒の並びを論理的にとらえて評価したり、他の駒の動きによるとお茶を濁すことができますが、駒の並びに点数をつけ、それらの和を局面の点数としているコンピュータにはそういう芸当はできません。

コンピュータにこうした形の価値を学ばせる簡単な方法、それこそが、形を崩すとどれだけ困るかを確認することなのです。人間と同じ、試しに変な手を指してみて、指導してもらう方が、理由もわからずに定跡本に従って指すよりも強くなるというわけです。

 

で、これをもう少し難しく書くとこういうことになります

【数学的な話】

雑巾絞りにおける学習とは、教師局面の点数を教師として与えられた点数に近づけることに等しいです。学習が収束するとは、教師局面に対する誤差の和に対する各評価パラメタによる微分が0になることを意味します。

しかし、実際の学習ではこれら微分値が綺麗に0になることはありません。教師データそのものに誤差があったり、ミニバッチ法によって評価パラメタは逐次更新されていくからです。結果、評価パラメタは極小点から教師局面に対する誤差の和に対する、各評価パラメタの二回微分の値の逆数程度にぶれることになります。

各評価パラメタの二回微分値は教師局面のなかで当該パラメタが何回出現したかに比例します。教師局面の数が同じなら、各パラメタの二回微分値の和はオーダー的には同じになりますが、MultiPVなどで過度に定跡系に偏った棋譜については、よく出るパラメタ(88の玉と89の桂馬とか)と滅多に出ないパラメタの差が大きくなってしまいます。

結果、評価パラメタのブレの総和(出現回数の逆数の和)は増えてしまうため、適切な値に収束しにくくなります。パラメタの数が有限である以上、あまり無意味な局面は教師に入れたくないのですが、ランダムムーブを入れることでパラメタのブレの巨大化を防ぐ効果が、無意味な局面が入るデメリットを打ち消してくれているようです。