第28回世界コンピュータ将棋選手権の成り行き予想(4/1 ver)

エイプリルフールだし、WCSC28の決勝リーグへ行くソフト予想という全く当たらない類の予想をしても許されるだろうと言うことでダラダラ書いていきます。

「あのソフト無いよー」的なツッコミは多々あると思いますが、全ソフトについて書くと私の工数削減がマッハなので許してください

 

【今回の予想】

評価関数がある程度強いことを条件に、弱点の少ないソフトが勝ち上がりやすいと思います。これは技術共有により各ソフトのレート差が小さくなってきていることと、決着までの手数が長くなり小さい得を積み上げるような展開が増えてきており、定跡や読み落としに起因した事故からの復活が大会を重ねる毎に難しくなっていると感じているからです。

 

【決勝リーグに多分進むと思ってるソフト】

クジラちゃん

個人的には優勝候補。wcsc27でも計算資源の効率的な運用を以て、蒼天幻想ナイツ・オブ・タヌキなどを撃破していますが、今回は評価関数と定跡も独自調達するようです。個人的には一番隙がない相手だと思っています。

 

読み太

今回はクラスタ化をするそうです。独自実装の学習+depth 8/200億の教師ででwcsc27のelmoに75%勝つ程度の評価関数を用意出来ているので、やねうら王並み(もしかしたら以上?)の学習部を搭載していると考えられます。独自実装は格上を倒す可能性を上げると同時に格下に負ける可能性も増やすのですが、読み太がここぞという試合で負けたのを見たことがないので、今年も勝ち上がると思っています。

 

elmo

WCSC27では評価関数の公開とponanzaを撃破しての優勝のインパクトがありすぎて忘れられがちですが、開発者の棋力に頼らない定跡生成ルーチンを持ってる数少ない開発者の一人です。学習と定跡作りを同時にやろうとすると往々にして人や計算機などの資源が足りなくなるのですが、過去の実績を鑑みれば隙のない構築にしてくることでしょう。敢えて言うならsdt5でのelmoはとても運が悪かった(予選は後手ばかり引いてたし、本戦では読み太+まふ定跡に狙撃されるし、5位決定トーナメントでは永世後手のQhapaqに先手を譲るし)ので、それを引きずってないか心配です。

 

【以下、この辺のソフトが椅子をとり合うと予想】

Apery

depth 10のelmo絞り+aperyがあまり機能しないという極めて貴重な情報を提供してくれています。アピール文がメモ帳ですが、ここで紹介してるソフトの中では一番たくさん情報を出しているすらありえます。有志の強力を元に大量のデータを持っていること、これまでの成績的に学習部では高いパフォーマンスを出してくる可能性が高いことなどから、今回も注目株だと思います。探索部がsf9仕様になってたら言うことなしです。

 

たぬきCrazyShogi

 非線形関数を引っさげてくる勢。Ponanzaが示してきたようにディープラーニングはKPPTよりも高い精度で盤面を表現できることが知られていますが、計算効率でKPPTを上回るのにかねてより難がありました。たぬきチームは差分計算などの実装を頑張ることで高速化を、CrazyShogiは「んなこと知るか」と数の暴力で殴りかかることを考えているようです。

CrazyShogiはお値段100万円ちょいのTesla V100を8体連れてくるようです。たぬきチームは詳細は解りませんが、遂に所属企業を連れてきたので割とガチで来る可能性があります。こいつら頭おかしい

良くも悪くも線形計算でガラパゴス化したコム将棋界でディープラーニングベースの評価関数が簡単に計算効率で勝ち越してくるとは思いませんが、WCSCには計算資源制限はないし、並列化とニューラルネットの相性の良さを考えると脅威ではあります。

 

nozomiHoneyWaffleQhapaq

sdt5後の学習のメタゲームはelmo絞りから変化していません。インフラの改善が大きなウエイトを占める状態では開発者の経験に基づいた隙の無さと手の広さ(評価関数、探索部、定跡、高速化など伸びる要素に手を出すこと)が重要です。nozomiはミリオンファイターとしての長い経験が、HoneyWaffleは振り飛車というブルーオーシャンに相手を引き込むことで、こうしたゲームを上手く制することを助けると思っています。Qhapaqは正直隙だらけなのですがAperypaqより一応強い評価関数を作ってるので、外がサボってれば勝てます。

 

PALYorkiesHafeweizen

恐るべき新人。PALはコンピュータ囲碁界のAperyことAQの開発者のチーム、Yorkiesはsdt5でやねうら王の大幅な高速化に成功したチーム、Hafeweizenはsdt5の準優勝ソフトshotgunと13位の人造棋士18号の連合チームです。独自手法について深くを語ってはいませんが(PALは囲碁ベースの学習、Yorkieは並列化と高速化、Hefeweizenは未定らしい)飛び抜けたスキルを使って虎視眈々と上記ソフトの暗殺を狙ってくると思います。

 

monkey magic再び?】

wcsc27ではmonkey magicというソフトがfloodgateで謎の高レートを成し遂げていました(ちなみに正体はwcsc27優勝ソフトのelmoだった)が今年も唐突にヤバイソフトが出てくる可能性はゼロではありません。今のfloodgateの参加ソフトは評価関数やハードが明らかでないものが多く(最も、明らかにしてるソフトも自己申告ですが)レートの正確な推定は難しいと思っています。i9のaperypaqなどを有意に倒しているようなソフトは今の所いませんが、floodgateの旬は4月なので今後の動きに注目です。

注:といっても開発者はこの時期は最後の調整が忙しすぎてfloodgateを見てる暇は概ね無いのですが

 

【結論】

よくわからん

学習の最適化に纏わる考察

評価関数の学習をやっている人達における、バッチサイズや学習率に関する話は、
アラサー男子の健康トークのような立ち位置であると言えます。

私自身は、学習におけるパラメタ調整は落とし穴のようなものだと考えています。
微調整した所でそこまで強くはならないのですが、設定を誤ると学習を大失敗させる ポテンシャルはあるからです。
故に、どういうケースでどういう失敗をするのかを考えておくことは有意義と言えましょう。

【取り敢えず実験】
以下のコードを実行すると、バッチサイズ、学習率を変えながら1次元問題の最適化が出来ます。
勾配は -x + 乱数 なので、理想的にはx=0になってほしいところです

import random
import sys
import math

def getgrad(x,batchsize):
    grad = 0
    for i in range(batchsize):
        grad += -x + random.uniform(-1.0,1.0)
    return grad

def adagrad(initx, batchsize, epochsize, eta):
    x = initx
    g2 = 0                                                          
    save = 10 # 適宜変える
    for i in range(epochsize):
        g = getgrad(x,batchsize)
        g2 += g*g
        x += eta * g / math.sqrt(g2)
        if i % save == 0:
            print(x)
adagrad(float(sys.argv[1]),int(sys.argv[2]), int(sys.argv[3]), float(sys.argv[4]))

【バッチサイズを変えながら計算してみる】

データ数を1000万、batchsizeを1,100,1000に変えた結果が此方です。
横軸が食わせた教師の数、縦軸がxの値(0に収束するはず)です。
青:1000 赤:100 黄:1 です

f:id:qhapaq:20180311004024p:plain

基本的に収束した後の綺麗さはバッチサイズが大きいほど、
収束速度はバッチサイズが小さいほど早くなります。


【バッチサイズを大きくすることの数理的な意味】

雑に言えば、バッチサイズの平方根に比例してノイズに対する耐性がつきます。

というのも、各特徴量に対してホワイトノイズ(統計誤差)が乗ったものが勾配になると考えれば、
真値から特徴量がずれていた時に勾配が真値の方向を向くか否かは真の勾配とノイズの
SN比に依存しており、ノイズレベルはサンプル数の平方根に反比例するからです。

【将棋の学習への適用】

将棋では一度の学習でxx局面を使うという形でバッチサイズを決めていますが、
各々の特徴量について、バッチ毎に何回出てくるかは異なります。

故に特定の特徴量についてバッチサイズや学習率を良くした所で、その他の特徴量に
ついても設定が最適化されているかといえば、それは結構怪しいです。

一番避けたいのは出現回数が少ない特徴量が変な値を持つことで、マイナーな局面について
大幅な読み誤りをしてしまうことです。それらを避けるには

・出現回数の少ない特徴量は更新させない or 学習率を下げる(河童絞りでよく使う)
・学習速度を犠牲にバッチサイズを大きくしておく(雑巾絞りの追加学習でよく使う)

が有効ですが、最強の解決策は

・教師データの数を課金して増やす

ことです。しかし、私自身は課金してデータを増やすのはあまりよい戦略だとは思っていません。
というのも、教師データの質に問題があれば数をどんなに増やしても強くはならないからです。

【私が考える学習パラメタ弄り論】

学習に失敗した際に、何より先に知るべきなのは教師データの質に問題があるのか量に問題があるかです。
基本的にはバッチサイズを大きくしたり河童絞りのような手を使って、変な学習をさせないことを重視して(必要ならReMUとかを使って)
時間をかけて勝率を測定してみるのが良いと思ってます。

最強ソフトの言うことの真逆をやると最弱になるのか検証してみた

今や将棋研究のお供の定番である将棋ソフトですが、その裏で初心者の練習相手としても定番になりつつあるようです。駒の動かし方を覚えた人が次にやるべきなのが数練習をすることであり、数をこなす為のモチベーションを維持する際に、無限に遊んでくれてしかも負けてくれる将棋ソフトにニーズがあるようです。

 

どのぐらいニーズがあるかというと、絶対王者のponanzaさえも弱いソフトを作ることに一石投じる程度にはニーズがあるようです。

将棋ウォーズにある史上最強に弱いPonanzaの話|山本 一成@Ponanza|note

 

曰く、クッソ強いponanzaの評価値を反転すればクッソ弱いソフトが出来る。

成る程。ponanzaが全力で悪くなる局面を探してくれるなら、確かに弱くなりそうだ。しかし私はこの記事を見て「ソフト同士が負けることに全力を尽くした場合、果たしてどのくらいまで弱くなるのか」が気になりました。

ここでは、ponanzaに倣い(?)評価値を反転させたソフトの棋風とその弱さについて考察していきたいと思います。

 

 

【ゲームのルール】

意図的に負けようとするとなると、初手投了や非合法手、王手放置などがでてきてしまいますが、此処では非合法手は禁止とします。また、これはやねうら王の評価値を反転させるだけという手抜きhackの副作用なのですが【評価値の詰みは反転していません】即ち、評価値の低い手を探す一方で、意図的に詰みがある局面には持って行こうとしないということです。

この辺はゲームのルールとして議論の余地がありますが、詰みがないと言う縛りでできるだけ悪い局面を探すのは絵的に面白いし、なにより改造が怠いのでこのまま行きます。

 

【△aperypaq on やねうら王 vs ▲私】

f:id:qhapaq:20180115214054p:plain

終局図はこちらです(駒が往復するようになったので打ち切った)。青線が終局後に通常のaperypaqで棋譜を検討した場合の評価値です。

 

互いに悪い手を指すわけですから、評価値は手毎に往復することになります。中盤にかけて私のほうがちょっと良く(負けようとしているのだから、相手よしが自分よしだ)なっていますが、コンピュータの流石の終盤力で最後は私の判定負けに近い評価値になっています。

 

【評価値反転ソフトの棋風(初手20手)】
   1 7六歩(77)        ( 0:02/00:00:02)
   2 4四歩(43)        ( 0:01/00:00:01)
   3 5五角(88)        ( 0:04/00:00:06)
   4 1二香(11)        ( 0:01/00:00:02)
   5 6四角(55)        ( 0:02/00:00:08)
   6 7四歩(73)        ( 0:01/00:00:03)
   7 4六歩(47)        ( 0:07/00:00:15)
   8 2四歩(23)        ( 0:01/00:00:04)
   9 4五歩(46)        ( 0:05/00:00:20)
  10 4二玉(51)        ( 0:01/00:00:05)
  11 4八飛(28)        ( 0:01/00:00:21)
  12 4三玉(42)        ( 0:01/00:00:06)
  13 4六飛(48)        ( 0:02/00:00:23)
  14 4二銀(31)        ( 0:01/00:00:07)

  15 1六飛(46)        ( 0:01/00:00:24)
  16 5一銀(42)        ( 0:01/00:00:08)
  17 1四飛(16)        ( 0:03/00:00:27)
  18 3四玉(43)        ( 0:01/00:00:09)
  19 3六歩(37)        ( 0:11/00:00:38)
  20 4二金(41)        ( 0:01/00:00:10)
 

みたところ、玉を前に繰り出す棋風のようです。玉を相手の攻め駒に近づけ、少しでも駒が入ったら寄せられてしまうようにしているのでしょう。途中取らせるつもりで跳ねた桂馬の行き先に銀と飛車を配置されたりと「あ、コヤツ出来る」的な技を幾つかやられましたが、私の棋力があんまり高くないこともあり、ふと気付けば駒組が相手のほうが酷いという負け筋(勝ち筋)に入ってしまいました。

 

【謎の頂上決戦】

さて、私ぐらいの棋力では負けることが出来ないことが解ったので、此処からはソフト同士に対局してもらうことにします。お相手はやねうら王の教師110億のうち30億ちょいを食わせたもの(yanezero。私が手元で用意した)です。

 

f:id:qhapaq:20180115221257p:plain

 

大方の予想(?)に反し、通常ではaperypaqよりレートが200以上低い後手番のyanezeroが勝ちました。本局を振り返ると60手目と200手目あたりにドラマがあったようです。

f:id:qhapaq:20180115221858p:plain

59手目26玉で先手のaperypaq側が大幅な有利を獲得します。

というのも、先手玉によって後手玉の退路が封鎖されたことで後手玉に詰み筋が生じつつあり、かつ、先手玉が後手玉側に居るため、下手に受けようとすると先手玉が寄ってしまうからです。13桂不成ではなく成にしたのはなぜかと思いましたが、王手をすることで無理やり駒を押し付けるのがコンピュータ流の負け方のようです。

後手は泣く泣く13香と成桂を取りますが、ここから暫くは後手が苦しい(通常の評価値で言えば後手有利な)局面が続きます。

 

f:id:qhapaq:20180115222738p:plain

 

しかし、yanezero不利で迎えた192手目でドラマを迎えます。ここでyanezeroが取った手は金を取る75歩

そして78玉に対し、67金打、同玉、66歩、同玉、46飛車、56金打、同飛、同玉で後手の攻守の要であった飛車を押し付けることに成功します。すごい!!

 

感想戦

評価値逆転将棋ソフトの対局は自玉を危険な場所に置きながら相手玉を詰まない程度に追い込んで攻め駒を押し付けることで不利を確保するという見ていて地味にスリリングなものでありました。

意味があるかは解りませんが、皆様も暇つぶしにどうでしょう?

各種将棋ソフト間での教師データの変換ツールの開発

【もっと良いコンバータを作ってQhapaqの侵略を阻止しよう】

このままだとデータのAperyとYaneuraOuを強くする変換器、略してKizunaAy converter(キズナアィコンバータ)が業界標準になってしまいます。助けて!

 

Aperyとやねうら王の間で未だに教師データがやり取りできない(個人的な開発はされているのかも知れないですが、基本機能として実装されていない)のを受けて、変換ツールを開発してみました。

 

Aperyとやねうら王の間では棋譜のHuffman符号化のルールが違ったり、データの形式が微妙に違ったり(例、勝ち負けに関する変数の値のとり方、手数の情報を保持するかetc)すること、今後もこうした仕様変更がありうることを受けて、一旦sfenベースのテキストファイルにすることにしました。

 

例:

sfen 6s1l/3p1sk2/5p1p1/p2+Bp1p1p/2p4N1/P5LPP/3GPPP2/1+p5K1/L4+r1NL b R2N2Pb3g2sp 0
move 6d5d
score -1917
ply 110
result -1
e
sfen 6s1l/3p1sk2/5p1p1/p2+Bp1p1p/2p4N1/P5LPP/3GPPP2/1+p5K1/L+r3S1NL w R2N2Pb3gsp 0
move 8i4i
score 2717
ply 109
result 1
e

(以下、続く)

 

 

sfen hoge  ...... 局面をhogeにする

move hoge ...... その局面でのbestmoveを指定する

score hoge ...... その局面での評価値

ply hoge ..... その局面での手数(Aperyでは無視される)

result hoge ..... 最終的な結果(2017.11のやねうら王を標準としてる。手番側が勝っていれば1、負けていれば-1、引き分けなら0)

e ...... 教師データ一局面分が終了する

 

【apery側での利用】

conv_teacher_sfen teacher output

teacherという名前のApery用の教師データをoutputという名前のsfenベースのテキストに変換します

conv_teacher_bin sfenfile output

sfenfileという名前のsfenベースのテキストをApery用の教師データに変換します

 

【やねうら王側での利用】

learn convert_plain output_file_name output input1 input2 ...

input1,input2 ...という名前のやねうら王用の教師データをoutputという名前のsfenベースのテキストに変換します

 learn convert_bin output_file_name output input1 input2 ...

input1,input2 ...という名前のsfenベースのテキストファイルをoutputという名前のやねうら王用の教師データに変換します。

 

【例:やねうら王のdepth 10の教師データをaperyに食わせたい】

教師データをDLする(ファイル名をshuffled_sfen.binとする)

./YaneuraOu-by-gcc

learn convert_plain output_file_name yane_sfen.txt shuffled_sfen.bin

 

./apery

conv_teacher_bin yane_sfen.txt shuffled_sfen_apery.bin

use_teacher shuffled_sfen_apery.bin 8

 

注:use_teacherの仕様はaperyのドキュメントなどを参照

 

【その他注意】

この形式でやねうら王の教師データを変換した場合、ファイルサイズは約3倍になるようです。それなりに鬱陶しいですがギリギリ我慢できるレベルかなとも思います。ストレージ圧迫が気になるなら、ファイルを分割して、変換と削除を繰り返しても良いでしょう。

 

Aperyとやねうら王のHuffman符号の仕様の差を読み込み、直接変換したほうが効率は良いのでしょうけど、今後も両者が同じ仕様で教師データを作り続けるかは怪しく、また、バグ取りが面倒だったのでこの形式でリリース(もとい、プルリク)します。隗より始めよ...ですね。

apery-qhapaq評価関数(apery sdt5比でR+50くらい?)を公開します

正式名称はapery-qhapaq評価関数。略すならaperypaqと書いて「えいぷりぱーく」または「あぺりぱーく」と読みます。

 

【DLはこちらからどうぞ】

Release qhapaq学習機によるコラボ関数群 · qhapaq-49/qhapaq-bin · GitHub

# aperypaq.7zが今回の関数です。

 

【強さ】

第5回将棋電王トーナメント終了後に公開されたaperyの評価関数(探索部は双方ともやねうら王を利用)に対して、8スレ1秒対局で
・375-37-266 定跡off(勝率58%)
・221-32-162 たぬき互角局面集8手目(勝率57%)
となっており、推定レートはapery-sdt5比で+50程度です。長い持ち時間での強さは解りません。寧ろ教えてください。

 

【精製方法】

sdt5でQhapaq_conflatedが用いた学習をapery-sdt5に対して適用したものです。独自学習手法を持っているとこういう時に便利ですので、皆様も是非やりましょう。

 

【ご利用に際して】

本評価関数はaperyに依存しています。
ご利用の際は、aperyの使用条件を満たすようにお願いいたします。

 

【おまけ(チラシの裏):開発者的に気になること】

evalresolveすると解りますが、差分がメッチャ小さいです。0.1%ぐらいしか差がないみたいです。こんなに小さな差でレート差がでる(少なくとも、短い時間では有意に強くなる)となると、KPPTの値の大半はゴミなんじゃないかなと思います。

 

Qhapaqの学習方法は互角局面集での勝率を最適化する作りなのに、定跡offの方がほんのり強くなっている気もします。KPPTの汎化性能ってまだまだ上限からは遠いのかも知れません。

Qhapaq_conflatedの評価関数と定跡を公開しました

長らくおまたせ(?)しましたが、Qhapaq_conflatedの評価関数を公開しました。河童パーク定跡も同梱してあります。

 

DLは此方からどうぞ

Release qhapaqの評価関数群 · qhapaq-49/qhapaq-bin · GitHub

 

評価関数の強さについて

Qhapaq_conflatedは2秒(4スレ、8スレ、12スレ)対局、かつ、nodchipさん提供の互角局面集の8手目、または16手目の局面を初期局面とした上での勝率を最適化しています。定跡offに比べると

【メリット】

・互角局面集の方が局面が広い(オールラウンダーになる)

・広い局面で強いほうが検討に用いる際に便利

・評価関数の序盤の穴を突く類の過学習を避けやすい(未知の評価関数に強い?)

【デメリット】

・普段なら指されない戦型に特化してる可能性がある

・開始局面の時点で形勢が傾いているものも多くレートが信用しがたい

 

といった違いがあると思います。あまり対局数は稼げてないですが、elmo比で勝率73%程度、tamore相手に勝率60%程度のようです。

 

楽しんでいただければ幸いです。

第五回将棋電王トーナメントのお礼と本大会でのQhapaqの戦略

第五回将棋電王トーナメントを視聴してくださった皆様、並びに、大会に参加した開発者の皆様にお礼申し上げます。

Qhapaq_conflatedは並み居る強豪を圧倒的幸運(とひと握りの努力)で倒し、5位入賞という大変名誉な結果を残すことが出来ました。

 

本体のうpの遅延ですが、大会実況と大会前後の情報戦で自宅の貧弱ネットワークが死に、有給を使いすぎたことに依る仕事のしわ寄せでネット環境(と書いて無料wifi付きの吉野家)にいくタイミングがないので本当に申し訳ないですがもう暫くお待ちください。

 

以下、御礼に組み合わせて大会中Qhapaqが考えていたことを雑に書き下していきます。

 

・四駒、爆死するんじゃね?

KPPTの時代は終わりだ、と開発者たちが圧倒的開発力を見せる中で、Qhapaqは四駒爆死読みでほぼ全てのリソースをKPPTにつぎ込んでいました。科学者の癖に。

理由としては学習リソースが確保できる気がしなかったのと、ponanza_chainerレベルの化物がNNで成し遂げたレートが2000程度で、depth 1のelmo搭載型やねうら王がレート1000前後は行く(技巧depth1=700から推定)ことを加味すると、四駒の表現力ボーナスは大したことがないと睨んでいたからです。

後出しジャンケンが半端ないですが、一応この読みが当たったお陰で、リソース差の壁をほんの少し埋めることが出来ました。

 

・時間攻めと河童パーク定跡

timemanに対する効果の測定は困難です。ponderを加味しなければならないため、レート測定が大変面倒なことになります。ただ、私自身はtimemanは投資に値するものだと思っていました。

wcscの時に、対戦回数が少ない(100回も戦ってない) and 評価関数が同じなため持ち時間差やponderの差が響きやすいとは言え、定跡+timemanを搭載したqhapaqは搭載していないqhapaqに7割弱勝っていた(定跡搭載vs定跡offの持ち時間一定対局は6割弱)ので、今回も時間攻めによる暗殺をやる気満々でした。

今回は定跡狙撃よりも時間攻めに重きをおき、評価値が悪くない、定跡に当たりにくそうな展開として、真やねうら王が愛顧していた38銀型(後手は62銀型)を河童パーク定跡とし、twitter上でリソースを集りながら作成を急ぎました。

 

サイリウムという名の盤外戦

設営日に当日は千駄ヶ谷エレジーがライブで行われるということを知り、ぽんぽこ開発者の野田さんと画策してサイリウムを振ることにしました。以下、私サイドでの感想戦

 

私(ライブとなるとヲタ芸が欲しいな。しかし、このチェックシャツばかりの開発者たちにガチのヲタ芸は難しそうだし、装置を壊したりするとアレだ)

私(ええい、面倒だから野田さんに無茶振りしよう)

私「というわけで、なにかヲタ芸挟むと面白いと思うんですが、なんか良いヲタ芸ないっすかね?」

野田さん「(何かを閃いた様な顔をしながら)それだ、サイリウムを振りましょう」

私(あ、こいつ課金勢だ)

野田さん「2局やるなら2色分、参加者全員に配るのです」

私(あ、こいつガチ課金勢だ)

私(今更振り上げた拳は引けないしな)「いいでしょう、料金は現状では折半として、入賞したら賞金で補填するってのはどうです?」

野田さん「では、それで」

チームメイトのItoさん「え、なに、悪ふざけするならカンパするよ?」

私(あ、こいつも悪乗り勢だ...)

----

2日目

私「というわけで、サイリウムは私とたぬきさんの折半なのですよ。賞金が出ればそれから補填しますが」

shotgunの芝さん「むむ、それなら。仮にお二人が賞金とれずに、うちが取れたら私がカンパしましょう!」

私(あ、この人もガチ勢だ)

 

そんなこんなで多くの人に支えられたサイリウムですが、結局両方とも入賞したお陰でその代金は私と野田さんで折半となりました。

 

# この辺の盤外戦は野田さんのブログ第5回電王トーナメント参加記録 - nodchipのブログを読むと一層楽しめるかも知れません。

 

・マッチングミス

1試合目を勝っていたのに負けにされてしまった関係で、2戦目のマッチングがずれてしまい、計らずもソルコフを損する展開になってしまいました。しかし蓋を開ければQhapaqが最初の2戦で戦った相手は大健闘をしてくれ、ソルコフが増えた結果Qhapaqは不幸にも黒塗りの高級山(aperyにponanzaが鎮座する超厳しい山。師匠曰く、決勝トーナメントの強制収容所)に送られてしまいました。損した言ってサーセン

 

・河童パークは爆死したのか?

予選リーグの最後の3局、Qhapaqは後手を引き続けた上に、33金(41銀、32金の状態で角を33にあがり同角成、同金となった展開)戦法を繰り返し、一度も良くなることなきまま敗れ続けました。これはQhapaqの評価関数の脆弱性(Qhapaqはそもそも33角成をあまり良い手と思っていない)に起因するものでした。

予選当日、私はこの戦略を酷く後悔していましたが、よくよく考えると読み太やnozomi相手には後手を引きながら上手く戦えています。

河童パークの脆弱性は先手が純粋に飛車角先を伸ばし続けた時(定跡offでやりやすい手)に起こることですが、もしかしたら、これまでの定跡狙撃合戦の影響で読み太やnozomiは急過ぎる戦いを仕掛けないよう(単純に飛車角の歩を伸ばすことを避けるよう)に調整していたのかも知れません。

即ち、定跡読み定跡としては機能していたとも言えるのです。

 

・1日目夜の攻防

1日目終了時点で2日目の山のどうしようもない手強さにsan値がダダ下がりでした。しかし、順位の期待値を上げるべく夜を削って策を練りました。まずはponanza対策を諦めました。評価関数、探索の双方で負けている可能性が高かったからです。ponanzaは定跡を使ってこないので、そこ狙撃できればチャンスはありますが、それを用意する時間もありませんでした。

そして、相手をaperyに絞り、aperyの弱点となりうる部分を列挙しました

・やねうら王の方が1日目時点では探索部が強そう

・時間配分はワンチャンスある

・nozomiとのテスト対局での頓死など逆転負けをすることがある

・定跡はあまり積んできてなさそう

以上を踏まえ、探索の差で稼げる小さな利益を積み重ねること、一局面の読みの精度の差で取り返しのつかない展開になることを避けることを目指しました。具体的には

・玉の危険度が絡みやすい横歩

・角の睨み合いが続く角換わり

・決着までが長引きやすい相掛かり

を狙いました。この判断には大昔に千田先生が書かれていた記事を参考にしました。具体的には、wcsc27の定跡を12手だけ使う(評価関数の質が変わった手前、狙撃は狙えないと思った)ことにしました。

 

・2日目は只管祈る

1時間対局でのtimemanをテストするのはほぼ不可能なので、2日目は只管祈っていました。平岡さんに「強くならない独自性は独自性じゃないという風潮は嫌ですが、自分についてはライブラリで楽してる以上、独自性に強さを求めていきたいし、元のライブラリより強くならないなら出ないという心つもりでやってます」とイキリ発言をする以外は大体祈ってました。

2日目も1日目同様に、兎に角後手ばかり引きましたが、aperyを倒し、ponanzaに対しても一瞬だけ形勢を取り戻し、やねうら王を倒しと謎の躍進を見せました。定跡をしっかり用意してるであろうやねうら王に横歩の入り口で定跡を切らす真似をするのは死ぬほど怖かったですが、Qhapaqが飛車を変な場所に動かしたお陰で早い段階で定跡を外れてくれた(これもよもしたら脆弱性なんじゃ)ため、無事に時間攻めをすることが出来ました。

 

・振り返ると振り駒運も悪くなかった

5位決定戦がelmoと聞いた時は「apery、ponanza、やねうら王、elmoって、参加ソフトのレートを上から4つ並べたのとほぼ同じじゃね」と思うと同時に「此処だけはなんとしても先手を引きたい」と考えていました。というのも、elmoもまた定跡巧者であり、先手で此方を狙撃できる定跡を沢山持っていると考えられたからです。昨日の戦いから後手パーク定跡は通用しないし、wcscの後手定跡で横歩にしてしまったら、そこから一方的に時間を削られかねなかったのです。

elmoは兎に角当たりたくない相手でしたが、同時に当たる価値がある相手でもあります。というのも、最終試合ならネタばらしをしても次の対局で対策されることがないので、ネタばらしをし放題だからです。

 

私「tkzwさーん、timemanどうしました?」

瀧澤さん「slowmoverを80 90にしました。そちらは?」(瀧澤さんより訂正いただきましたthx)

私「MoveHorizonを128にしてslowmoverは110にしてます」

 

インタビューなどで偉そうにいろいろ語りましたが、実はqhapaqのtimemanはやねうら王に比べ2バイトしか差がありません。方方の理論研究から、optimum timeを一定に保ちながら、150手前後で時間を使い切るようにするのがベストだと導出していたからです(この2バイトの改造で、なぜ上記の理想的状態に持ち込めるかの説明はまた今度...の予定)

 

2バイトで独自性とはこれ如何にですが、導出には20年近く蓄え続けた数理パワーと机の前での数十分の悶絶が伴っていますので許してください。保証は出来ないけど、少し強くなってると期待してます(強くなってなくても、他に強くなった部分はあるし、勝てたからいいんだよ!

 

・狼ヘッド

狼ヘッドはsdt4でたぬきのきぐるみを着た変な人を倒すために、ドンキのハロウィンセールの売れ残りから買った獲物なのですが、着けてると色々と縁起が良いのと、対局開始と終局時にこれを装備して挨拶してたことから、正装=狼ヘッドという図式が成り立ってしまったので、定番化してしまいそうです。

喋るときに不便だし、全く私の顔が残らないのも癪なので、早く色褪せるとか穴空くとかしないかなと思いつつ、ちょっと保存状態の悪そうな棚に閉まってあります。

 

・入賞スピーチの焼き直し

ライブラリ勢の活躍やponanzaの引退のお陰でsdtのゲームバランスに疑問の声が上がるのも然るべきことだと思います。また、Yorkieの敗退やマッチングミスなど、運営に対する不満もゼロではないかも知れません。私自身は、ライブラリ勢が嫌いなら嫌いで良いと考えています。ただ、ライブラリ祭りが嫌いだからとsdtを観るのをやめてしまう前に、それを声に出して欲しいとお願いしたいです。sdtは見てくれる人があってのイベントであり、見てくれる人のためにルールが組まれます。皆様の声にはsdtを作る力があるし、sdtが続くことは、コンピュータ将棋の発展にも重要だと信じています。

 

今後共、Qhapaq。いや、コンピュータ将棋をよろしくお願いします。