最強ソフトの言うことの真逆をやると最弱になるのか検証してみた

今や将棋研究のお供の定番である将棋ソフトですが、その裏で初心者の練習相手としても定番になりつつあるようです。駒の動かし方を覚えた人が次にやるべきなのが数練習をすることであり、数をこなす為のモチベーションを維持する際に、無限に遊んでくれてしかも負けてくれる将棋ソフトにニーズがあるようです。

 

どのぐらいニーズがあるかというと、絶対王者のponanzaさえも弱いソフトを作ることに一石投じる程度にはニーズがあるようです。

将棋ウォーズにある史上最強に弱いPonanzaの話|山本 一成@Ponanza|note

 

曰く、クッソ強いponanzaの評価値を反転すればクッソ弱いソフトが出来る。

成る程。ponanzaが全力で悪くなる局面を探してくれるなら、確かに弱くなりそうだ。しかし私はこの記事を見て「ソフト同士が負けることに全力を尽くした場合、果たしてどのくらいまで弱くなるのか」が気になりました。

ここでは、ponanzaに倣い(?)評価値を反転させたソフトの棋風とその弱さについて考察していきたいと思います。

 

 

【ゲームのルール】

意図的に負けようとするとなると、初手投了や非合法手、王手放置などがでてきてしまいますが、此処では非合法手は禁止とします。また、これはやねうら王の評価値を反転させるだけという手抜きhackの副作用なのですが【評価値の詰みは反転していません】即ち、評価値の低い手を探す一方で、意図的に詰みがある局面には持って行こうとしないということです。

この辺はゲームのルールとして議論の余地がありますが、詰みがないと言う縛りでできるだけ悪い局面を探すのは絵的に面白いし、なにより改造が怠いのでこのまま行きます。

 

【△aperypaq on やねうら王 vs ▲私】

f:id:qhapaq:20180115214054p:plain

終局図はこちらです(駒が往復するようになったので打ち切った)。青線が終局後に通常のaperypaqで棋譜を検討した場合の評価値です。

 

互いに悪い手を指すわけですから、評価値は手毎に往復することになります。中盤にかけて私のほうがちょっと良く(負けようとしているのだから、相手よしが自分よしだ)なっていますが、コンピュータの流石の終盤力で最後は私の判定負けに近い評価値になっています。

 

【評価値反転ソフトの棋風(初手20手)】
   1 7六歩(77)        ( 0:02/00:00:02)
   2 4四歩(43)        ( 0:01/00:00:01)
   3 5五角(88)        ( 0:04/00:00:06)
   4 1二香(11)        ( 0:01/00:00:02)
   5 6四角(55)        ( 0:02/00:00:08)
   6 7四歩(73)        ( 0:01/00:00:03)
   7 4六歩(47)        ( 0:07/00:00:15)
   8 2四歩(23)        ( 0:01/00:00:04)
   9 4五歩(46)        ( 0:05/00:00:20)
  10 4二玉(51)        ( 0:01/00:00:05)
  11 4八飛(28)        ( 0:01/00:00:21)
  12 4三玉(42)        ( 0:01/00:00:06)
  13 4六飛(48)        ( 0:02/00:00:23)
  14 4二銀(31)        ( 0:01/00:00:07)

  15 1六飛(46)        ( 0:01/00:00:24)
  16 5一銀(42)        ( 0:01/00:00:08)
  17 1四飛(16)        ( 0:03/00:00:27)
  18 3四玉(43)        ( 0:01/00:00:09)
  19 3六歩(37)        ( 0:11/00:00:38)
  20 4二金(41)        ( 0:01/00:00:10)
 

みたところ、玉を前に繰り出す棋風のようです。玉を相手の攻め駒に近づけ、少しでも駒が入ったら寄せられてしまうようにしているのでしょう。途中取らせるつもりで跳ねた桂馬の行き先に銀と飛車を配置されたりと「あ、コヤツ出来る」的な技を幾つかやられましたが、私の棋力があんまり高くないこともあり、ふと気付けば駒組が相手のほうが酷いという負け筋(勝ち筋)に入ってしまいました。

 

【謎の頂上決戦】

さて、私ぐらいの棋力では負けることが出来ないことが解ったので、此処からはソフト同士に対局してもらうことにします。お相手はやねうら王の教師110億のうち30億ちょいを食わせたもの(yanezero。私が手元で用意した)です。

 

f:id:qhapaq:20180115221257p:plain

 

大方の予想(?)に反し、通常ではaperypaqよりレートが200以上低い後手番のyanezeroが勝ちました。本局を振り返ると60手目と200手目あたりにドラマがあったようです。

f:id:qhapaq:20180115221858p:plain

59手目26玉で先手のaperypaq側が大幅な有利を獲得します。

というのも、先手玉によって後手玉の退路が封鎖されたことで後手玉に詰み筋が生じつつあり、かつ、先手玉が後手玉側に居るため、下手に受けようとすると先手玉が寄ってしまうからです。13桂不成ではなく成にしたのはなぜかと思いましたが、王手をすることで無理やり駒を押し付けるのがコンピュータ流の負け方のようです。

後手は泣く泣く13香と成桂を取りますが、ここから暫くは後手が苦しい(通常の評価値で言えば後手有利な)局面が続きます。

 

f:id:qhapaq:20180115222738p:plain

 

しかし、yanezero不利で迎えた192手目でドラマを迎えます。ここでyanezeroが取った手は金を取る75歩

そして78玉に対し、67金打、同玉、66歩、同玉、46飛車、56金打、同飛、同玉で後手の攻守の要であった飛車を押し付けることに成功します。すごい!!

 

感想戦

評価値逆転将棋ソフトの対局は自玉を危険な場所に置きながら相手玉を詰まない程度に追い込んで攻め駒を押し付けることで不利を確保するという見ていて地味にスリリングなものでありました。

意味があるかは解りませんが、皆様も暇つぶしにどうでしょう?