AlphaZeroに投了宣言しないといけないかも知れない

AlphaZeroの論文が出てきました。arxivに出してた論文はイケてなかったですが今回のはイケてます。

 

前回の論文に対しては今の御時世でWCSC27のelmoに勝ったぐらいで convincingly defeated a world champion program とか言わないでよとか、投了の基準が900点なの意味がわからんとか、定跡はどうしたのかとか、棋譜がないのはどういうことかとか散々な評価をした記憶があります。

 

が、なんと今回は棋譜があります。しかも羽生竜王棋譜コメを貰ったようです。棋譜の公開に伴い、戦型の分布も明らかになりました。Zero言いながらちゃんと居飛車を指します。WCSC28でCrazyShogiも矢倉組んでたので驚くほどではないかも知れません。

 

そして、棋譜の公開と同じくらいイケてるのがaperypaq(Apery-Qhapaq関数、略してaperypaq。2017年末から2018年頭ぐらいにかけてsotaだった)を相手にも対局をしていることです。というのも、AlphaZeroとやねうら王+KPPTとでは探索も評価も異質であるため、AlphaZeroとやねうら王系列のレートを同じ土俵で扱って良いのか解らなかったからです。

 

QRLのレーティングではelmoとaperypaqのレート差は170程度、AlphaZeroとelmoのレート差が(勝率91%、400ちょい。なおelmoもaperypaqも探索部のバージョンが4.79にあがっている)なので、AlphaZeroとaperypaqのレート差は230程度となり、AlphaZeroの勝率は80%程度と予想されます。aperypaqを相手にした勝率は図でしか与えられていませんが

 

f:id:qhapaq:20181207215404p:plain

 

こんな感じになっており、図の長さから測定すると約88%(勝率から換算されるレートはaperypaq+340)程度の勝率であると推測できます。測定誤差の範囲かもしれませんが、KPPT同士の対局で強くなってもAlphaZeroに対する勝率があまり上がらないことが示唆されています。

 

個人的にそれに輪をかけてきな臭いのが先手の圧倒的な勝率の高さです。今のコンピュータ将棋が先手ゲーであることは間違いないですが、先後のレート差は精々50程度(先手6割行かないかなぐらい)です。しかし、AlphaZeroの先手は後手に比べてレートに換算して100程度の上昇を果たしています。未だ我々が知らないだけで将棋は想像以上に先手ゲーなのかも知れません。AlphaZero同士の対局での先手勝率が知りたい!!

 

さて、こうなるとorqhaやnnuekai7がelmoに対して90%前後の勝率を出していたとしても、AlphaZeroにはすり潰されてしまう危険があります。後手番なんて特に危ないでしょう。

 

が、このまま引き下がるのも悔しいので手元に潜ませているもっと強いorqha(レートnnuekai7+40ぐらい)の棋譜を公開します(ロタさんありがとう!)。orqhaでもelmoに9割は勝ちます。しかもTPUを買わなくてもサクサク動く。凄い!

 

CPUとTPUの差とか電気代とか学習コストとかを考えるとAlphaZeroの convincingly defeated a world champion program はある程度は話を盛っている気がしますが、前回の論文と違って今回の論文を読んだ感じ、予算度外視で戦えばAlphaZeroが勝つだろうと言わざるを得ません(前の論文の時はそこまで強そうじゃなかったんですが)。即ち相手としてAlphaZeroは追わねばならない存在なのだなと感じました。お見事。

 

【余談】

視力の良い人なら気付くかもしれませんが、前回の論文ではelmoがElmoとtypoされていましたが、今回の論文でもaperyqhapaqがaperyphapaqとtypoされています。あとelmoもElmoのままです。AlqhaZEroェ......

 

これを機にコム将棋海外勢が増えたら良いなと思い、将棋ソフト導入wikiを創ってみました。良ければ編集よろ

コンピュータ将棋wiki強化月間開始のお知らせ

平素よりQhapaq Research Labをご愛顧いただきありがとうございます。

 

コンピュータ将棋の情報を纏めるべく運用を開始したwikiですが、現状記事が集まらなくて苦慮している状態です。

 

特に大きな問題となっているのは、各ソフトの基本情報が纏めきれていないことです。より具体的には、各ソフトが何処でダウンロードできるかや、各ソフトの歴代成績、アピール文のリンクが足りていません。

 

コレがあるだけでも大分、情報量が変わってくる(そして、将棋ソフトに興味を持ってくれた人の役に立つ)と考えています。ソフトの解説を書こうとすると難しくて手が止まってしまう(かくいう私もだ)かもしれませんが、情報を纏めるでよければ敷居は大分下がるでしょう。

 

そこで、コンピュータ将棋wikiの強化月間と称し、10月30日までに将棋ソフトの情報を書き入れてくれた人にamazonギフト券によるギャラを支払うことにしました!

 

【注意】

amazonギフトのメール形式以外での支払は対応していません

・大会出場ソフトではないソフトについてはギャラ支払の対象外です

・最初に必要なリンクを全て揃えた人にのみギャラが支払われます。書くなら一度に書きましょう

wikiのコンフリクトは保証の対象外です。お許しください

・1ソフトに付き200円のギャラが出ます

・既に必要なリンクが揃っているソフトも対象外です

・纏めて支払を行いたいため支払が遅れる可能性があります

 

【記事の書き方】

例:Ponanzaについて書くとこんな感じになります

・コンピュータ将棋wiki上でユーザを作ってください

・コンピュータ将棋wikiのアカウントにギャラ支払用のメールアドレスを登録してください

・開発者の名前、大会成績、開発者webページヘのリンク、アピール文章へのリンクを将棋wiki上に書いてください

・開発者のwebページは代表開発者(開発者名の一番最初に書かれてる人)だけでokです。

・大会成績、アピール文は直近の6大会分まででokです(6回以上参加してないソフトについては全部書いてください)

・将棋ソフト一覧の後ろにある*印を除去してください

・記事を執筆した旨を管理者のメールアドレス

f:id:qhapaq:20180424225620p:plain

までご連絡ください(私自身もwikiの履歴は見ますが、見落とす可能性も高いので申告していただいたほうが確実です)

 

【その他】

・既に記事を書いてくれた方

生まれたばかりの胡散臭いwikiの執筆に時間を費やしてくれた方々にこそ一番感謝をするべき、ということで、遡ってのギャラの支払をする予定です。ギャラの額は記事によって変わる予定ですが、兎に角支払います。履歴を遡るのが困難であるため、やはり連絡頂けると助かります。

 

・解説文章

解説文にもギャラが出るかも知れません。ただし時価です。ハイテク株依存ですし、額も保証できません。申し訳ないです。

 

・なんでこんな企画をやるのか

理由1:wikiを触るという経験を皆様にしてもらいたいから

理由2:技術書典の泡銭を使いたいから

理由3:ソフトの紹介文を書きたいけど、ソフトの情報(アピール文とか大会成績とか)を調べるのが面倒だという人(私含む)が少なからず居ると思うから

【10月25日まで】技術書典5で頒布した科学するコンピュータ将棋シリーズのweb販売を行います

締めきりました。ありがとうございます。

 

技術書典5で頒布した「科学するコンピュータ将棋」のweb販売を行います。

 

頒布物のアピール文

techbookfest.org

 

注意:技術書典4で頒布した科学するコンピュータ将棋を購入された方(現地、web販売問わず)は、科学するコンピュータ将棋LTS版は無料でアップデート可能です。頒布したDLサイトに最新のLTS版が置かれています。

 

注意2:今回は頒布物が2種類あります。お間違えのないようご注意ください。

注意3:圧縮形式の問題で一部環境でファイルが回答できないという問題がありました。お詫び申し上げます(現在は解決しているようです)

 

 

 

【おしながき】

科学するコンピュータ将棋LTS版(コンピュータ将棋の歴史や学習の理論が中心) ...... 700円

立ち読みはこちら(注:技術書典4で頒布した第一版です)

 

科学するコンピュータ将棋別冊Qha学習(最新のライブラリの導入や、今流行している学習手法の動かし方が中心) ...... 300円

立ち読みはこちら

 

【お買い求め方法】

1.amazonギフトメール(メールタイプ)をお送りください送り先は

f:id:qhapaq:20180424225620p:plain

です

 

2.お買い求めいただく冊子をメッセージに添えてください

今回は700円の既刊、300円の新刊の2種類が有ることに注意してください。

 

3.アマゾンギフトのレスポンス機能を経由してDLコード、および、パスワードをお送りします。

注意:アマゾンギフトのレスポンスは一度しか打ち込めず、購入者の連絡先は私の方では解らない仕様です。私の操作ミスなどにより、正しくデータが届かなかった方は、お手数ですが上記メアドまでご連絡ください。

 

4.お問い合わせの際にはamazonギフト購入時の注文番号を添えていただけるとより迅速な対応が可能です

 

皆様、よろしくお願いします!

今の将棋ソフトはAlphaZeroを超えている件

AlphaZeroの論文は世界に衝撃をもたらしました。曰く、ディープラーニング強化学習で作られた評価関数は激烈に強く、囲碁だけでなく、チェス・将棋でも人間を超え最強のソフトを超えたと。

 

人間 vs コンピュータに終止符を打ち最後まで絶対的強さを魅せつけたPonanza、そのPonanzaをWCSC27で破ったelmo、そのelmoを90-2-8で破ったAlphaZero。elmoとのレート差は約400。コンピュータ将棋も終わった。

 

......と思ったかも知れません。あの時は。

 

しかし、AlphaZeroの論文(2017年12月発表)から1年も経たないうちその神話は終焉を迎えました。

 

レーティングサイト(/)のレーティング表からもお察しの通り、今の将棋ソフトのレーティングはelmo+400ぐらいの値が出ています。

 

f:id:qhapaq:20181006174130j:plain

 

orqha0926はorqhaの最新バージョン(公開版orqhaに対してR+50くらい)です。測定者はロタさん、棋譜こちらからダウンロードできます。勝率88%。素のレートでいえばAlphaZeroより40程度低い値です。しかし、原著論文は

 

・AlphaZero(TPU)とelmo(CPU)の計算資源は費用比較だとAlphaZeroがかなり有利

・AlphaZeroの試合回数が100しかない(orqha vs elmoだって途中経過では156-1-14(91%)ぐらいの勝率は出てた)

・投了値がなぜか-900になっていて、終盤戦が出てこない

・elmoをElmoとtypoしてる

 

と言った問題点を抱えています(その代わりにorqhaの棋譜は持ち時間が大分短いわけですが)。

 

勝率差がここまで詰まっているのを鑑みれば、ハードの違いを加味すれば今の最強のソフトはまず間違いなくAlphaZeroより強いでしょう。

 

【以下、プロレス的な煽り文】

DeepMind恐れるに足らず。TPUにいくら使ったか知りませんが、その覇権とやらを打ち崩すのに6コア12スレのPCがあれば十分です。

ブレイクスルーだ、技術的失業、シンギュラリティだと宣いますが、巨人の肩を甘く見るからこういう目にあうのです(まあ、orqha自身がやねうら王、NNUE、illqhaの肩に乗ってるのは公知の事実ですしの)。

どうでしょう、DeepMindに材料開発部門ができたら私を雇ってみませんか?

 

【追記:露骨な宣伝】

AlphaZeroを恐らく超えているだろうNNUE関数のorqha。その開発者によるコンピュータ将棋の教科書が技術書典で頒布されます。

 

アピール文のページはこちら:

qhapaq.hatenablog.com

イベントのページ:

https://techbookfest.org/event/tbf05
https://techbookfest.org/event/tbf05/circle/53170003

 

良ければ足をお運びください。web通販も予定しています!

【技術書典に】コンピュータ将棋は戦国時代から存在していた!? 〜消えた酔象の謎〜【出ます】

一瞬バグかと思いましたが、なんと山口さんが記事を投稿してくれました。というわけで、タイトルの通りの記事を技術書典で頒布します。以下、頒布に至るまでのストォリイ。

https://twitter.com/ymg_aq/status/985850934944149506

 

 

山口さんとは囲碁ソフトの最強格であるAQの開発者であり、WCSC28で準優勝した強豪将棋ソフトPALの開発者でもあります。平たく言えば超大物プログラマです。

 

素晴らしいプログラマが記事を書く気になってくれてるのは大変ありがたいことなので、「是非お願いします。ギャラとしては最低でも肉を出します。ハイテク株で儲かりましたし」とリプライを送り「流石にムーは冗談やろ」と思いながら夏休みを過ごしてから暫く。

 

10月のある日、我々のもとに一つの怪文書が届いたのです。

 

(以下、記事の概要より、引用/抜粋)

コンピュータによる将棋ソフトのはじまりは 1975 年とされている。ところが実際にはその遥か以前、戦国時代からコンピュータ将棋は存在したのだという。はたしてコンピュータ将棋は何の目的でつくられたのか?
コンピュータと将棋を結びつける「象」の正体とは?我々は駒のルーツを追う過程で、コンピュータ将棋、さらには将棋の歴史の核心に迫った。その詳細をここにご報告しよう。

※:本コラムには科学的内容は含まれません

 

マジで記事が投稿されたのです。しかも、本当に醉象ネタで。

恐ろしいことに9ページ、約1万文字の超大作です。国語教科書の定番オブ定番、山月記ですら6500文字ぐらいなのに。走れメロスが約10000文字なのでメロスと同じぐらいか。何が起こってるんだ囲碁ソフト界。

 

というわけで、この本も技術書典に出ます。出します。何としてでも出します。

Qha学習を購入された方に無料で特典として付けます。単品では一応100円としておきます。

 

読んだ個人的な感想としては、将棋の歴史記事については「おおっ」と思う他、開発者的な知識に基づいた考察(?)とワードチョイスには嫉妬の念を抱かずにはおれませんでした。

 

本書が売れるほど山口さんにご馳走する肉のクオリティーが(多分)上がります。

 

 

名コラムは一日してならずというべきなのか、なぜムーを推し!?というべきなのか。

 

【リンク】

技術書店に関する本団体のアピール記事:

qhapaq.hatenablog.com

 

技術書典のイベントのページ:

https://techbookfest.org/event/tbf05
https://techbookfest.org/event/tbf05/circle/53170003

 

https://twitter.com/ymg_aq/status/985850934944149506

技術書典5でコンピュータ将棋本を頒布します in 池袋

来週月曜日の技術書典5にQhapaq開発チームも参加します。

 

イベントのページ:

https://techbookfest.org/event/tbf05
https://techbookfest.org/event/tbf05/circle/53170003

 

以下、頒布物について簡単に紹介をさせていただきます。

頒布物は全て電子書籍です。QRコード入りの紙を頒布する形式です

 

【科学するコンピュータ将棋LTS板(700円・85ページ)】

技術書典4で科学するコンピュータ将棋を購入された方は無料でアップデートできます

盤面の高精度評価や、高速な探索アルゴリズム、盤面評価関数の技術的進化やトレンドといった、コンピュータ将棋を支える技術に関する解説を行います。

Bonanza時代から、2018年のState of the ArtのNNUE関数まで幅広く扱った、コンピュータ将棋の教科書的な一品です。

 

立ち読みはこちら:

https://github.com/qhapaq-49/Kusokappa/releases/download/wabidlc/qhapaq_book_tachiyomi.pdf

 

【科学するコンピュータ将棋別冊 Qha学習(300円・45ページ)】

非公式レーティングサイトに於いて2018年9月時点でのState of the Artを持つ筆者による、現在流行っているコンピュータ将棋の学習技術や、将棋ソフトの応用、各種ツールの導入方法を扱った書籍です。

コンピュータ将棋の開発競争のスタートラインに立つのに便利な技術を、出来るだけ実践しやすい形式で解説していきます。

 

立ち読みはこちら:

https://github.com/qhapaq-49/Kusokappa/releases/download/wabidlc/qhlearn-tachiyomi.pdf

 

 

【その他アピール事項】

・将棋神やねうら王をお持ちの方については振り駒割を行う予定です

頒布物の購入価格が振り駒で出た歩の数 x 100円になります。(Qha学習のみお買い求めの場合はx 50円)。皆で先手を取ってQhapaqに沢山お金を払おう!

 

・会場販売限定ですが、レフェリー割があります

以下の本(名刺)を持ってきた方にはLTS版は200円引き(700円→500円)Qha学習は100円引き(300円→200円)にて販売いたします(マニア向け補足:割引の重複はありません。お許しください)

Short Coding ~職人達の技法~2007/8/9 Ozy、 やねうらお

Windowsプロフェッショナルゲームプログラミング2002/5/31 やね うらお

ひなた先生が教えるデバッグが256倍速くなるテクニック (Software Design Books) 2008/11/14 やねうらお

ショートコーディング 職人達の技法 2014/3/11 Ozy、 やねうらお

解析魔法少女 美咲ちゃん マジカル・オープン! | やねう解析チーム

やねうらお氏の名刺

Java将棋のアルゴリズム―アルゴリズムの強化手法を探る (I・O BOOKS) 2016/8 池 泰弘

Java将棋のアルゴリズム―アルゴリズムの強化手法を探る (I・O BOOKS) 2007/4/25 池 泰弘

コンピュータ将棋のアルゴリズム―最強アルゴリズムの探求とプログラミング (I・O BOOKS) 2005/2 池 泰弘

池 泰弘氏の名刺

 

・入場は無料です

技術書典は一般参加は無料です。ご安心ください。

 

・電王トーナメントのトロフィーを持っていきます

電王トーナメントのトロフィーの最大の特徴はガラス製ででかくて重いことです。持っていただくのは安全上難しいですが、撮影などを楽しんでいただけると幸いです。

※:会場混雑によってはチラ見になってしまうかも知れません。会場スタッフの指示に従うようお願い申し上げます。

 

・多分驚きの展示物があります

多分驚きの展示物があります

 

【web販売の予定について】

技術書典終了後にwebベースでの販売を予定しています。アマゾンギフトあたりを使うことになると思います。

将棋ソフトを用いた次の一手問題の自動生成

本稿は技術書典5にて頒布する科学するコンピュータ将棋シリーズの宣伝記事です。

 

大判解説などの将棋イベントで特に人気があるのが指導対局です。プロ棋士と実際に対局を行い、指し手の良し悪しについて幾つかのアドバイスを貰えるこのイベントは将棋の体験としても、また、棋力を上げる上でも非常に良いものです(*)。

 

しかし指導対局は何時でも受けられるわけではありません。最近では将棋ソフトはプロ並みの強さを手に入れては居ますが、奴らは只管に無慈悲であり只々負け星を積み続けることになります。

 

そこで、自分と似たような棋力の人間やソフトと戦い、その対局をソフトに振り返ってもらうことで擬似指導対局が出来ないだろうかと考えました。以下、そのやり方と結果についてご報告します。

 

【悪手を元に次の一手問題を作る】

筆者と似たような棋力の持ち主としてGameDesignの将棋Flashのレベル9と対局を行いました。棋譜の局面を一つずつQhapaqに評価させ、私と将棋FlashのCOMがドレだけ悪い手を指したかを可視化してみました。

 

f:id:qhapaq:20181003234706p:plain

横軸が手を指す前の評価値(から計算された勝率)、縦軸が手を指した後の評価値です。私もソフトもかなりの数の酷い手を指しているのがわかります。

 

このままでは、感想戦というより指したほぼ全ての手をdisられるだけの処刑大会になってしまいます。

 

そこで、限りなく沢山有る悪い手の中から、指導に向いた局面を抽出することにします。以下のガイドラインに従い、検討するべき手を絞ることで、比較的教育的な悪手を引っ張ってくることが出来ました。

 

1.正解の手が一つに絞られている局面を使う(答えが複数ある複雑な局面を避ける)

2.悪い手を指した前後の局面を使う(プレイヤーが間違える程度には複雑な局面を使う)

 

【例題】

 

f:id:qhapaq:20181003235051p:plain

穴熊の対抗系の終盤。双方の玉が危ないですが、此処で先手番が指すべき手は?

(答えは下に記載)

 

 

 

 

 

 

この問題の唯一の答えは26銀です。その他の手は17桂成、同香、39銀打、18金、38龍で寄り筋となってしまいます。26銀には47桂成から絡みつかれるのが怖いですが、26銀、47桂成、13金、同香、76角で龍を攻めながら先手を取ることが出きます。この局面の評価値は1200前後であり、相当先手が有利なのですが、受けの手を誤ると後手勝勢となります。

 

筆者はこの局面で44角と指してしまいました。ただし、相手のソフトも弱かったため上述の詰み筋に気付かず、最終的には勝つことが出来ました。twitterでこの問題を流したところ、恐らく私と似たような棋力の人が44角と答えてしまっていたので、教育的には悪くないのではないかと思います。

 

【今後】

web上にある棋譜を集める、ユーザ投稿するなどをして大量に棋譜データを集め、今回のような自動生成を行えば、毎日次の一手を呟くbotのようなものが作れるかも知れません。ソフトによる指導対局という新しい分野が切り開かれれば何よりです。

 

【最後に宣伝】

10月8日に開催の技術書典5に参加します。技術書典4で頒布した科学するコンピュータ将棋の改訂版と2018年流行の新技術を主に取り扱った別冊Qha学習を、それぞれ700円、300円で頒布します。

 

イベントのページ:

https://techbookfest.org/event/tbf05
https://techbookfest.org/event/tbf05/circle/53170003

 

githubにアップしたサンプル:

 Release 科学するコンピュータ将棋 サンプル · qhapaq-49/Kusokappa · GitHub

(特にQha学習は誤植が有る可能性が高いので見つけたら教えて頂けると助かります ><)

 

足を運んでいただければ幸いです。

技術書典4同様、webでの頒布も予定しております。リリース時期は未定ですが、遠方の方などにご活用いただければと思います。

 

(*) 余談ですが筆者は2014年の竜王戦の大判解説で藤井猛九段の指導対局を受けたことがあります。将棋界のスーパースターが来るとだけあって、参加希望者が異様に多く、少なく見積もって倍率5倍のクジを引きあてることに成功したわけですが、当時は其のありがたさがイマイチ解っていなかった気がします(結果は二枚落ちで挑戦して負け。21手詰が炸裂した瞬間にギャラリーが湧いていたのが印象的でした)