elmo-qhapaq評価関数(ver1.1)のリリースのお知らせ
タイトルの通り、elmo-qhapaq評価関数(通称エロ河童評価関数)の最新版を作りましたのでアップロードいたします。
Release elmo-qhapaq評価関数(ver 1.1) · qhapaq-49/qhapaq-bin · GitHub
前回からの相違点:
version 1.0に比べelmoの棋譜を2万局程度増やしました。また、ver1.0が定跡off状態ではそんなにelmoに勝ち越さないとの報告を受け、elmo定跡offでよく出てくる戦型(相掛かり)を特に強化しました。
早繰り銀大好き問題などの問題も報告されていたので、学習率を下げたりもしてみたのですが、総じて弱くなってしまったので、学習率に変更はありません。
ただ、教師に使った棋譜が増えているため、原理的に過学習の影響は減ったものと思われます。
超雑な測定結果:
手元PCでの実験(最新のやねうら王、0.5秒将棋、regisnvalue=1000、定跡off)ではversion1.0に対して
184-6-160(レート差25弱)
で勝ち越しています。
ver1.0の測定結果はこちらを参照してください
ちょっとした言い訳:
vs elmoでのレート測定、真やねうら王定跡での vs elmoのレート測定、vs gikou2へのレート測定などが残っていますが、所持ハードの関係で測定データの提供が難しくなってしまっています。
せっかく色々な方がelmo、elmo-qhapaq関数で実験をしてくださったのだから、此方でも測定することがあれば実験結果はここに掲載していきますが、実験が何時行われるかについては保証をいたしかねます。
過学習について:
有志によるレーティングサイト(http://www.uuunuuun.com/)によるとelmo-qhapaq評価関数ver1はelmoとほぼ同等のレートだそうです。
各々の組み合わせの結果まではフォローできていませんが、特定の戦型に対して過学習をしていて、かつ、それが勝率に大きく響いているということはなさそう(過学習自体は幾つかのケースでしてるとは思いますが、それが致命的な動作不良を起こしてはいない)です。
次のバージョンアップは大分先になります:
当初の予定ではもう少し綺麗で強い関数にしてアップする予定だったのですが、申し訳ないです。
この一週間で色々なパラメタを試した所、結局エロ河童v1のパラメタが一番強そうという結論が得られてしまいました。加えて、学習方法の最適化のために自己対局を繰り返すうちに、elmo-qhapaq関数の過学習の影響はそんなに大きくはないだろうこともわかってきました(特に有志のレーティング測定が大きいですね)。
どうもエロ河童関数はv1の時点で河童絞り的にはほぼベストな形でチューニングされていたらしく、これ以降のバージョンアップをするとなると、elmoベースの棋譜が大量に(数十万局単位で)必要になるため、次の大幅アップデートは大分先になると思います。
当面はsdt5に向けてのelmo型学習機の改造と、先延ばしし続けたシンデレラ定跡作りをすることになると思います。
研究の過程で棋譜が溜まってきたら、それらを使った河童絞りでもう少し強いエロ河童が作れる......かもしれません。