elmo-qhapaq評価関数のレート戦型依存性の実験結果と考察
elmo-qhapaq評価関数(通称:エロ河童関数)をDL、ご利用、検証していただいてる皆様、誠にありがとうございます。
皆様の実験結果、及び、手元の実験結果を元に、エロ河童関数の挙動について幾つか知見が得られましたのでご報告いたします。
1.実験結果(以下すべて、エンジンはやねうら王v441以降)
エロ河童評価関数 vs elmo評価関数 in 真やね定跡 in 8スレ1秒
267-2-191
エロ河童評価関数 vs elmo評価関数 in たぬき定跡 in 8スレ1秒
280-7-267
現在実験中
エロ河童評価関数定跡off vs elmo評価関数 in たぬき定跡 in 6スレ1秒
909-19-742
エロ河童評価関数in たぬき定跡 vs elmo評価関数 in 定跡off in 6スレ1秒
859-17-784
2.実験結果の考察
最初の実験で真やねを使ったのは真やね定跡が局面が広く、スペックも悪くない(狙撃系定跡と異なり、特定の戦型を避けることをしない+定跡offに比べれば狙撃系定跡に強い)からです。
真やねミラーではエロ河童がelmoを大きくリードしている一方で、たぬき定跡などでは殆ど差がついていない(微妙にエロ河童のほうが強い気もしますが)のが現状です。
これは河童絞り、またはelmo絞りの良し悪しに戦型依存性があり、河童絞りを入れた結果、真やねミラーで出てくるような超力戦で特に学習の効果が出たからと思われます。
3.elmo-qhapaq評価関数ver2に向けて
vs elmoにのみ的を絞れば、エロ河童関数が少し有利であるとは思います(真やねミラーでは有意に勝ち越してるし、その他の定跡でも一応現状勝ち越してるし)。ただ、戦型依存性がある、特定の局面で過学習をしてる可能性が示唆されている(≒他ソフトへの勝率が落ちている)ためその強さは盤石ではないと思います。
そこで、floodgateや手元実験の棋譜を用いてより広い戦型を使う、過学習を起こさないように安全重視で学習を行うという調整をしていきたいと思います。エロ河童関数v2は近日公開予定です。
個人的には、その間にelmo関数の他ソフトへの勝率が集まっていてくれると助かります。エロ河童関数v2のスペックを測定する際に、elmo対他ソフトを逐一手元でやるのしんどいので...