探索を使わないで名人級の将棋AIは実現できるか？

2024年2月18日 09:46

ニュースなどでも流れていましたが、興味深い論文が公開されました。
Grandmaster-Level Chess Without Search

内容を理解する上で、こちらの記事も参考になります。

論文の冒頭のイントロダクションからポイントとなる表現を引用します。

Thus, the main question of this paper is: Is it possible to use supervised learning to obtain a chess policy that generalizes well and thus leads to strong play without explicit search?

Grandmaster-Level Chess Without Search

「教師あり学習でチェスのポリシーを一般化（定跡化）して明示的な探索をせずに強い指手が得られるか？がこの論文の主題である。」

Therefore, our work shows that it is possible to distill a good approximation of Stockfish 16 into a feed-forward neural network via standard supervised
learning at sufficient scale—akin to the quote famously attributed to José Raúl Capablanca, world chess champion from 1921 to 1927: “I see only one
move ahead, but it is always the correct one.”

Grandmaster-Level Chess Without Search

「Stockfish 16(強いチェスのプログラム)のよい近似として、十分な規模の標準的な教師あり学習でフィードフォワード・ニューラルネットワークのモデルに還元できることをこの論文は示している。この結果は、1921年から1927年の世界チェスチャンピオン(J. R. Capablanca)の言葉 "1手先しか見えないが、常に正しい手が見えている" が示唆しているものに近い。」

個人的には、現在、LightGBMのlambda rankを使用して、1局に現れるすべての合法手に関する局面における指手の頻度の順位(ndcg@1)に基づく将棋のポリシーモデルを実験していますが、この論文の主張と合致するような部分的な結果が得られています。

将棋の場合、1,000局のfloodgateの棋譜からおよそ1億1千万の合法手局面が得られます。この規模でもなんとなく筋の良さそうな指手が得られますが、手順が問題になる序盤の局面で必要な手を選択できずに、水匠にぼこぼこにされてしまいます。

終盤はcshogiのAPIで15手詰め程度までなら実用時間でカバーできますが、序盤は定跡を入れるか、別のアプローチを検討しています。

よろしければサポートお願いします！いただいたサポートはクリエイターとしての活動費に使わせていただきます！