Suphx 論文 (0) Introduction を読む

2020年4月7日 08:43

全文無料、購入してくれると喜ぶ。

天鳳の ⓝ (人間ではない) アカウントとして初めて十段に到達した Suphx について、開発元による論文が 2020/03/30 に公開されたので読んでみる。「論文の解説」を読みたい読者は論文そのものを読めるだろうから軽めに、できれば人間プレイヤーにとっても役に立つようにしたい。

Introduction

まず麻雀を研究対象とした理由が述べられている。ゲーム研究の対象は二人完全情報のものから始まり、徐々にプレイ人数の多いものや不完全情報のものへと移ってきた。そのなかでも麻雀がチャレンジングである理由が3つ挙げられる。

第1に評価方法の複雑さ。複数局のスコアを合計して順位を争うため、1局のスコアのみをもってプレイの良し悪しを評価することはできない (オーラスにトップを確定するための子への差し込みなど)。アガリ形のパターンが多く点数も異なってくることも。第2に見えていない牌の多さ。パターンが多いうえ、ゲーム内の行動の良し悪しがそれに大きく依存するため、報酬を見えている情報と結びつけ (て行動す) ることがお難しい。第3にルールが複雑なこと。ゲーム内の行動にはリーチ・チー・ポン・カン・打牌という異なる種類のものがあり、行動の順番がそれによって変わる。特に相手の行動は見えていない情報に大きく依存して予測が難しいため、ゲーム状況の変化を探索するための既存のアプローチが使いづらい。

Suphx は深層畳み込みニューラルネットワーク (いわゆるディープラーニングの一種) による麻雀AIで、まず人間の牌譜を正解とみなした教師あり学習、それから自己対戦による対戦結果を報酬とみなした方策勾配型強化学習によって構成される。そして、前述のチャレンジに対する工夫を取り入れている。

第1に global reward prediction (広域報酬予測)。現在までの局の結果と現在の局の展開とからゲーム終了時点の報酬 (順位) を予測する。第2に oracle guiding (神託指導)。本来は見えていない牌の情報を使うことができるプレイヤーを構成し、学習の過程で使った。第3に parametric Monte-Carlo policy adaptation (パラメトリックモンテカルロ方策適応)。学習したとおりに打つだけではなく、配牌および進行に応じて方策を局に適応させてプレイする。

次は Suphx 論文 (1) Introduction を読んで思うこと。

ここから先は

0字

¥ 1,024

ログイン

この記事が気に入ったらサポートをしてみませんか？