Suphx 論文 (8) Conclusion and Discussions を読む

全文無料、購入してくれると喜ぶ。今回も半額サービス。

Conclusion and Discussions

現時点で最強といえるAIの開発、そして多くの人間を超えることに成功したとしつつも、まだまだ改善の余地があるとしている。

まず広域報酬予測についてであるが、広域報酬予測の訓練においては各局を同じ重みとしていた。しかし「誰でもアガれる配牌をアガる」ことより「難しい手をまとめる」ことをより重く評価するような方式を導入すれば精度が上がる可能性がある。また、広域報酬予測器の訓練においても神託指導のようなこと、つまり他家の手牌などに関する評価を加えることを検討しているとのこと。

次に神託指導について、本論文で行った方法の他にも有望なものが2つ挙げられている。1つは神託エージェントと普通のエージェントとを同時に訓練し、かつそれらの距離を制限するアプローチ。この方法も実験しており、そこそこうまくいっているとのこと。もう1つは神託批評家 (critic) で、1局ごとではなく1行動ごとにその良し悪しを (見えていない情報も根拠として判断し) 強化学習エージェントへの報酬とするアプローチ。これは学習の効率を大きく高める余地がある。

パラメトリックモンテカルロ方策適応についての方向性として、配牌時点だけでなく局の進行に沿ってシミュレーションによる適応を続けることが挙げられている。これは人間のプレイヤーが行っていることに近そうだし、1ステップごとの計算量を小さくして全体の精度を確保することができれば、天鳳の制限時間に合わせて適用できるかもしれない。

論文の内容に対応する解説はここまで。

ここから先は

0字

¥ 512

この記事が気に入ったらサポートをしてみませんか?