Gymで強化学習㊲ポリシー勾配法：理論編

2023年9月6日 21:26

前回は、Atariゲーム環境におけるDueling DQNの実験結果を報告しました。今回は新たなテーマ、ポリシー勾配法に焦点を当てます。

これまでずっと、ポリシーとして行動価値を最大化する行動選択を行う手法を解説してきました。行動価値ベースのポリシーでは、必ず行動価値の計算が不可欠です。

しかし、最終的な目的は最適な行動を選ぶことであり、行動価値の計算はそこへたどり着くための手段でしかありません。

この記事では、行動価値を参照せず、状態から直接行動を選ぶポリシー勾配法について解説します。つまり、状態から直接に最適な行動を予測します。といっても価値関数の概念が完全に切り捨てられるわけでもありません。それについては追々に解説していきます。

「状態から直接的に最適な行動を選ぶにはどうすれば良いのか」

この新しい視点で強化学習を考えることで、異なるアプローチの可能性を探ることができます。

では、さっそく始めましょう。

ここから先は

9,624字 / 1画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？