Gymで強化学習㊸Actor-Critic:実践編

2023年10月23日 16:41

前回は、ActorCriticの理論的な面を解説しました。今回は、前々回と同様にマウンテン・カー（連続値）の環境を使い実験を行います。

コード上での変更部分は、それほど多くはなく主に訓練ループの部分が変わります。ただし、ActorCriticでは、毎ステップでポリシーのパラメータを更新するために過学習になりやすく学習が不安定となる問題があります。今回は、どのように対処したのかについても解説します。

なお、マウンテン・カーの連続値版の環境の詳細は、前々回の記事を参照してください。

それでは、さっそく始めましょう。

ここから先は

15,072字 / 2画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？