見出し画像

Gymで強化学習㊻A2C:実践編

前回は、A2Cの理論的な側面を解説しました。今回は、A2Cを実装してGymの環境で実験を行います。

これまで同様、マウンテン・カー(連続値)の環境を使い実験を行うので以前の結果と比較することができます。A2Cでは、REINFORCEActor-Criticよりも良い成績が出るでしょうか。

なお実装する際に、A3CとA2Cでは、エントロピーによる正則化を効果的に使うことが重要です。この辺りを詳しく解説します。

それではさっそく始めましょう。


ポリシーの定義

今回のポリシーは次のように定義しました。

ここから先は

28,271字 / 1画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?