見出し画像

Gymで強化学習㊵REINFORCE:実践編②

前回は、REINFORCEの実装を行いGymのCartPoleで実験しました。ただし、ベースラインがうまく機能するように向上させることが課題として残りました。今回は、ベースラインとしてエージェントが予測した状態価値の値を使い実験を行います。

それでは、さっそく始めましょう。


ここから先は

13,538字 / 5画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?