見出し画像

Gymで強化学習㊾PPO:実践編

前回は、PPOProximal Policy Optimization)の理論的な側面を解説しました。今回は、PPOを実装してGymの環境で実験を行います。

これまで同様、マウンテン・カー(連続値)の環境を使い実験を行うので以前の結果と比較することができます。PPOでは、A2CREINFORCEActor-Criticよりも良い成績が出るでしょうか。

できる限りこれまでの実装とソースコードが同じになるように務めました。よって、異なる点にフォーカスして解説をすることができます。

それではさっそく始めましょう。


ここから先は

26,617字 / 1画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?