Gymで強化学習㊾PPO:実践編

2023年12月18日 15:58

前回は、PPO（Proximal Policy Optimization）の理論的な側面を解説しました。今回は、PPOを実装してGymの環境で実験を行います。

これまで同様、マウンテン・カー（連続値）の環境を使い実験を行うので以前の結果と比較することができます。PPOでは、A2CやREINFORCEやActor-Criticよりも良い成績が出るでしょうか。

できる限りこれまでの実装とソースコードが同じになるように務めました。よって、異なる点にフォーカスして解説をすることができます。

それではさっそく始めましょう。

ここから先は

26,617字 / 1画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？