Gymで強化学習㊼TRPO:理論編

2023年11月30日 22:09

前回は、A2Cの実装をしました。A3CとA2Cは、Actor-Criticにおける学習の不安定性を解消することを主要な目的としています。今回紹介するTRPO（Trust Region Policy Optimization）もActor-Criticの一種ですが、A2Cなどとは異なる手法によって学習の安定性をもたらしています。

TRPOの手法では、新しいポリシーが古いポリシーから「あまりにも遠くならないように」制限することが可能です。これにより、学習過程においてポリシーが急激に変化し、学習の安定性が損なわれるのを防ぎます。

このためTRPOでは、ポリシーの更新を行う際に、信頼領域（Trust Region）という概念を用いて、新しいポリシーが古いポリシーから大きく逸脱しないように制約を加えます。この記事では、その仕組みの概要を解説します。

では、さっそく始めましょう。

ここから先は

7,960字 / 1画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？