Gymで強化学習⑬モンテカルロ法：中編

澁谷直樹

2023年4月3日 23:41

前回はモンテカルロ法の概要について解説しました。今回は、実際の環境で開始点探索ができない場合にどのように対処するかについてお話しします。

開始点探索を必要とした理由は、エージェントがあらゆる状態であらゆる行動を何度も選択することでサンプルから計算した平均値による状態価値や行動価値の予測が真の期待値に収束するからでした。

何度もサイコロを振れば各数字が平均６分の1で出現するのと同じ考え方です。これによって、状態遷移の確率分布を与えられなくても、状態価値関数や行動価値関数を推定することができます。

ただし、現実的には開始点探索を行うのが困難な場合があります。

例えば、凍った湖の環境ではスタート地点から移動してゴールを目指すのでランダムな状態を初期値として選ぶことができません。よって開始点探索は不可能です。

このような場合には、開始点探索を必要としない方法でモンテカルロ法の適用を実現できるようにする必要があります。

そのための手法としてイプシロン・グリーディ法を紹介します。イプシロン・グリーディ法は仕組みとしては簡単なので理解しやすくすんなりと受けることができるでしょう。この記事ではさらに踏み込んで、なぜイプシロン・グリーディ法がより一般的なソフトポリシーより優れているのかを証明するところまで解説します。

まずは、ソフトポリシーが何者なのかについての解説から始めます。

ここから先は

6,232字

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？