Gymで強化学習⑬モンテカルロ法:中編
前回はモンテカルロ法の概要について解説しました。今回は、実際の環境で開始点探索ができない場合にどのように対処するかについてお話しします。
開始点探索を必要とした理由は、エージェントがあらゆる状態であらゆる行動を何度も選択することでサンプルから計算した平均値による状態価値や行動価値の予測が真の期待値に収束するからでした。
何度もサイコロを振れば各数字が平均6分の1で出現するのと同じ考え方です。これによって、状態遷移の確率分布を与えられなくても、状態価値関数や行動価値関数を推定することができます。
ただし、現実的には開始点探索を行うのが困難な場合があります。
例えば、凍った湖の環境ではスタート地点から移動してゴールを目指すのでランダムな状態を初期値として選ぶことができません。よって開始点探索は不可能です。
このような場合には、開始点探索を必要としない方法でモンテカルロ法の適用を実現できるようにする必要があります。
そのための手法としてイプシロン・グリーディ法を紹介します。イプシロン・グリーディ法は仕組みとしては簡単なので理解しやすくすんなりと受けることができるでしょう。この記事ではさらに踏み込んで、なぜイプシロン・グリーディ法がより一般的なソフトポリシーより優れているのかを証明するところまで解説します。
まずは、ソフトポリシーが何者なのかについての解説から始めます。
この記事が気に入ったらサポートをしてみませんか?