見出し画像

Gymで強化学習⑭モンテカルロ法:後編

前回はモンテカルロ法で開始点探索を前提としないイプシロン・グリーディ法を紹介しました。探索をするためのソフト・ポリシーを改善できることを数式で証明もしました。

今回はモンテカルロ法でイプシロン・グリーディを利用する方法としてオンポリシーオフポリシーについて解説します。これらは後に登場するSARSAとQ学習にもつながる概念でもあります。

ただし、前回の記事で数式の羅列がたくさん登場したので、まずは最初にモンテカルロ法の全体像を再訪します。特に、動的計画法で学んだポリシー反復法と照らし合わせてモンテカルロ法の特徴を再確認します。

その上で、オンポリシーとオフポリシーという動的計画法にはなかった概念の意味について解説します。

モンテカルロ法とポリシー反復法

動的計画法で学んだポリシー反復法では、ポリシーの評価ポリシーの改善を交互に繰り返します。

ここから先は

8,548字 / 8画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?