Gymで強化学習⑭モンテカルロ法:後編
前回はモンテカルロ法で開始点探索を前提としないイプシロン・グリーディ法を紹介しました。探索をするためのソフト・ポリシーを改善できることを数式で証明もしました。
今回はモンテカルロ法でイプシロン・グリーディを利用する方法としてオンポリシーとオフポリシーについて解説します。これらは後に登場するSARSAとQ学習にもつながる概念でもあります。
ただし、前回の記事で数式の羅列がたくさん登場したので、まずは最初にモンテカルロ法の全体像を再訪します。特に、動的計画法で学んだポリシー反復法と照らし合わせてモンテカルロ法の特徴を再確認します。
その上で、オンポリシーとオフポリシーという動的計画法にはなかった概念の意味について解説します。
この記事が気に入ったらサポートをしてみませんか?