Gymで強化学習⑭モンテカルロ法：後編

2023年4月9日 20:57

前回はモンテカルロ法で開始点探索を前提としないイプシロン・グリーディ法を紹介しました。探索をするためのソフト・ポリシーを改善できることを数式で証明もしました。

今回はモンテカルロ法でイプシロン・グリーディを利用する方法としてオンポリシーとオフポリシーについて解説します。これらは後に登場するSARSAとQ学習にもつながる概念でもあります。

ただし、前回の記事で数式の羅列がたくさん登場したので、まずは最初にモンテカルロ法の全体像を再訪します。特に、動的計画法で学んだポリシー反復法と照らし合わせてモンテカルロ法の特徴を再確認します。

その上で、オンポリシーとオフポリシーという動的計画法にはなかった概念の意味について解説します。

ここから先は

8,608字 / 8画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？