Gymで強化学習④手動エージェント

2023年2月11日 20:57

今回は手動でコントロールするエージェントを使って考察します。そうすることで環境がより理解でき、またその難しさが見えてくるからです。

そこで準備編で登場した月面着陸を取り上げます。実際に宇宙船を動かしてみながら報酬や観測値の変化を調べましょう。

今後はさまざまなエージェントが登場するので、エージェントをクラスとして定義します。最初はランダムに行動するランダム・エージェントをPythonのクラスとして定義し直し環境とエージェントが正常に動作するかを確認します。

次に、手動で動く手動エージェントを作成して報酬や観測値を見ながら考察します。月面着陸では報酬が与えられる条件が詳しく決められており、それに従って手動で操作すれば容易に目標達成できそうですが、実際はかなり難しいのがわかるはずです。

このようにして強化学習が直面する問題に対する理解を深めましょう。また、前回の記事で紹介したマルコフ性について具体例を通して再び解説します。

では、さっそく始めましょう。

ここから先は

13,778字 / 1画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？