見出し画像

Gymで強化学習④手動エージェント

今回は手動でコントロールするエージェントを使って考察します。そうすることで環境がより理解でき、またその難しさが見えてくるからです。

そこで準備編で登場した月面着陸を取り上げます。実際に宇宙船を動かしてみながら報酬や観測値の変化を調べましょう。

今後はさまざまなエージェントが登場するので、エージェントをクラスとして定義します。最初はランダムに行動するランダム・エージェントをPythonのクラスとして定義し直し環境とエージェントが正常に動作するかを確認します。

次に、手動で動く手動エージェントを作成して報酬や観測値を見ながら考察します。月面着陸では報酬が与えられる条件が詳しく決められており、それに従って手動で操作すれば容易に目標達成できそうですが、実際はかなり難しいのがわかるはずです。

このようにして強化学習が直面する問題に対する理解を深めましょう。また、前回の記事で紹介したマルコフ性について具体例を通して再び解説します。

では、さっそく始めましょう。


ここから先は

13,778字 / 1画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?