Gymで強化学習⑲近似的な解決方法
前回まではグリッド・ワールドである凍った湖を扱ってきました。その理由は、状態と行動の組み合わせの数が有限であり、ディクショナリや2次元のデータ構造で簡単に実装ができるからです。
しかし、強化学習はグリッド・ワールドに限定されたものではありません。よって、ここからは状態の値が有限ではない場合を扱います。
例えば、画像データを観測値として扱うとピクセルの配色の組み合わせが膨大な数になります。他にも、連続値をとる観測値も無数の値があります。例えば、宇宙船のスピードなどが考えられます。
このように状態の値に対する制限がなくなると強化学習の適応範囲が一気に広がります。
しかし、有限な状態の時と違ってあらゆる状態を探索しまくるといった手法が使えません。むしろ、ほとんどの状態に遭遇しないことでしょう。なので状態価値や行動価値の表を埋め尽くすことができません。
そこで何らかの関数による近似による解決法を考えます。また、関数近似というとニューラルネットワークを思い浮かべる方も多いと思いますが、それについても議論していきます。
この記事が気に入ったらサポートをしてみませんか?