Gymで強化学習⑲近似的な解決方法

2023年5月14日 20:52

前回まではグリッド・ワールドである凍った湖を扱ってきました。その理由は、状態と行動の組み合わせの数が有限であり、ディクショナリや２次元のデータ構造で簡単に実装ができるからです。

しかし、強化学習はグリッド・ワールドに限定されたものではありません。よって、ここからは状態の値が有限ではない場合を扱います。

例えば、画像データを観測値として扱うとピクセルの配色の組み合わせが膨大な数になります。他にも、連続値をとる観測値も無数の値があります。例えば、宇宙船のスピードなどが考えられます。

このように状態の値に対する制限がなくなると強化学習の適応範囲が一気に広がります。

しかし、有限な状態の時と違ってあらゆる状態を探索しまくるといった手法が使えません。むしろ、ほとんどの状態に遭遇しないことでしょう。なので状態価値や行動価値の表を埋め尽くすことができません。

そこで何らかの関数による近似による解決法を考えます。また、関数近似というとニューラルネットワークを思い浮かべる方も多いと思いますが、それについても議論していきます。

ここから先は

7,842字 / 4画像

¥1,000 / 月

初月無料

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

この記事が気に入ったらサポートをしてみませんか？