見出し画像

Gymで強化学習⑯TD学習法:理論編

前回はモンテカルロ法の実装を行いました。この強化学習のシリーズではこれまで動的計画法モンテカルロ法の理論と実装を行ってきましたが、この両方の知識を組み合わせたものがTD学習法となります。

なぜTD学習法?

TD学習法では、モンテカルロ法のように経験から学習します。さらに、動的計画法のようにブートストラッピングを行います。つまり、エピソードが終わるのを待つ必要はありません。つまり、経験から得た情報をすぐに状態価値関数や行動価値関数に反映することができます。

また、たくさんの強化学習の手法はTD学習法の考え方を土台としています。例えば、TD学習法を基にした手法として、オンポリシーではSARSA、オフポリシーではQ学習がそれぞれ有名です。よって、TD学習法を理解することは重要であり、TD学習法は強化学習において一番応用が効く概念だとも言えます。

なお、TDとはTemporal-Difference(時差、時間差)のことです。ここでの時間差とは、エピソード内で生じるステップのことです。ステップ$${t}$$の状態$${s}$$で行動$${a}$$を選択して報酬$${r}$$を受け取り、次のステップ$${t+1}$$で新しい状態に移り、また行動選択をするという経験を繰り返しますが、ここでステップ$${t}$$から$${t+1}$$と遷移するのが時計の針が動くようなイメージでTD(時間差)と呼んでいます。ただし、実際の時間の経過とは関係はありません。

ステップごとに学習が進む

上図のようにTD学習法ではステップごとに学習が進んでいきます。このためTD学習法ではさまざまな利点があります。これについては、後述します。

まずは、TD学習法を動的計画法とモンテカルロ法の概念を組み合わせて導出しましょう。

ここから先は

5,255字 / 1画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?