Gymで強化学習⑯TD学習法：理論編

2023年4月23日 22:06

前回はモンテカルロ法の実装を行いました。この強化学習のシリーズではこれまで動的計画法とモンテカルロ法の理論と実装を行ってきましたが、この両方の知識を組み合わせたものがTD学習法となります。

なぜTD学習法？

TD学習法では、モンテカルロ法のように経験から学習します。さらに、動的計画法のようにブートストラッピングを行います。つまり、エピソードが終わるのを待つ必要はありません。つまり、経験から得た情報をすぐに状態価値関数や行動価値関数に反映することができます。

また、たくさんの強化学習の手法はTD学習法の考え方を土台としています。例えば、TD学習法を基にした手法として、オンポリシーではSARSA、オフポリシーではQ学習がそれぞれ有名です。よって、TD学習法を理解することは重要であり、TD学習法は強化学習において一番応用が効く概念だとも言えます。

なお、TDとはTemporal-Difference（時差、時間差）のことです。ここでの時間差とは、エピソード内で生じるステップのことです。ステップ$${t}$$の状態$${s}$$で行動$${a}$$を選択して報酬$${r}$$を受け取り、次のステップ$${t+1}$$で新しい状態に移り、また行動選択をするという経験を繰り返しますが、ここでステップ$${t}$$から$${t+1}$$と遷移するのが時計の針が動くようなイメージでTD（時間差）と呼んでいます。ただし、実際の時間の経過とは関係はありません。

上図のようにTD学習法ではステップごとに学習が進んでいきます。このためTD学習法ではさまざまな利点があります。これについては、後述します。

まずは、TD学習法を動的計画法とモンテカルロ法の概念を組み合わせて導出しましょう。

ここから先は

5,255字 / 1画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？