G検定 強化学習

株式会社リュディアです。今回は強化学習についてまとめてみます。過去の G検定にも出題されているエージェントや環境という用語に慣れてもらうことを目的としてまとめてみました。

強化学習を一言で書くと、与えられた環境下に配置されたエージェントが、その環境下で選択可能な行動をとった結果として得られる報酬を最大化するような方策を探索する機械学習手法の 1手法です。

G検定の公式テキストに機械学習は大きく教師あり学習、教師無し学習、強化学習の3つに分類可能と記載されていますね。多数のパラメータを合わせこむのではなく得られる報酬が最大となるように方策という上位概念を探索する、というのがポイントです。

強化学習で必要な用語を丁寧に使って具体的な動作を見ていきましょう。

エージェントが学習者であると考えてみてください。環境はエージェントのすべてを観測可能かつエージェントに報酬を与えることができる神をイメージしてください。

ある環境エージェントが存在します。そのエージェントはある状態 s(State の頭文字 s)にいます。

エージェント状態 s にいるとき、エージェントの次の行動の選択肢は決まっており、選択肢の中から行動 a(Action の頭文字 a)をおこしたとします。

エージェント行動 a を起こしたことを観測した環境は、エージェント行動の結果として状態が s1 に遷移したことを教えます。また行動 a が環境にとって望ましい場合は報酬 r (Reward の頭文字)をエージェントに与えます。

報酬を受けたエージェントは受け取った報酬をもとに方策 p(Policy の頭文字 p)を更新します。

非常に限定された領域での話になりますが、これが強化学習の最も基本的な動きになります。

では、ごきげんよう。



この記事が気に入ったらサポートをしてみませんか?