見出し画像

【E資格】強化学習用語【AI】

2021年12月22日 12:25

強化学習を学習していて用語でつまづいたのでまとめました。
あくまで私自身への説明というスタンスですので正確性に欠けていたり、そもそも間違っていることもあるかもしれませんがご容赦ください。

必要に応じて追加・修正していきます。

方策（戦略、ポリシー）

与えられた環境（ゲームなど）の中で、ある状態のときにどのように行動するかを方策と呼ぶ
行動戦略という方がイメージしやすいかも

報酬

強化学習では刻々と行動を起こし状態が変わっていくのだが、ある状態から別の状態に移ったときに得られる点数
（迷路などは壁の方向に向かって行動し、結果として別の状態にならない場合もある）
すごろくで例えるなら、マス目に点数が記載されており、動かなくてもそのマス目の点数が得られるようなイメージ
報酬というとプラスに増えていくイメージだが、マイナスの報酬もある

収益（利得）

ある状態から行動を続けていった際の報酬の和
（人生ゲームで言うと、給料日などのイベントでもらえるお金が報酬で、ゲーム終了時に所有しているお金の総額が収益）
収益を最大にするように学習させる
（実際は収益の期待値である価値を最大にする）

価値

環境や行動は確定的に決まる訳ではなく、多くは確率的に決まるため、ある状態からの収益も確定的ではなく確率的に決まる。よって強化学習では収益ではなく収益の期待値である価値を扱う。
行動が何も選択できなく、勝手にゴールまでランダム性がなくいくようなゲームの場合は収益だけを考えればいいが、強化学習させる意味はないと思う

状態遷移確率

ある状態sからある行動をしたときに状態s'に移動する確率

価値関数

状態価値関数：V(s)

ある状態において、ゴールまで最適な行動を取り続けたときに得られる収益の期待値を出力する関数
つまり状態sでの価値を出力する関数

行動価値関数：Q(s, a)

ある状態においてある行動を取り、それ以降は最適な行動を取り続けたときに得られる収益の期待値を出力する関数
つまりその状態である行動をとったときの価値を出力する関数
V(s)は各状態における最大の価値だけ保持するが、Q(s,a)は各行動に対して価値を保持する
行動価値はQ値とも呼ばれる
行動価値関数はQ関数とも呼ばれる

この記事が気に入ったらサポートをしてみませんか？