見出し画像

G検定試験忘備録③(強化学習)

初めまして、みずぺーといいます。
このnoteを機に初めて私を知った方のために、箇条書きで自己紹介を記述します。

  • 年齢:28歳

  • 出身:長崎

  • 大学:中堅国立大学

  • 専門:河川、河川計画、河道計画、河川環境

  • 転職回数:1回(建設(2年9か月)→IT系年収100万up(現職3か月))

  • IT系の資格:R5.4基本情報技術者試験合格💮

今日はG検定に向けた語彙を忘れぬうちにアウトプットしておく。

教師なし学習を今日はインプットします。

強化学習

強化学習は環境から状態を受け取り、そこからより高い報酬を受け取れる行動を選択するように学習を行うもの。

ある時刻tにおける状態をat、行動st、報酬をrtとする。

tにおいてatを受け取る。atから行動stを選択して実行する。

atからat+1となり、その遷移の過程で報酬rtを得る。

そして以上を繰り返すことによって報酬を最大化させる方向へ進むことが可能となる。

バンデットアリゴリズム

最適な報酬を求めるために活用探索の二種類がある

  • 活用:すでにわかっている行動から最適なものを選択

  • 探索:現在知っている情報以外から最適なものを選択

これらはトレードオフの関係あり、重要。

マルコフ決定過程モデル

ある状態at+1は前の時刻atから決まるという仮定。

本来あれば、at以前の時刻からも左右されるのだが、そういう仮定を置いている。

しかし実際atはat-1から影響を受けており、逐次的に値を算出しているだけであるということもお忘れなく

価値関数

これらのうちに報酬を最大化するための累積報酬のことを状態価値関数と行動価値関数の二つがある。

大事なのは行動価値関数。

この記事が気に入ったらサポートをしてみませんか?