2-3.機械学習の基礎（強化学習の内容と統計学）

2023年12月26日 00:52

①強化学習の内容
‐バンディットアルゴリズム
②ε-greedy方策
③UCB方策（upper-confidence bound policy）
④マルコフ決定過程モデル
⑤価値関数
⑥方策勾配法
⑦統計学
（補足）半教師あり学習
⑧アンサンブル学習

強化学習は、環境から状態を受け取り、そこからより高い報酬を受け取れるような行動を選択するよう学習していくこととなります。これは、「将来にわたって獲得できる累積報酬を最大化する」と考えられます。

ちなみに、機械学習プロセスを制御するために使用されるパラメータの事をハイパーパラメータと言います。

（ハイパーパラメーターの補足）
グリッドサーチとは、ハイパーパラメータを求める方法の1つで、適切だと考えられるパラメータを複数用意し、それらの値の組み合わせを全通り総当たりで行い、最も良いハイパーパラメータを探す方法である。

ランダムサーチとは、考えられるパラメータの範囲を決め、ランダムにパラメータを組み合わせて学習させ、最も良いハイパーパラメータを探す方法である。

累積報酬が最大となるように行動を選択するとなっても、行動の組み合わせは無限にあります。そのため、ここで用いられる考え方が、活用と探索になります。活用と探索の違いは、以下となります。

「活用」は、知ってる情報から報酬が最大になるように行動を選択
「探索」は、知ってる情報以外の情報を獲得するために行動を選択

上記の活用と探索のバランスをとるために、バンディットアルゴリズムが利用されます。バンディットアルゴリズムとは、経験を蓄積するために行動する「探索」と経験を生かして行動する「予測」を最適化する強化学習の手法です。具体的な手法に、ε-greedy方策やUCB方策があります。

ここから先は

1,704字

この記事のみ ¥ 100

期間限定 PayPay支払いすると抽選でお得に！

随時情報を更新していきますので、G検定対策だけでなく、そもそもAIって何なのという疑問も解決します。 G検定対策はこれだけで十分です。

500円

G検定対策として、現役トップデータサイエンティスト兼経営コンサルタント集団がマガジンを発行しました。

期間限定 PayPay支払いすると抽選でお得に！

この記事が気に入ったらサポートをしてみませんか？