強化学習とは？（基礎）～G検定頻出用語～

2024年9月23日 19:04

いつも読んでいただきありがとうございます✨
今日は参考書籍を読んでも、イメージがつかみづらい・理解に
苦労する強化学習について参考となるサイトを紹介していきたいと思います。

はじめに

なぜ動画を紹介するか？

・AIを専門的に学習したことがある人は別ですが、そうでない場合G検定で出てくる専門的な用語を理解するのはなかなか難しいと思います。（実際に私も最初勉強した時は理解が進まず苦労した記憶があります💧）
・一方でG検定では難解な数式を解きながらディープラーニングの手法を理解することは求められておりません。ビジネスにAIを活用するにあたって必要な知識を学習する事が求められています。
・そのためG検定で出てくる専門用語を図などを活用して視覚的に理解するのが最も効果的と考えています💡
・現在はYou tubeで様々な動画を見ることができ、その中で特に役に立つと思った動画を紹介していこうと思います💻

勉強方法としてどのように活用するか？

・G検定のテキスト・問題集を読み進める中で、どうしても理解が進まないと思った用語に絞って動画を見て理解を深める活用方法が非常に効果的です！

新シラバス上の分類

・本日紹介する強化学習は、テキストを読んでもなかなか理解が進まない
分野の１つです。
・新シラバスでは機械学習の概要のカテゴリに含まれております。

説明動画紹介

・強化学習は数回に分けて動画を紹介していきたいと思います。まずは基礎編の動画として２つの動画を紹介します！１つめはにゃごすけAI大学の動画です。

動画サマリー
この講義では、機械学習の具体的手法の一つである「強化学習」について説明されています。

強化学習と割引率
・強化学習は、エージェントが環境からの状態を受け取り、行動を選択し、その行動の結果として得られる報酬を最大化するために学習する手法です。これにより、試行錯誤を通じて報酬が高い行動を選択できるようになります。
・強化学習では、累積報酬を最大化することが目標であり、その際、将来の報酬を評価するために割引率が使われます。割引率とは、将来の報酬に対して適用される割引係数で、通常0.9や0.95のような値を取ります。これは将来の報酬よりも現在の報酬を重視する考え方で、金融分野で使われる概念に類似しています。

バンディットアルゴリズム
・バンディットアルゴリズムが紹介されており、これは「探索と活用のバランス」を取るための方法です。例えば、現在知っている中で報酬が最大となる行動（ラーメン屋の例では、お気に入りの店に行くこと）を選ぶ「活用」と、新しい情報を得るために未知の選択肢を選ぶ「探索」を適切に使い分けることが重要です。
・この具体的な方策としては、グリーディー方策やUCB方策が挙げられています。グリーディー方策では、一定の確率でランダムに新しい行動を試しながら、既知の最良の選択肢を優先します。また、マルコフ決定過程（MDP）も解説されており、これは現在の状態のみが将来の状態に影響を与えると仮定したモデルです。これにより、計算の複雑さを軽減し、効率的な学習を可能にします。

状態価値関数と行動価値関数
・強化学習の一環として、状態価値関数と行動価値関数が導入され、それぞれの価値を最大化するように学習が進められます。状態価値関数は、ある状態がどれだけ価値があるかを示し、行動価値関数（Q値）は、その行動がどれだけ報酬をもたらすかを示します。
・Q学習やSARSAといった手法は、行動価値関数を学習する方法であり、エージェントが選択する行動とその結果の報酬を学んでいきます。これらの手法を使うことで、最適な行動を見つけ、報酬を最大化する行動を選べるようになります。

方策勾配法
・次に、方策勾配法が紹介され、これは直接的に最適な行動選択ルール（方策）を学習するアプローチです。例えば、ロボットの制御に用いられ、ある状態における行動選択肢が大量にある場合に有効です。レインフォースと呼ばれる方法も方策勾配法の一つで、結果に応じて方策を修正し、最適化していきます。

アクタークリティック法
・最後に、アクター・クリティック法という手法も紹介されました。これは、行動を決定する「アクター」と、行動の価値を評価する「クリティック」が協力し合う方法です。アクターが行動を決定し、クリティックがその行動を評価することで、双方が改善され、最適な行動を学習します。この手法の一例としてA3Cというモデルがあり、複数のアクターとクリティックが同時に動作することで効率的な学習が可能となります。

にゃごすけAI大学

・この動画の良い点は①割引率の考え方である時間価値について丁寧に解説している点や②バンディットアルゴリズムのεグリーディ方策やUCB方策をラーメン屋の例でわかりやすく説明している点にあると思います。基礎を抑える点では前半中心に理解してもらえればと思います。
・逆に方策勾配法やアクタークリティックは用語だけまずはおさえていただければと思います。

２つ目のシミュレーションの世界に引きこもる部屋からの動画紹介です。こちらも基礎を理解するために活用ください。

動画サマリ
1. 割引率 (Discount Factor)
・割引率は、将来の報酬をどれだけ重視するかを決めるパラメータで、強化学習において重要な概念です。将来の報酬が現在の報酬と比べてどれだけ価値があるかを定義し、値が1に近いほど遠い未来の報酬も重視することになります。これは「マルコフ決定過程」（MDP）というモデルの一部であり、行動選択における報酬の減衰率を決めます。

2. ε-greedy方策
・ε-greedy方策は、最適な行動を選びつつも、ある程度の確率で探索的なランダム行動を取る手法です。具体的には、確率1-εで最適行動を選び、確率εでランダムな行動を行います。これは、未知の環境における探索と活用のバランスを取るために使われます。例えば、εが0.1なら90%の確率で最適行動、10%の確率でランダム行動を選びます。

3. UCB方策 (Upper Confidence Bound)
・UCB方策は、探索と活用のバランスを調整するために使われる手法です。選択される回数が少ない行動を積極的に選ぶ「探索」の段階から、最適な行動を選ぶ「活用」に移行します。探索が進むと対数関数に基づいて探索が減り、最適行動を選択する割合が増える仕組みです。これは、未探索の選択肢も適度に評価し、最終的に最適な選択に集中することを目指しています。

4. マルコフ性 (Markov Property)
・マルコフ性は「現在の状態が次の状態に影響を与えるが、過去の状態には依存しない」という性質です。これは、現在の状態だけで次の状態が決まることを意味し、過去の行動や結果が次の選択には関係ないという仮定です。サイコロの例がわかりやすく、サイコロの目が出る確率は過去にどの目が出たかに依存しないため、これはマルコフ性の一例といえます。

5. 状態価値関数 (State Value Function) と行動価値関数 (Action Value Function)
・価値関数は、エージェントがある状態や行動にどれだけの報酬を期待できるかを示す関数です。
状態価値関数 (V): 状態に基づいて、その状態にいることの価値を表します。例えば、迷路のゴールに近づくほど価値が高くなるという形で、ある地点にいること自体がどれだけ有利かを表します。
行動価値関数 (Q): 特定の行動を取った場合に、その行動がどれだけの価値を持つかを示します。ゴールに近づくためにどの方向に進むべきか、という行動そのものの価値を評価します。

6. Q学習 (Q-Learning)
Q学習は、行動価値関数を使って、最適な行動を学習する手法です。この手法では、エージェントが得られる報酬を最大化するために、行動価値関数(Q)を使って最も良い行動を選択します。greedyな手法（貪欲な手法）で、常にQ値が最大になる行動を選びます。ε-greedy方策と組み合わせることで、探索と活用をバランスよく行います。

7. 方策勾配法 (Policy Gradient Method)
方策勾配法は、方策（エージェントが行動を選択するルール）を直接最適化する手法です。方策をパラメータで表現し、そのパラメータを期待収益の勾配を利用して調整します。例として、大砲の発射角度や火薬の量を調整して目標に近づける話が出てきます。ここで、最適化プロセスが繰り返し行われる様子が描かれています。

8. REINFORCE
・REINFORCEは、方策勾配法の一種で、全てのエピソード（行動の連続）を通して得られる報酬の平均を利用して、方策を最適化する手法です。特に、AlphaGoで利用されたことでも知られています。この手法では、行動ごとの価値を直接評価するのではなく、全体の報酬をもとに方策を改善していきます。

9. Actor-Critic
・Actor-Criticは、エージェントの学習アルゴリズムで、2つの構成要素があります。
Actor: 行動を決定する役割を持ちます。エージェントがどの行動を取るべきかを方策に基づいて選択します。
Critic: 評価を行い、Actorが取った行動の結果を評価し、報酬を与えます。Criticは状態価値関数を使って、現在の状態がどれほど価値のあるものかを評価し、その結果をActorにフィードバックします。
この二つの役割が連携し、エージェントがより良い行動を選択できるようにします。

10. A3C (Asynchronous Advantage Actor-Critic)
・A3Cは、Actor-Criticアルゴリズムを拡張したもので、複数のエージェントが非同期に学習を行う手法です。2016年にDeepMind社が発表したこのアルゴリズムは、AlphaGo Zeroにも採用されました。複数のエージェントが並行して学習することで、より効率的な学習が可能になります。

11. AlphaGo Zeroと強化学習の歴史的背景
・AlphaGo Zeroは、AI同士で対戦しながら自己学習することで、プロ棋士に勝利したことで知られています。これは、REINFORCEやA3Cのような強化学習アルゴリズムの成果であり、G検定でも歴史的な背景が問われることがあるため、重要なトピックです。AlphaGo Zeroでは、従来の人間のデータを基に学習したAlphaGoと異なり、AIが自律的に学習していく方式が採用されています。

シミュレーションの世界に引きこもる部屋

・この動画の特に良い点は①マルコフ性をさいころを例に説明しておりわかりやすい点と②状態価値関数と行動価値関数を図を利用して説明しており、イメージしやすい点と③方策勾配法も大砲の発射角度と火薬の量のたとえで説明している点と④動画の最後で強化学習の大枠のカテゴリ分けを示してくれている点となります。
・逆にREINFORCEやA3Cの解説は詳細化されていないので、用語だけまずはおさえてください。

以上本日は強化学習の基礎編となります。次回も強化学習について解説している動画を引き続きご紹介いたします！

この記事が気に入ったらサポートをしてみませんか？