強化学習の学習アルゴリズムの分類
「強化学習」の学習アルゴリズムの分類方法である「モデルベース / モデルフリー」と「オンポリシー / オフポリシー」を軽くまとめます。
1. モデルベース / モデルフリー
「強化学習アルゴリズム」の最も重要な分類方法の1つは、エージェントが「環境モデル」を使用する(または学習できる)かどうかです。「環境モデル」は、状態遷移と報酬を予測する関数を意味します。環境モデルを使用するアルゴリズムを「モデルベース」(Model-Based)、使用しないアルゴリズムを「モデルフリー」(Model-free)と呼びます。
◎モデルベース
モデルベースの利点は、エージェントが先を考え、可能な選択肢の範囲で何が起こるかを見て、行動を決定できることです。エージェントは、事前に計画した結果を学習済みポリシーに抽出できます。このアプローチで特に有名な例は「AlphaZero」(MCTS)です。これが機能すると、モデルを持たないメソッドよりも、サンプルの効率が大幅に向上します。
モデルベースの欠点は、通常はエージェントが環境の真実のモデルを使用できないことです。エージェントがモデルを使用する場合、経験からモデルを学習する必要があり、これによりいくつかの課題が生じます。最大の課題は、エージェントがモデルの偏りを悪用する可能性があることです。その結果、学習したモデルに対しては優れたパフォーマンスを発揮しますが、実際の環境では動作が最適化されなくなります。モデルの学習は基本的に難しいので、膨大な時間を費やして計算しようとしても、成果を上げることができません。
主なモデルベースの学習アルゴリズム : MCTS
◎モデルフリー
モデルフリーの利点は、モデルの使用によるサンプル効率の潜在的な向上は見られませんが、実装および調整が容易です。Unity ML-Agentなどのビデオゲームを攻略する学習アルゴリズムはこのモデルフリーなります。2019年現在、モデルベースよりもモデルフリーの方が人気があり、より広範囲に研究されています。
2. オンポリシー / オフポリシー
モデルフリーの学習アルゴリズムの分類方法の1つに「オンポリシー」(on-policy)と「オフポリシー」(off-policy)があります。
◎オンポリシー
オンポリシーは、現在のポリシーで得られた経験のみを利用して、新しいポリシーを予測します。過去の経験を利用するため、サンプル効率は低い(学習に必要なステップ数が多い)です。しかし、現在のポリシーを直接最適化するため、学習が安定(時間をかければ優れたポリシーが得られる)します。
「TPRO」「PPO」は「VPG」の子孫であり、サンプル効率の不足を補うために技術は進歩しています。
主なオンポリシーの学習アルゴリズム : VPG, TPRO, PPO
◎オフポリシー
オフポリシーは、保存された過去の経験を利用して、現在のポリシーを予測します。過去の経験を利用するため、サンプル効率は高い(学習に必要なステップ数が少ない)です。経験的には優れたパフォーマンスを得ることができますが、優れたポリシーが得られるという保証はなく、潜在的に脆弱で不安定になります。
「TD3」「SAC」は「DDPG」の子孫であり、不安定さを補うための技術は進歩しています。
主なオフポリシーの学習アルゴリズム : DDPG, TD3, SAC
この記事が気に入ったらサポートをしてみませんか?