見出し画像

最近話題になった 強化学習 技術のまとめ

最近話題になった 強化学習 技術をまとめました。

1. RLHF (Reinforcement Learning from Human Feedback)

「RLHF」は、言語モデルを、人間のフィードバックからの強化学習でファインチューニングする手法です。

一般的なコーパスで学習した言語モデルを、複雑な人間の価値観に合わせることができるようになり始めました。最近ではチャットAI「ChatGPT」が「RLHF」の成功例となっています。

2. Decision Transformer

「Decision Transoformer」は、言語モデルの次のテキストを予測する仕組みで、オフライン強化学習タスクを解けることを示したAIモデルです。言語モデルによる教師あり学習で強化学習タスクを解きます。

Multi-Game Decision Transformers」では40以上のAtariゲーム、「Robotics Transformer : RT-1」では700以上の実世界のロボットタスクを達成できることを示しました。

3. Decision Diffuser

「Decision Diffuser」は、条件付き生成(拡散)モデルを使って、オフライン強化学習タスクを解けることを示したAIモデルです。標準的なベンチマークにおいて、既存のオフライン強化学習を上回ったとのことです。

4. MineClip / VPT

「MineClip」(NVIDIA)と「VPT」(OpenAI)は、ネット上の大量の動画からマインクラフトを学習したAIモデルです。言語モデルがネット上の大量のテキストから学習するように、ネット上の大量の動画からマインクラフトを学習します。

現在の複雑なゲームを学習するには、ランダムな行動から強化学習するだけでは限界があり、動画や攻略サイトなどで事前知識を得る手法が求められており、「MineClip」と「VPT」はその第一歩となります。

5. MA-POCA

「MA-POCA」は、エージェントに協調行動を学習させるための手法です。各エージェントは、局所的に認識したものだけに基づいて意思決定を行い、同時に、グループ全体の文脈の中で自分の行動がどれだけ優れているかを評価することができます。

「MA-POCA」は、「Unity ML-Agents」で利用可能な強化学習アルゴリズムの1つとして提供されています。



この記事が気に入ったらサポートをしてみませんか?