実際にOpenAIもとりくむ、ゲームの中で育つAIの話。

2024年7月19日 12:29

下記の動画の中で、リアル環境よりも「無理ゲー環境においた方が学びが深い」的な事を言っていて非常に興味深かったのでゲーム内での学習を進めているOpenAIの話をします。

現実世界では起こり得ないような極端なケースや、めったに遭遇しないようなシナリオを模擬することができるヴァーチャル環境は、AIがさまざまな問題に対処する方法を学ぶのに役立つんだ。たとえば、自動運転車のAIであれば、珍しい交通事故や突発的な状況にどう対応すべきかを、安全な環境下で試行錯誤することができるわけです。このような訓練は、AIの反応をより高速で、かつ正確にするのに寄与します。

下記の動画はそこから始まるようにタイマーをセットしておいておきますね。

OpenAIのゲーム環境でのAI育成について

古くは「OpenAI Five」プロジェクトに始まり最近では「Neural MMO」プロジェクトや、マインクラフトを利用した「Video PreTraining (VPT)」プロジェクト内でのOpenAIのゲーム環境モデル育成への取り組みを深掘りしていきます。

「OpenAI Five」プロジェクト

OpenAIはゲームを利用したAIの訓練に関していくつかのプロジェクトを行っていますが、特に有名なのが2018年に公開されその後2019年まで続けられた、Dota 2という競技ゲームでAIモデルを訓練した「OpenAI Five」プロジェクトです。このプロジェクトでは、AIは複雑なゲーム環境での戦略や協力といったスキルを学ぶことが目標だでした。

Dota 2は多くのプレイヤーが同時に参加し、多種多様なキャラクター、スキル、アイテムが絡み合うゲームなので、AIにとっては非常に挑戦的な環境でした。AIがDota 2という非常に複雑なマルチプレイヤーオンラインバトルアリーナ（MOBA）ゲームで競う様子を通じて、チームワークや戦略的な意思決定などのスキルを開発することを目指していました。AIは数百万回のゲームを通じて学習し、人間のトッププレイヤーたちと対等に戦えるレベルまで成長しました。

このような訓練はAIの決定処理能力を向上させるだけでなく、未知の状況に対応する柔軟性やクリエイティブな問題解決能力を養うのにも役立っています。OpenAI Fiveのプロジェクトはいまも依然として活動しており、AIはDota 2のゲーム環境で自己対戦を通じて学習を続けています。この訓練プロセスでは、ランダム化されたゲームの要素を利用して戦略の探索を促進しています。

「Neural MMO」プロジェクト

OpenAIは現在もゲーム環境でのAIモデルの訓練を進めています。特に「Neural MMO」というプロジェクトがあり、これは大規模マルチエージェントゲーム環境でAIを訓練し評価するために開発されたものです。この環境は、100億回のライフタイムを持つ128エージェントが同時に存在する100のサーバーで構成されており、エージェントは食料や水を求め、戦闘を避けながら生存を目指します。このプロジェクトは、プレイヤー（エージェント）がランダムな位置からスポーンし、戦略的な戦闘システムを駆使して生き残ることを目指しています。

これらのエージェントは、連続的に相互作用を行いながら学習していくきます。このシステムでは、エージェントたちは長い時間軸を考慮に入れながら戦略を調整し、環境内の他の学習エージェントの行動の変化に迅速に適応する必要があります。

「Neural MMO」のようなトレーニング環境では、AIエージェントはトレーニングセッションが開始されると「オンライン」になるように設計されており、エージェントたちはトレーニングセッション中に環境に参加し、各セッションは特定の期間で行われます。つまり、エージェントがトレーニングを行っていないときは、実際には「オフライン」状態にあるわけです。

この方式によって、エージェントは効率的に学習を進めることができ、無駄なリソースの消費を避けることができます。エージェントはトレーニングセッションごとに特定のタスクやシナリオに対処するために活動を開始し、セッションが終了するとデータを保存して一時的に活動を停止します。このプロセスを繰り返すことで、より多くのシナリオに対応できるようになり、より複雑な問題解決能力を身につけることが可能になります。

「OpenAI Five」は人間から学び「Neural MMO」は自らの体験から学ぶ

「Neural MMO」プロジェクトにおいては、AIエージェントは非常に基本的な能力からスタートし、その環境内で生存方法や戦術を学ぶよう設計されています。これは、エージェントが自己発見的な学習プロセスを通じて、食料や水の探索、避けるべき危険、そして戦略的な戦闘スタイルなどを自分で学ぶことを意味します。

具体的には、エージェントは初めて環境に放たれた時、ランダムな位置からスタートし、何をすべきか、どのように行動するべきかを何も知らない状態です。エージェントは、環境からのフィードバック（例えば、食料を得る行動が成功したかどうか、攻撃を受けたときのダメージなど）を通じて学習を進めていきます。

このプロセスは「強化学習」と呼ばれ、エージェントは試行錯誤を繰り返しながら最適な行動パターンを見つけ出すことを目指します。このような訓練方法は、AIがより柔軟で適応性の高い方法で複雑な問題に対処できるようになるため、非常に効果的です。

「Video PreTraining (VPT)」プロジェクト

最近のOpenAIのプロジェクトで興味深いのが、Minecraftを用いた「Video PreTraining (VPT)」です。このプロジェクトでは、Minecraftのゲーム内でAIがどのようにして複雑なタスクを学ぶかを探求しています。特に、AIは70,000時間分のビデオデータから行動を学び、その後さらに具体的なタスク（例えば家を建てるなど）にファインチューニングを施すことで、技能をさらに磨き上げます。この方法により、AIはMinecraft内での木の伐採から道具の作成まで、一連の複雑なプロセスを学び取ることができるようになりました。

「Neural MMO」のような環境設定と比較すると、VPTプロジェクトでは初期段階から特定のタスクに特化して学習を進める点が異なります。つまり、VPTではある程度方向性を持った学習が行われる一方で、「Neural MMO」ではより開かれた環境でエージェントが自発的に学習を進める形式を取っています。このように、ゲームを使った教育的なアプローチは、AIの能力を多方面から拡張していく上で非常に有効であり、さまざまなシナリオでの応用が期待されています。

この記事が気に入ったらサポートをしてみませんか？