見出し画像

Googleの新しいGameNGenが驚きをもたらす!(GameNGenはDOOMとビデオゲームをシミュレート)

皆さん、この話題は実際に私を驚かせたものです。ビデオゲームの仕組みについて疑問に思ったことはありますか。従来のコーディング手法ではなく、完全に人工知能によって駆動されるビデオゲームの世界を想像できますか。今日は、Google DeepMindによる画期的なコンセプト、GameNGenについて掘り下げていきます。これは、AIが対話型ビデオゲーム環境を100%リアルタイムで生成し、人間が実際にプレイできるという新しいアプローチです。
まず、この研究がなぜ大きな影響力を持ち、なぜ誰もが驚いたのかを理解するために、従来のゲームエンジンの基本について話しましょう。Doom、Fortnite、Minecraftのようなゲームはゲームエンジンを使って構築されています。これらのエンジンは、キーボード入力の読み取りからゲーム世界の更新、そして画面へのレンダリングまで、すべてを処理するソフトウェアフレームワークのようなものです。従来、これらのエンジンは没入感のある体験を作り出すために開発者によって慎重にコーディングされていました。
しかし、細部まですべてをコーディングする代わりに、AIを使ってプレイヤーがプレイしている最中にゲーム環境をリアルタイムで生成できたらどうでしょうか。これが今日の動画で話す内容です。
GameNGenを見てみましょう。GameNGenは、完全にニューラルモデルによって駆動される初めてのゲームエンジンです。ニューラルモデルとは、人間の脳の働きをシミュレートするAIの一種です。これは何を意味するのでしょうか。本質的に、大量の手書きコードに頼る代わりに、GameNGenはAIを使用して、ゲーム内で起こることに基づいてリアルタイムでゲームの環境と相互作用を生成します。
Doomのようなゲームをプレイしているけれど、従来のプログラミング手法でゲームがレンダリングされるのではなく、AIモデルによってリアルタイムで作成されているところを想像してみてください。これがGameNGenが本質的に行っていることです。
GameNGenはどのように機能するのか疑問に思うかもしれません。このシステムは拡散モデルと呼ばれるものに基づいています。これを、過去の行動を見ることでゲーム環境で何が起こるかを予測できる非常に高度な予測システムだと考えてください。AIはゲームがフレームごとに展開する様子を、フリップブックアニメーションを見ているかのように観察し、次に何が起こるべきかを予測することを学習します。プレイヤーが左に移動したり、発射ボタンを押したりすると、AIは新しいゲームの状態を把握し、対応するフレームをレンダリングします。
GameNGenは、専用ハードウェアを使用して、クラシックで複雑なゲームであるDoomを毎秒20フレーム以上で実行できるほど効率的にこれを行います。この速度は非常に重要です。なぜなら、ゲームがスムーズで反応が良いと感じるためには、高フレームレートで実行される必要があるからです。ゲーマーが「ラグ」と呼ぶものを経験したことがあるかもしれません。私自身も経験しましたが、実際にビデオをプレイしようとすると機能しません。これは人間がゲームを楽しむための一貫性と整合性にとって非常に重要です。通常、高フレームレートはゲーマーにとってより良い反応を示します。フレームレートは、この動画を見ている30fpsや60fpsだけではありません。一部のモニターは244フレームを可能にし、これは非常にスムーズなゲームプレイをもたらします。
次に、GameNGenのトレーニングについて話しましょう。AIがゲーム環境をシミュレートするようトレーニングするために、研究者たちは2段階のアプローチを取りました。まず、AIエージェントをトレーニングします。最初に、彼らは自力でDoomをプレイすることを学習するAIエージェントを作成しました。このAIエージェントは、何百万ものゲームシナリオを通じて、さまざまな行動、結果、環境を学習する仮想プレイヤーのようなものです。
次に、ゲームデータを生成します。このエージェントがプレイしたゲームセッションが記録され、トレーニングデータに変換されます。このデータは、過去の行動とフレームに基づいて次のゲームフレームがどのように見えるべきかを予測するようAIモデルを教えるために使用されます。
実際の性能は、オリジナルのゲームとほぼ同じように見えます。実際、人間のテスターに、クリップがオリジナルのゲームからのものかAIシミュレーションからのものかを識別するよう求めたところ、ランダムに推測するよりもわずかに良い程度でしか識別できませんでした。これらの予備的な結果から、AI生成環境が非常にリアルであることがわかります。
画質に関しては、AIは現代のビデオ圧縮技術に匹敵するレベルの詳細さを達成しています。これは、ゲームがスムーズに動作するだけでなく、見た目も良いということを意味します。
なぜこれが重要なのかと思うかもしれません。これが重要なのは、ビデオゲームの作り方に大きな変化をもたらす可能性があるからです。従来、ゲームの作成には何千時間ものコーディング、デザイン、テスト、反復が必要でした。しかし、GameNGenのようなAI駆動エンジンを使用すれば、ゲームの作成がはるかに速く、安価で、アクセスしやすくなる可能性があります。
単に言葉で説明したり、いくつかの簡単なスケッチを描いたりするだけでゲームの世界を作成できると想像してみてください。これは理論的に、コーディングやプログラミング、ゲーム構築の方法を知らない新しいグループのクリエイターにゲーム開発の道を開く可能性があります。
これらの影響はGameNGenだけに限りません。この技術は、AIがユーザー入力に基づいてリアルタイムで環境を生成するトレーニング、教育、あるいはエンターテイメントのための仮想シミュレーションなど、あらゆる対話型ソフトウェアに潜在的に適用できる可能性があります。
研究者たちが直面したいくつかの課題がありましたが、それらは迅速に解決されました。彼らが直面した1つの課題は、自己回帰ドリフトと呼ばれるものでした。簡単に言えば、AIがより多くのフレームを連続して生成し、これらの小さな間違いが蓄積されると、実際のゲームとは似ても似つかない非現実的な結果につながります。絵を1行ずつコピーしている画家を想像してみてください。しかし、1行ごとに間違いが積み重なり、最終的に絵全体が違和感のあるものになってしまいます。
これを解決するために、彼らはノイズ拡張と呼ばれる技術を導入しました。これは基本的に、トレーニングプロセスに制御された乱数を加えることを意味します。これにより、AIは自己修正を学習し、ゲームの本来あるべき姿により近づくことができます。
次は何か、Googleはこの研究を放棄するのか、それとも継続するのかと思うかもしれません。GameNGenの背後にいる研究者たちは、その可能性に非常に興奮していますが、同時にいくつかの限界も認識しています。例えば、AIのメモリーはゲームの履歴の数秒間に限られており、これが時々不正確さにつながる可能性があります。また、比較的古くて単純なゲームであるDoomではうまく機能しますが、将来のバージョンではより複雑で現代的なゲームを扱う必要があります。
これらの課題にもかかわらず、GameNGenは対話型デジタル環境に関する新しい考え方への大きな一歩を表しています。AI生成の世界というアイデアはもはるSFではなく、急速に現実となりつつあります。
私自身もいくつかの実験をしてみたいと思いました。現在利用可能なツールを使用して、現在の画像生成技術で、現代のゲーム環境によく似た環境を提供できます。例えば、ここでGPT-4oにF1ゲームの一人称ゲームプレイスタイルのスクリーンショットを作成するよう指示しました。数秒で、F1カーが長い道路を走り抜けるような仮想F1環境の画像を作成することができました。
もちろん、これは現在プレイ可能ではありませんが、2〜3か月前にリリースされた新技術を使用すると、驚くほど短時間でこれをアニメーション化することができます。ほんの数秒でこの非常にリアルに見える映像を得ることができます。これは現在、Runway社のGen-3 Alpha Turboを使用しており、約6〜7秒で完了しました。
将来的に、AIに関する技術の向上と推論速度の増加により、テキストから画像へのプロンプトだけで完全に新しいビデオゲームを生成し、そして完全に生成された世界に入ることが可能になるかもしれません。私はこの未来がそれほど遠くないと思います。もちろん、さらなる研究開発が必要ですが、自分でこのようなものを作れることを示すこの簡単な例は、AI生成のゲーム世界が多くの人が思っているほど遠くないかもしれないことを示しています。
動画を楽しんでいただけたなら、次回もぜひご覧ください。そして、このような素晴らしい研究を行ったGoogle DeepMindに拍手を送ります。

この記事が気に入ったらサポートをしてみませんか?