見出し画像

AIの破滅: 完全にAIが生成したビデオゲームがここに登場!

NVIDIAのCEOであるジェンセン・ファンは、将来的にビデオゲームの全てのピクセルがレンダリングではなく生成されるようになると述べました。想像してみてください。あなたがプレイしているビデオゲームが、他の誰もプレイしたことのないゲームで、あなただけのユニークでカスタマイズされたものだとしたら。しかも、それがリアルタイムで生成されているのです。これは未来のビデオゲームについての空想的なアイデアだと思うかもしれませんが、実際にはそれほど遠い未来の話ではありません。むしろ、すでに実現している可能性があります。
今日、私たちはGoogleリサーチから新しい論文を得ました。それは人工知能を使用して、生成的な方法でDOOMというゲームを作成することができたことを示しています。これについて詳しく説明し、ビデオゲームの作り方を根本的に変えることになる理由を説明します。
まずはDOOMについて少し説明しましょう。DOOMは90年代に発売されたクラシックなビデオゲームで、当時のグラフィックスとゲームプレイの観点から画期的なものでした。DOOMをあらゆるデバイスで動作させるのはハッカーの伝統のようなものです。私は多くのデバイスでDOOMが動作するのを見てきました。実際、人々がDOOMを動作させた様々なデバイスを紹介するサブレディットまであります。
例えば、携帯電話、価格チェッカー、植木鉢などで動作しているのを見たことがあります。妊娠検査薬でDOOMが動作しているのも見たことがあります。そのため、DOOMはGoogleが新しいゲームエンジンプロジェクトを披露するのに最適なゲームだったのです。
現在、ビデオゲームの作り方は、全てが事前に定義されています。開発者またはチームが全てのコード、ルール、各ピクセルの動作方法を書き、全てを事前に定義します。そしてゲームをレンダリングしてプレイするのです。全てがこのゲームエンジンから読み込まれます。
その後、ビデオゲームは進化し、手続き型生成が登場しました。昔のDiabloから最近のNo Man's Skyまで、これらのレベルや世界は必ずしも事前に定義されているわけではなく、ランダムに作成するための何らかの公式がありました。
そして今、私たちは次のステップに到達しました。将来のビデオゲームは、人工知能を使用してあなたのためにリアルタイムで生成されるのです。つまり、プログラマーがゲームの見た目や動作、ルールを定義するコードを書いていないのです。全てがあなたのためにリアルタイムで生成されています。これは、ゲームをリアルタイムで好きなだけカスタマイズできることも意味します。
論文の詳細に入る前に、この段階に至るまでの経緯を説明しましょう。数年前からテキストから画像を生成するモデルがありました。見たいものを入力すると、テキストから画像モデルが希望の画像を生成します。その後、テキストから動画モデルが登場し、見たいものを入力すると動画が出力されます。動画の中の何も現実ではなく、全て人工知能によって生成されています。
そしてOpenAIがSoraをリリースしました。Soraは、プロンプトに基づいて数分間続く一貫性のある動画を作成する能力において、信じられないほどの成果を上げました。物理法則も完全にリアルに見えます。多くの人が、Soraが披露した動画の一部がビデオゲームのように見えることに気付きました。
そこで次の論理的なステップは、これらのビデオゲームを実際にプレイできるようにすることでした。ただし、事前にレンダリングされたものではなく、完全に生成されたものです。見えるピクセル全てが生成されているのです。そして今、それが実現しました。
これがその論文です。「拡散モデルはリアルタイムゲームエンジンである」。これはGoogleリサーチ、テルアビブ大学、Google DeepMindによるものです。このビデオを見てください。ここにDOOMゲームがあります。これは1993年版の再現です。これは事前にレンダリングされたものでも、レンダリングされたものでもありません。これは全てリアルタイムで生成されています。あなたに向かってくる全てのモンスター、動き、異なる廊下を歩く様子、全てのインターフェース要素、これら全てがニューラルネットによって生成されています。
完全に生成されたコンテンツ、ビデオゲーム、テレビ番組、映画が将来のある時点で実現する遠い未来の考えだと思っていたなら、考え直してください。これは今まさに起こっているのです。これが最初の例というわけではありませんが、私が見た中で最も洗練されたものです。AIを使用して完全に生成されたCall of Dutyのようなビデオゲームを見たことがありますが、それらのゲームは実際にプレイすることはできませんでした。このゲームは実際にプレイできるのです。
では、要約を簡単に読んでみましょう。私たちは「ゲームエンジン」を紹介します。これは完全にニューラルモデルによって動作する初めてのゲームエンジンで、複雑な環境との長時間にわたるリアルタイムの相互作用を高品質で可能にします。ゲームエンジンは、クラシックゲームDOOMを1つのTPUで毎秒20フレーム以上でインタラクティブにシミュレートできます。TPUは基本的にカスタムGPUのようなものです。
では、彼らは実際にどのようにしてこれを実現したのでしょうか。ニューラルネットは基本的に常に次のフレームを予測しています。あなたが動いているとき、廊下を歩いているとき、銃を撃っているとき、モンスターを倒しているとき、大規模言語モデルを使用して文章の次の単語を予測するのと同じように、次のフレームを常に予測しているのです。
ゲームエンジンは2段階で訓練されます。まず、RLエージェントがゲームをプレイすることを学習し、トレーニングセッションが記録されます。これにより、世界がどのように見えるか、プレイヤーがどのように世界を移動できるか、メニューシステムがどのように見えるか、ゲームのロジックとルールは何か、などについての多くのデータを得ることができます。次に、拡散モデルが過去のフレームとアクションのシーケンスを条件として次のフレームを生成するよう訓練されます。
なぜこれがそれほど大きな出来事なのでしょうか。これは全てのコンテンツが作成され消費される方法を根本的に変えるものです。リアルタイムでコンテンツを生成できるようになると、1人の視聴者のためにコンテンツを生成することができます。見たい特定のタイプのテレビ番組、プレイしたい特定のタイプのビデオゲーム、そのプレイ方法、スタイル、使いたいチートコードなどを説明するだけで、AIがそれを作成してくれます。
これにより、個人に合わせて極めてカスタマイズされた無限のコンテンツを持つ機会が開かれます。さらに先を見据えると、これは実際にプログラミングの未来についても語っています。ニューラルネットと人工知能全般がビデオゲームを作成できるようになり、すでに様々なタイプのコンテンツやアプリケーションを作成できることが分かっています。将来的には、ビデオゲーム開発者やアプリケーション開発者、さらにはコンテンツクリエイター自体も必要なくなる可能性があります。
未来を考えると、多くの人々が、OpenAIのテキストから動画モデルであるSoraが実際に現実世界をモデル化していると言っています。ニューラルネットでビデオゲームをモデル化できるなら、なぜ実際の世界、現実世界をモデル化できないでしょうか。私の考えでは、私たちはただ投入できるコンピューティングパワーによってのみ制限されているのです。
これは本当に、マトリックスのような状況に行き着きます。この展望を本当に延長してみると、シミュレーション理論につながります。
では、この研究論文から最も興味深い部分をいくつか読んでみましょう。複雑なビデオゲーム、象徴的なゲームDOOMをニューラルネットワークで実行できることを示しました。これは、オープンステーブルディフュージョン1.4モデルの拡張版を使用しており、知っておくべき重要な点です。リアルタイムで、元のゲームに匹敵する視覚的品質を達成しながら実行できます。
完全なシミュレーションではありませんが、このニューラルモデルは、体力や弾薬の計算、敵への攻撃、物体へのダメージ、ドアの開閉など、複雑なゲーム状態の更新を実行し、長い軌跡にわたってゲーム状態を維持することができます。
ここで重要なのは、実際にはゲームの状態をデータベースに保存していないということです。そのモデルを閉じて再び開いた場合、ゲームの状態を知る方法はありません。実際にどこにも書き込んでいないのです。全てがこのニューラルネットワーク内で行われています。
論文では、インタラクティブなビデオゲームの新しいパラダイムだと彼らが信じているものについて説明しています。今日、ビデオゲームは人間によってプログラムされています。ゲームエンジンは、ゲームがコードの行ではなく、ニューラルモデルの重みである新しいパラダイムの一部の実証概念です。
ゲームエンジンは、ニューラルモデルが既存のハードウェア上で複雑なゲームをインタラクティブに実行できるようなアーキテクチャとモデルの重みが存在することを示しています。例えば、既存のゲームの変更や新しい動作の作成など、このビジョンの小さな部分は、短期的に達成可能かもしれません。例えば、一連のフレームを新しいプレイ可能なレベルに変換したり、コードを書くことなく、単に例の画像に基づいて新しいキャラクターを作成したりすることができるかもしれません。
マリオゲームがあり、探索する全く新しい世界が欲しいとしましょう。基本的に既存のゲームを取り、そのゲームに基づいて新しい世界を生成するようモデルにプロンプトを与えるだけで良いのです。さらに、これらのビデオゲームに自分自身を登場させることもできます。可能性は本当に無限です。
では、いくつかの欠点と潜在的な制限について話しましょう。確かにいくつかありますが、もちろんこの技術は非常に初期段階であることを覚えておいてください。私たちはまだ始まったばかりです。
まず、ゲームエンジンは限られた量のメモリしか持っていないと述べられています。モデルは3秒強の履歴にしかアクセスできません。それにもかかわらず、ゲームのロジックの多くが大幅に長い時間範囲で持続することは驚くべきことです。
もう1つの制限は、元のゲームの完全なシミュレーションではないという事実です。既存のゲームを再現しようとする場合にのみ問題になりますが、単に全く新しいゲームを生成する場合は実際には問題になりません。
大規模言語モデルと同様に、このゲームも幻覚を見ます。幻覚は様々な形で現れます。このビデオから分かるように、アバターの眉毛に小さなけいれんがあったり、カウントされている数字の一部が間違っていたり、グラフィックスに少し不自然な動きがあったりします。しかし、全体的にはかなり良く見えます。
では、これらの問題をどのように修正すればいいのでしょうか。まず、一般的に人工知能の世界における広範な問題である幻覚の修正と防止をより良くする必要があります。数秒以上の記憶を持続させる必要があります。これもまた、AI の世界におけるもう1つの問題です。現在のAIは実際には記憶を持っていません。大規模言語モデルに記憶を与えるために、検索拡張生成のような特定の記憶技術を使用していますが、実際には記憶を持っておらず、ある意味で時間の中で凍結されているのです。
そしてもちろん、より多くのトレーニングデータとより多くのコンピューティングパワーが必要です。これらすべてを組み合わせると、昨年初めにジェンセン・ワンが言ったように、ビデオゲームの未来は本当に生成されたものになると私は信じています。
GTA 6を待つのではなく、単にAIにそれを作成するよう指示できる未来を想像してみてください。これは、映画制作、テレビ制作、ビデオゲーム、もちろんYouTube、音楽、そしてコンピューティング全般を含む多くの異なる産業に大きな影響を与えます。
私は真に、将来的には本当にオペレーティングシステムやアプリケーション層を必要としなくなると信じています。私たちは単に人工知能に必要なものを正確に尋ね、AIがリアルタイムでインターフェースと必要なすべてのデータを生成し、それを私たちに提供するだけになるでしょう。その時点で、アプリケーション層やオペレーティングシステムにさえ本当に目的はありません。新しいオペレーティングシステムは人工知能なのです。
このビデオが気に入ったら、いいねとチャンネル登録をご検討ください。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?