ChatGPT（OpenAI）が血の涙を流しながらGenie（Google）の研究報告を要約してくれた

2024年3月8日 09:23

「Genie」爆誕

今年2月にGoogleが『Genie』というAIモデルを発表しました。

Generative Interactive Environments（生成的なインタラクティブ環境）と言う事でしたが、訳したところでパンピーにはよくわかりません。

しかしジーニーと言えば、「アラジン」で願いを叶えてくれるランプの魔人です。まぁそんな感じで色々なことができるようになるに違いありません。
「X」でGenieの動画がありましたので、まず動画を見てみましょう。

Google DeepMind just dropped 'Genie', an AI that can generate interactive video games.

This is a huge deal.

Genie is trained on 200,000 hours of unsupervised public internet gaming videos and can generate video games from a single prompt or image.

But here's what's insane:… pic.twitter.com/C63tDAVEVr
— Rowan Cheung (@rowancheung) February 26, 2024

…すごいのか？

マリオみたいなキャラクターがジャンプしてるけど、Googleはファミコンでもリリースするんでしょうか。
しかし、このGenieは「新しいAI基盤」になる可能性があるということで巷で話題になってます。これは是非とも知りたい！
そこで私は、Googleが公開している『Genie』の研究報告を読んでみて、知見を深めてみようと思いました。
「研究報告を読む」とか、もうメンサ会員になれる勢いですね。

出典：arxiv/Genie: Generative Interactive Environments
**くっそー英語じゃねーか！！**

もう当然のように英文ですね（そりゃそうだ）
英検3級の資格を持つ私が手も足も出ません。
まぁそこは日本語翻訳機能もあるし、英語力なんか全然関係ねーんだぜ。

出典：arxiv/Genie: Generative Interactive Environments
日本語力もありませんでした

日本語にしたところで、何言ってるかさっぱりですわ。
そこでChatGPTさんにこの論文を要約させてやりましょう。
「Google」の事を「OpenAI」に聞くという、鬼畜の所業。
そこんとこChatGPTさんが傷つかないか心配ですね…

でまぁそんなことは置いておいて、研究報告の要約はこんな感じにしてくれました。

だって要約されたところで、難しいものは難しいんだからしゃーないじゃないですか。
まずは「Genieはどんなことができるのか」を聞いて、イメージを膨らませてみることにします。

Genieは何ができる？

紹介動画ではスーパーマリオのようにキャラクターが動いていましたが
一体何がすごいのでしょうか。
「Genieは具体的に何ができますか？」　⇒　ChatGPT

5つほど回答してもらったのですが、上記の３つが特殊な感じがしましたので、それぞれを少し深堀ってみます。

アクション制御可能なビデオ生成

最初に見た動画は、ユーザーが操作できるゲームを作っています。
Aを推せばジャンプ、Bを推せば進むのようなことができる。つまり、ユーザーが制御できているんですね。あれは動画生成ではなく、ユーザーが動かしていたんです。
「…あ、ふーん」それってすごいんです？
いやいや、ユーザーが生成プロセスに介入し、ビデオの展開を指定できるというのは、従来の自動的に進行するビデオ生成モデルとは大きく異なる点。今までの動画を自動的に作っていたのとではえらい違いなんですって。そらすごい！…気がするw

高品質なビデオ予測

Genieはリアルタイムで次のフレームを予測し、連続したビデオフレームを生成するという能力があります。
非常に高速且つ、生成されるビデオの品質は非常に高いようですね。
ユーザーはほぼリアルタイムで、自分が想像したシナリオをビデオとして確認することが可能になります。
つまり予め設定されたゲームの中で動かしているのではなく、リアルタイムでゲームが生成されていくという感じ。あの動画はどんどんツギハギ的に生成されていっているゲームだったんですね。
まさに「フランキー空中散歩」みたいな感じです。

はぁ？

とにかく従来のビデオ生成技術では、このような高速かつ高品質なビデオのリアルタイム生成はまだできていませんので特異な技術であると言う事を押さえておきましょう。

大規模なデータセットに基づくトレーニング

これが個人的には一番すごいと思ったのですが、今までのビデオシーケンスと異なり、ラベル情報を必要としないんですよね。
例えば、今まではビデオクリップごとに手動でラベル（例えば、「走る」、「飛ぶ」などのアクションラベル）が必要で、モデルはこれらのラベルを基に学習を進めます。一つ一つの動画に「これが走るなんやで~」て教えないといけなかったってことですね。

Genieが採用しているアプローチは、ラベル情報を必要とせずに、ビデオデータそのものから直接学習を行うことができます。
マリオの「ジャンプ」であろうとカービーの「ジャンプ」であろうと「ジャンプ」は「ジャンプ」と理解していると言う事です。

これにより、手動でのラベル付け作業が不要となるため、データ収集と前処理の工程が大幅に簡略化。
大規模なインターネットビデオデータを利用して、より多様でリアルなビデオシーケンスを生成することが可能になります。

また「アクションが定義されているわけでは無く、独自に作ることができる」という事は、２D だけでなく３Dでも、つまり現実世界でも応用ができます。

なん...だと…

Genieをロボットに搭載すれば、次何が起こるのか理解し、動くという行動をとれるわけです。
つまりリアルな「四次元ポケット無しのドラえもん」ができるということです！
…なんかがっかり感が強い例えになってしまいましたが、これってめっちゃすごい事。
今後ロボットの開発に大きな影響を与えていきそうですね。

どういう仕組み？

これらはどのような仕組みで出来ているのかも、簡単に聞いてみましょう。

研究報告にあった構成図が一番わかりやすいので、助けを求めながら見てみましょう。結局かい。

出典：出典：arxiv/Genie: Generative Interactive Environments
結局、構成図が一番わかりやすい

①Video tokenizerによって、離散ビデオトークンにトークン化する
②Latent action modelによって、各フレーム間での行動を予測する
③Dynamics Modelは、これらのトークンと潜在アクションを用いて次のフレームを予測する…とまぁこんな流れのようです。

打ち合わせとかで、こんな話が出てきたら「そうなんですね~ドゥフ…」とか言って適当にお茶を濁してしまいそうです。

ChatGPTさんに質問するとき「小学生にもわかるように」と頭に置くと、驚くほどわかりやすく説明してくれますよ。
そうするこ下記のように簡単に教えてくれました。

①Video tokenizer：
　ビデオのフレーム（一つ一つの画像）を、パズルのピースみたいな小さな部分に分けてくれる。
②Latent action model：
　ビデオのこの瞬間から次の瞬間に、何が起こるかを予測。たとえば、公園でボールを投げたら、次はどうなるかな？みたいに。
③Dynamics Model：
　1と2の情報を使って、次のフレーム（ビデオの次の画像）を作ります。つまり、ビデオの物語を一つ一つつなげていくという感じ

まとめ

要約した「仮想世界を生成する」というのがイマイチピンと来なかったのですが、Genieはユーザーが自由に想像した世界を具現化することができる。つまり世界を作ることができる！という、なんとも壮大な話。

現在OpenAIがAIの分野では天下をとっている構図ですよね。
現在LLMを使った自立型のソフトウェアである「AIAgent」が新しいスタンダードになると言われています。
OpenAIも「Sora」で実現しようとしています。

次世代のAIAgentの基盤はなんとしてもGoogleが覇権を取りたいところ。
まだGenieはゲームをリアル生成できるという程度ですが、これが何に搭載され、何を実現できるのか、注目してみると面白そうですよね。

この記事が気に入ったらサポートをしてみませんか？