AIが今リアルタイムでビデオゲームを想像できるようになった

2024年9月14日 19:07

9,837 文字

ほな、ジーニーの主なアイデアっちゅうんは、ビデオだけから生成的でインタラクティブな環境を学習することやねん。つまり、1枚の画像を取って、それを実際の環境みたいに操作できるようにするっちゅうことやな。
基本的には、フレームのシーケンスを取り込んで、VQモデルに突っ込むんや。そうすることで、ビデオフレームを離散化できて、モデルがトークンを予測できるようになんねん。
要するに、様々な種類の環境やダイナミクスを持つ大規模で多様なデータセットで学習しとんねん。でも、次のフレームを予測するのに役立つように、変化の圧縮版みたいなもんを学習しようとしたんや。
一貫性があるって言えるのは、モデルが次のフレームを予測するために、異なる環境間で一貫したアクション空間を学習するのがめっちゃ役立つからやね。
次のフレームを生成するときに、遠くにあるオブジェクトは近くにあるオブジェクトよりもゆっくり動くんや。これはゲームでよく見られる効果で、深さを模倣するためのもんやね。物が動くのを観察するときに、遠くにあるものがゆっくり動いて見えるっちゅうのと同じやな。
ほんで、ジーニーで一番好きなんは、実際にモデルとインタラクトできることやね。単に何かを生成するだけやなくて、アクションを起こして見える生成物を変えられるんや。気に入らんかったら巻き戻して、違う種類の生成物を作ることもできんねん。
Brave Search APIは、200億以上のウェブページの独立したインデックスへの手頃な開発者アクセスを提供してんねん。何が特徴かって言うと、大手テクノロジー企業のバイアスなしで一から構築されてて、実際の匿名化された人間のページ訪問を使ってデータをフィルタリングし、毎日数千万の新しいページで更新されとんねん。AIモデルのトレーニングと検索に最適やで。
拡張生成
Brave Search APIは、開発者にやさしい価格で倫理的なデータソーシングを提供してて、ビジネスに合わせてスケールするんや。言語モデルや情報検索システムに取り組んでいる場合でも、Braveは代表的なデータセットと最新の情報を手頃な価格で提供してんねん。brave.com/apiで毎月2000クエリを無料で始められるで。
さて、アシュリー、あんたはこのジーニー論文の著者の一人やね。ちょっと教えてくれへん？
ほな、ジーニーの主なアイデアは、ビデオだけから生成的でインタラクティブな環境を学習することやね。1枚の画像を取って、それを実際の環境みたいに操作できるようにするんや。
すごいな。アーキテクチャについて教えてくれへん？
そやな、ここで主にやっとんのは、潜在アクションモデルを学習することやね。ワールドモデルに詳しい人なら、普通は環境とインタラクトするためにアクションが必要やって知ってるやろ。でも、うちらは潜在アクションモデルを学習して、これらの環境を制御できるようにしとんねん。
それが主要な要素の一つやね。それから、これらの潜在アクションを受け取って次のフレームを予測するダイナミクスモデルもあんねん。モデルが予測できるフレームを表現するためのビデオトークナイザーもあるで。
面白いな。ビデオトークナイザーは最初に学習されるんやね。
そうそう、その通りや。基本的に、フレームのシーケンスを取り込んで、VQモデルに突っ込むんや。そうすることで、ビデオフレームを離散化できて、モデルがトークンを予測できるようになんねん。
なるほど。このVQ-VAEがコードブックを作成するんやな。入力画像はかなり高解像度やったんちゃう？
そやな、フレームのサイズは90×160やったと思うわ。それらをパッチに分けて、モデルに入れてトークンを予測するんや。
面白いな。じゃあ、フレームを取り込めるわけやな。例えば、プラットフォームゲームのビデオのデータセットがあって、それをこのビデオトークナイザーにかけるんや。それから潜在アクションモデルがあって、ビデオにはアクションがなかったわけやな。
そうそう、その通りや。まずトークナイザーを学習して、潜在アクションモデルは実際にはraw pixelsで動作するんや。トークナイザーは潜在アクションモデルの学習には使わへんねん。
なるほど、めっちゃ面白いな。アクションを推論して、それからアクションとビデオトークンがダイナミクスモデルに入って、出力ビデオを生成するわけやな。
そうや、その通りやで。
アクションモデルが一番興味深いわ。ジーニーでは8つのアクションに制限したんやね。
そうそう、その通りや。主に、自分たちでモデルに入って遊べるようにしたかったからやね。それが一番ええ評価方法の一つやったんや。潜在アクション空間が大きすぎたら、遊ぶのが難しくなるからな。だから8つのアクションに減らしたんや。
もう一つは、次のフレーム予測に役立つように圧縮したかったんや。小さなコードブックがあることで、シーン間で何が一番重要に変化したかを符号化できたんやね。
連続するフレームでもアクションが合理的で一貫してたのは、本当に驚いたわ。なんでそうなったん？
チームの多くの人も驚いたんやけどな。俺はいつも上手くいくって信じてたけど、みんながそう思ってたわけやないねん。
主な理由は、基本的に多くの異なる種類の環境やダイナミクスを持つ大規模で多様なデータセットで学習してたからやね。でも、次のフレームを予測するのに役立つように、変化の圧縮版みたいなもんを学習しようとしたんや。
一貫性があるって言えるのは、モデルが次のフレームを予測するために、異なる環境間で一貫したアクション空間を学習するのがめっちゃ役立つからやね。
めっちゃ面白いな。このアーキテクチャを学習したら、人間が実際にゲームをプレイするみたいに設定できるんやね。ゲームエンジンみたいなもんやけど、ゲームがモデルの想像力から生まれてくるみたいな感じやな。
そうそう、その通りや。ユーザーの想像力からも生まれてくるんやで。生成する画像を自分で作ることもできるし、スケッチすることもできんねん。基本的に、これらの初期プロンプトフレームから生成することを学習してんねん。
テキスト説明も使えるんやね。それはどう機能するん？テキストから画像へのモデルを使って、それがビデオデコーダーへの入力になるんか？
そうそう、その通りや。既存のテキストから画像へのモデルを使って画像を生成して、それをモデルに突っ込むんや。ただし、テキストを直接入力するわけやないで。
めっちゃかっこええな。じゃあ、プラットフォームゲームとかをスケッチして、それをジーニーに入れて、ゲームパッドかなんかで、そのスケッチからゲームエンジンみたいにプラットフォームゲームをプレイできるってことやな。
そうそう、その通りや。絵の才能があればの話やけどな。
でも、俺も下手くそやけど描いてみたら、それでも制御できたで。
めっちゃかっこええな。これって一種のワールドモデルを学習してるってことやんな。学習したデータの分布外にどれくらい一般化できるんやろ？明らかに分布内の例の方がうまく機能するやろうけど。
生成してた画像は、学習したものに近くなるようなプロンプトを与えようとしてたんや。でも、スケッチでも機能したしな。制御できそうに見えるものなら、大体制御できたわ。いつもうまくいくわけやないけどな。
なるほどな。論文読んだんやけど、アクションモデルとビデオモデルの両方に、忠実度に基づくメトリクスがあったよな。それらのメトリクスはどう機能するん？
そうやな、FVDっちゅうビデオ品質を測るための一般的なメトリクスを使ったんや。これは、モデルの生成をロールアウトしたときに、学習したものの分布にどれだけ合ってるかを示すんやね。これはビデオの忠実度を測るけど、制御可能性を測るのは簡単やないねん。
だから、SNR-diffっちゅうのも測ったんや。SNRは生成される画像の忠実度を測るための別のメトリクスやねんけど、基本的に、地面真実の潜在アクションを入れたときと、モデルが推論したランダムな潜在アクションを比較して、その差を見たかったんや。
モデルが推論した潜在アクションが適切な生成を生み出し、ランダムな潜在アクションが必ずしも適切な次のフレームにつながらないようにしたかったからな。これらを比較して、その差を見たかったんや。
めっちゃかっこええな。今のところ、固定のフレーム数に基づいてるけど、将来的にはストリーミング版を作れるんかな？それとももう既にストリーミングなんやけど、俺が理解してへんだけ？
そうやな、永遠にロールアウトしても面白くないかもしれんけどな。フレームの数を切り詰めたり、生成したりすることはできるで。16フレーム以上でも遊べたしな。
めっちゃ面白いな。ビデオ生成の概念にめっちゃ興味あるんや。今のAI分野で一番難しい問題な気がするわ。どれくらい近づいてると思う？ただビデオを連続的に生成できるようになるまでに。
そうやな、このジーニーの研究ではそこまでうまくできへんと思うけど、改善の余地はあると思うわ。ここ数ヶ月で、長い生成ができる多くの研究が出てきてるしな。でも、一貫性が問題やね。
シーンの外に出たら、見たものを忘れてしまうかもしれんし。でも、そこまで遠くないと思うわ。この分野、めっちゃ早く進んでるからな。多分今年か1年以内にはストリーミングできるようになると思うけど、どれくらいの長さでストリーミングしたいかにもよるやろうな。
ストリーミングビデオ生成モデルに仕事を奪われそうで心配やわ。
そんなことあらへんって。人々はまだ人間とインタラクトして、こういう会話をしたいと思ってるやろ。AI生成のインタビューを見るのは面白くないと思うわ。
論文に創発能力の話があったな。例えば3D理解やパララックス、物体の変形とかやな。めっちゃ面白い現象やな。それについてどう思う？
そうやな、めっちゃかっこよかったわ。気づいたときは「うわ、マジでできるやん！」って感じやったな。
例えば、論文にあるパララックスの例やけど、次のフレームを生成するとき、遠くにあるオブジェクトは近くにあるオブジェクトよりもゆっくり動くんや。これはゲームでよく見られる効果で、深さを模倣するためのもんやね。
物が動くのを観察するときに、遠くにあるものがゆっくり動いて見えるっちゅうのと同じやな。ほんで、モデルがそれを学習したんや。
めっちゃかっこええな。モデルは110億パラメータやったな。モデルっちゅうか、ジーニー全体のことやけど。全てのモデルを合わせてもそんなに大きくないように見えるわ。モデルのサイズを変えたときにどうなるかっちゅうスケーリング分析もしたよな。そのことについて教えてくれへん？
そうやな、モデルのサイズをスケールしたときのパフォーマンスと、バッチサイズを変えたときのパフォーマンスの両方を測る実験をいくつかしたんや。最終的に110億パラメータまでスケールして、バッチサイズは512やったと思うわ。
多分、モデルのサイズをスケールするにつれて、モデルの忠実度は良くなったと思うわ。潜在アクションのパフォーマンスも、110億パラメータまでスケールしたらめっちゃ良くなったな。制御可能性もかなり向上したわ。
ほんまに滑らかなスケールやったな。モデルのサイズに応じて、相応の向上があったわけやな。
そうそう、めっちゃきれいなグラフになったわ。ジェイクがこの図を作るのにめっちゃ時間かけてくれたんや。彼に感謝やな。
どれくらいのデータで学習したん？
元のデータセットは約30万時間あったんやけど、めっちゃ時間かけてフィルタリングしたんや。みんなで集まってデータセットにラベルを付けて、最終的に約3万時間の映像にフィルタリングしたんや。
めっちゃかっこええな。10フレーム/秒で10秒のクリップで、フレームの解像度もかなり低かったんやろ？
そうそう、その通りや。
めっちゃかっこええな。空間時間トランスフォーマー（STX）を使ったんやね。それについて教えてくれへん？ViTよりもええんか？
基本的にViTでは、画像からパッチを取って、それをトランスフォーマーに入れて、パッチを再構成したり、次のパッチを予測したりするんや。
でも、うちらの問題は、時間とともに変化するものを捉える表現を学習したかったんや。だから、動いてるものをモデル化できるように、この時間的な要素が必要やったんや。それが時間の部分やね。空間の部分は画像から来てるわ。
もう一つやったのは、全てのフレームにわたって注意を払うトランスフォーマーを持ちたくなかったんや。だから、時間軸に沿って1つのトークンにだけ注意を払うようにしたんや。そうすることで、二次関数的じゃなくて線形にスケールするようになったんや。
因果マスクもあったよな。つまり、4フレーム前に遡る1×1のスライスがあるってことやな。
そうそう、その通りや。
なるほど。時間のダイナミクスを捉えるのに役立つんやな。でも、空間スライスもあるよな。Tの形みたいな感じで、空間情報があって、時間次元に因果スライスがあるみたいな。
そうやな、実際にその形がどうなってるか考えたことなかったけど、それで合ってると思うわ。
めっちゃ面白いな。これはある意味、一般的なゲーミフィケーションの一形態やと思うんや。言語モデルもゲーミフィケーションの一形態やけど、タイプしてるだけやからゲームっぽく感じへんよな。でも、これはもっとええ形のゲーミフィケーションに感じるわ。これが、もっと密接なフィードバックループを持つAIモデルを作るトレンドになるかもしれんな。
そうやな、ええ指摘や。ジーニーで一番好きなんは、実際にモデルとインタラクトできることやね。単に何かを生成するだけやなくて、実際にアクションを起こして見える生成物を変えられるんや。気に入らんかったら巻き戻して、違う種類の生成物を作ることもできんねん。
これの主な応用は、明らかにゲームを生成できることやけど、次のフロンティアはロボティクスやな。ロボティクスの問題は、アクションが含まれたラベル付きデータがないことやねん。でも、このモデルを使えば、論文でやったように、ジーニーから推論されたアクションに基づいて強化学習ポリシーを学習できるんやな。
そうや、行動模倣ポリシーを学習したんや。報酬はないけどな。基本的に、学習した潜在アクションを使って、見たことのないビデオから模倣するエージェントを学習したんや。
それ、どれくらいうまくいったん？
そうやな、かなりうまくいったと思うわ。観察からの模倣に関する先行研究はすでにあったんやけど、うちらが見たかったのは、プラットフォーマーのデータセットから学習した潜在アクションを使って、見たことのないビデオにラベルを付けて、エージェントにそれを模倣させることができるかどうかやったんや。
基本的に、潜在アクションを学習したら、潜在アクションのポリシーを学習するんやけど、それをそのまま環境に突っ込むことはできへんねん。実際のアクションにマッピングする必要があるんや。
エージェントに潜在アクションを実際のアクションにマッピングすることをその場で学習させるのは、ちょっと難しかったんやけど、エキスパートがラベル付けしたデータを使ってマッピングを学習することはできたんや。それはかなりうまくいったわ。
なるほどな。潜在アクションが具体的に何なのかわからへんから、エキスパートにマッピングしてもらって、実際の問題でテストできるわけやな。
そうや、この場合はエキスパートデータを使って、この状態でこのアクションを取ったっていうのを見たんや。そうすることで、自分たちでマッピングができたんやけど、実際のアクションを直接潜在アクションにマッピングしてもらったわけやないねん。
めっちゃかっこええな。例えば、YouTubeとかから大量のビデオデータを取って、ロボティクスモデルを学習させたらどうなると思う？ビデオゲームの場合は8つのアクションで適切そうやけど、巨大なアクション空間があったらどうなるんやろ？何かの形で縮小するんか、それともスケールアップすると思う？
そうやな、アクション空間を増やしたときにモデルがどう変化するかの実験をいくつかしたんや。生成の忠実度は良くなると思うわ。
潜在アクションは次のフレームで何が起こるかを教えてくれるもんやからな。潜在アクションが多くなれば、それをより良く制御できるようになるわ。
実際の環境にマッピングする部分が、ちょっと難しくなると思うわ。この巨大な潜在アクション空間を実際に取れるアクションにどうマッピングするかっちゅうのがな。
ロボティクスのアクションは連続的やからな。それも考えなあかんことやな。多分、離散化するとかそういうことができるかもしれんけど。
論文では、ロボティクスの例でも確か8つのアクションを使ったと思うわ。ロボットアームやったかな。あるいは一人称視点やったら、前進、左に動く、右に動く、回転するとかやな。
それでもまだ小さいアクション空間やけど、ええ質問やな。
ロボティクスの基盤モデルはどんな感じになると思う？
そうやな、最近では1Xとかが実際にロボティクスの基盤モデルに取り組んでるな。ジーニーをオープンソース化したのはめっちゃかっこええと思うわ。
チェルシー・フィンの研究室も、多くの異なる研究室からの巨大なデータベースを学習してるんやけど、これもめっちゃかっこええと思うわ。
基本的に、多くの異なるソースからデータを取ってくるんやけど、ロボティクスの場合、インターネット上の多くのビデオが必ずしもロボットが見る必要があるものに直接マッピングされへんからな。
一人称視点のものは模倣できるかもしれんけど、ロボットアームの動かし方や物体との相互作用を示すものばっかりやないからな。
だから、インターネット上のものだけやなく、他のロボティクスのデータも含めて、そのスペース全体で協力して学習しようとしてると思うわ。
センサーデータも使いたいと思うわ。観察だけでは得られへんものがあるからな。触覚とかな。
マスクGITがデコーダーモデルの一部として使われてたって言及があったな。俺はよく知らんのやけど、それはどう機能するん？
そうやな、これの仕組みは、Bertみたいなものでマスクされたトークンを取り込んで、基本的にそれらのマスクを与えられた次のトークンを予測しようとするんや。
マスクされたフレームを与えられて、次のトークンを予測するんやね。
マスクの主な利点は、トークンの自己回帰的生成をする場合と比べて、並列で生成できることやね。
フレームのトークンがあるとして、複数のトークンを同時にマスクしたり、マスクを外したりできるんや。最も自信のあるものを残して、それに基づいて残りのマスクを外そうとするんや。だからめっちゃ速度が上がるんやね。
めっちゃかっこええな。今のところ、これのパフォーマンスは1秒に1フレームくらいやったよな。まだ十分に速くないわけやけど、これをどう最適化できると思う？
そうやな、推論速度を上げるのも重要なことの一つやったな。自分たちでインタラクトしてたからな。
マスクGITの蒸留アプローチは見たことないけど、それができると想像できるわ。より速いモデルに蒸留してみるとかな。
bfloat16を使うとかの効率化もできるやろうな。でも蒸留がええアプローチやと思うわ。
めっちゃかっこええな。あんたのバックグラウンドについて教えてくれへん？研究の興味は？
そうやな、俺の主な研究は実はビデオからエージェントに学習させることやったんや。強化学習のバックグラウンドがあって、博士号も強化学習やったんやけど、いつも報酬関数や環境を考え出すのにイライラしてたんや。
だから、エージェントにインターネットのビデオを見せて、そこから学習させる方法に興味を持ったんや。俺が報酬を示したりするんじゃなくてな。
めっちゃかっこええな。エージェントのロードマップについてどう思う？例えば、LLMエージェントとかあるやろ。エージェントの価値は何やと思う？
そうやな、いつも見る質問の一つが、データはどこから来るんやっちゅうことやな。エージェントを実世界に置くのはめっちゃコストがかかるしな。
ビデオから学習するのは、だからこそ俺がUniにたどり着いた理由でもあるんや。観察からの模倣をしてて、ほんでジャックが「いや、環境自体を学習しよう」って言ってな。
だから、エージェントのためにあらゆるデータから学習することが、本当にスケールするのに役立つと思うわ。
報酬をどう表現するか、人間からどう学習するかを理解することもな。
もちろん、効率を上げることもいつも大事やけどな。
めっちゃかっこええな。ジーニー以外で今一番ワクワクしてる研究は何？
そうやな、ビデオ生成やな。強化学習からこのビデオ生成技術に少し移ってきたんや。
だから、最近めっちゃワクワクしてるのはそれやな。新しく感じるけど、そんなに新しくもないんや。いつもビデオのためにエージェントを学習させてきたからな。でも今は「ビデオ生成ってどんなもんやろ」って感じやな。
ビデオ生成の最大の課題は何やと思う？
そうやな、前に言ったように、フレーム間の一貫性が重要やと思うわ。
テキスト生成ビデオをやってる場合は、生成物を入力したテキストプロンプトに従わせるのもな。
でも、最近一番ワクワクしてるのは制御可能なビデオ生成やな。ジーニーでやったみたいに、フレームごとに制御する方法を見つけることやけど、他のモデルでもできたら面白いと思うわ。
マルチエージェントのことやけど、人間の密接な監視なしで動作するくらいの自律性を持つシステムを設計できると思う？
そうやな、最終的にはなぜできへんのかな。でも、タイムフレームと、どんなシステムを想定してるかによるやろうな。
自動運転車みたいなものやったら、既にWaymoが人間の介入なしで街を走ってるのを見とるやろ。俺は乗るのちょっと怖いけど、動いてるみたいやな。
そうやな、システムがどれだけ安全かによるな。誰かを傷つける可能性が全くないシステムやったら、まあ導入して様子見るのもアリやと思うわ。
DeepMindで働くのはどんな感じなん？
あ、実は最近Runwayに移ったんや。
あ、ごめん。知っとくべきやったな。
大丈夫や。最近のことやし。
あ、すまんな。Gen3はめっちゃすごいで。
そうやな、めっちゃええよ。マーレイ・シャナハンとのインタビューで、ラップトップを打つショゴスを生成するのに使ったんやけど、一発でめっちゃええのができたわ。
ほんまにすごいな。DeepMindもよかったんやけど、スタートアップに行って、どんな感じか見てみたかったんや。さっき言ったように、最近はビデオ生成にめっちゃはまっとってな。
めっちゃかっこええな。V3で能力が大幅に向上したけど、これからもどんどん良くなっていくと思う？
そう思うわ。Gen3が出た週に入社したんやけど、めっちゃ楽しい時期に入れたな。入社前は知らんかったから、めっちゃ驚いたわ。
でも、ビデオ生成モデルの進歩のペースがめっちゃ速いんや。Zorroが2月に出たばっかりやのに、それ以来、次々と進歩が出てきてるやろ。
ほんまやな。今のところ、より大きなモデルとより多くのデータを使って能力を向上させるっていう競争があるよな。能力とモデルサイズとデータサイズの間に相応の関係があるわけや。モデルの効率を本当に向上させるような発見があると思う？
そうやな、あると思うわ。もう一つ考えられるのは、単にこれらのモデルをスケールアップするんじゃなくて、既存のモデルを基に構築することやな。
巨大な実験を何度も実行する必要はなくて、クラシファイアフリーガイダンスとか蒸留とかそういうことをして改善する方法を見つけることができるかもしれんな。
モデルがいったん存在すれば、制御することで生成物を改善したり、微調整したりすることもできるしな。
すごいな。アシュリー、MLSTに出てくれてありがとう。めっちゃ感謝してるわ。
こちらこそありがとう。話せてよかったわ。

この記事が気に入ったらサポートをしてみませんか？