【生成AI月例短信2024年2月】Lumiere, Sora, Ginieが導く基盤世界モデル

2024年3月3日 11:22

はじめに

2023年11月 GPT-4 All Tools、GPT Store、2023年12月Geminiときて、2024年2月も驚きの発表が続く生成AI界でした。月例短信とかいって本当に続くのかと思いますが、毎月進化がとまらない生成AIです。
今回は動画生成AIがひらく基盤世界モデルについてお話しします。

Lumiere, Sora, Ginie

Lumiere

LumiereはGoogleが2024年1月に発表した動画生成AIのための時空拡散モデルです。
テキストからの動画生成、画像からの動画生成、スタイルを指定しての動画生成、画像の部分を指定してのアニメーション化、隠された部分の自動再構成などができます。

Sora

2024年2月に発表されたOpenAIの動画生成AIモデルです。発表されたのはデモ動画だけで、動画制作者に限定的にリリースされています。従来のPika, Runway Gen-2などの数秒しか生成できない動画生成AIに比べ格段に高品質で1分までの動画が生成できます。圧倒的な進化と言われています。動画生成AIのトップに躍り出ました。
技術レポートを読むと単に動画生成するだけではなく動いている実世界をAIに教えることができると述べています。

Ginie

2024年2月に論文発表されたGoogleの世界基盤モデルです。2次元のゲーム動画を教師無しで学習させ、ゲームアクションを学習することができました。モデルはTransformerを改良したST-Transformerを使っています。時空間Transformerという意味です。2つの動画フレームの間で有限個のゲームアクションを学習することができます。これにより画像にゲームアクションをしたときの動画を生成することが可能です。モデルはスケーラブル、すなわちパラメータを増やすことでより高性能の動画を作り出すことが可能です。論文では110億個のパラメータをつかっています。
動画から時空間トークナイザーでトークンを作り、アクションモデルとダイナミクスモデルを学習しています。ダイナミクスモデルとは世界がどのように動くのかのモデルです。

基盤世界モデル

2023年3月にOpenAIのチーフサイエンティストのIllya Stukeverは圧縮で知識を作り出すことができると述べていました。
には人の理解できない奥深さがあると述べています。
そもそも大規模言語モデルのすごいところは学習しなかった知識がでてくることです。大規模言語モデルは世界を理解する知識を圧縮したものです。
SoraやGinieが出てくるまでは、動画生成AIなんてしょせんめくらまし、大規模言語モデルが本質、と思っていました。Ginieの論文は目からうろこでした。動画であっても世界理解はできるようです。
文章だろうが動画だろうが大量のデータを意味のある学習が可能なトークンという単位に分解し、そのトークンを大量に学習させることに意味があるようです。トークンのレベルではもとの情報がなんだったかは意味がないようです。
数学でも物理学でも医学でもこの基本になるトークンを作る方法とそれを学習する方法がわかれば、どんな学問も生成AIが作り出してくれるということが重要に思われます。
ChatGPTに基盤世界モデルと世界基盤モデルはどちらが正しいの？と聞いたら基盤世界モデルがいいだろうというので基盤世界モデルにしてみました。

動画生成AIへの制限

Transformerが発明され大規模言語モデルは大きく進化しました。どうやら時空間Transformerで教師無し動画生成AIも大きく進歩しそうです。すでに進歩しているのかもしれません。
逆に動画生成AIの技術は進歩しているのに、フェイク動画に使われるリスクが大きいのでリリースできないという可能性が強いです。
米大統領選挙の影響があまりに大きいので、米国企業は動画生成AIに関するリリースは2024年11月まで自主規制しそうな雰囲気です。

おわりに

研究レベルでは大規模言語モデルは基盤世界モデルへと進化しているようです。動画を学習する手法も整ってきて、あとはメモリとGPUをぶちこめば何でもできるようになりそうです。
動画生成AIなんてできても企業の生産活動の中で動画生成の占める部分なんて0.1%もないので関係ないと思っていました。基盤世界モデルとなると話は別です。
いよいよ、生成AIをどう作るかではなく、どう使うかが重要になると思います。

参考文献

Genie: Generative Interactive Environments https://arxiv.org/abs/2402.15391 2024年
OpenAI: Creating video from text https://openai.com/sora 2024年
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought　https://arxiv.org/abs/2306.12672 2023年
Wes Roth: Google's Genie SHOCKS the Industry | AI Creates Unlimited Playable Games | Foundation World Model.　https://www.youtube.com/watch?v=V1XPTYUe90I 28m43s 2024年
mikimiki webスクール: Google Introducing GENIE - First Ever 【超速報】Google最新生成AIモデル「Genie」発表！AIの主戦場はGPTからAIエージェントへ！？徹底レビュー https://www.youtube.com/watch?v=8fPZ4iz0MVM 14m34s 2024年
mikimiki webスクール:【超速報】Googleが最新・動画生成AI「Lumiere」を発表！実力を徹底レビュー　https://www.youtube.com/watch?v=ZZcliDi_3rQ 17m58s 2024年\
Fireside Chat: With Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future (March 2023) 2023年　52m59s https://www.youtube.com/watch?v=XjSUJUL9ADw (この動画はもう見られないようです。こちらへどうぞ　Fireside Chat with Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future
https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52092/?ncid=so-yout-561702）

この記事が気に入ったらサポートをしてみませんか？