見出し画像

Ginie論文を読んで感じたトークナイザの底力


はじめに

2024年2月にGoogle DeepMindがGinie論文を出しました。OpenAI のSoraが出たあとでもあり、動画生成AIを勉強する必要を感じました。動画生成AIはよく知らなかったので論文を読んでみました。
今回はGinieの仕組み全体というより、トークナイザの能力を再認識したという部分をお話しします。

Ginie論文

20万時間のゲーム動画を教師無し学習で学習し、ゲームのアクションを予測して動画を生成するという論文です。
Transformerモデルは優秀です。この論文でも時間的なアテンションと空間的なアテンションを使う時空間Transformerモデルが使われています。単語列でアテンションが使えるなら時間と空間のほうが単語列よりも連続性が強くでるので学習しやすいようです。
規模の評価も行って110億パラメータのモデルを構成しています。

Ginieモデルのトレーニング
  • Tフレームの動画から動画トークナイザとアクション潜在空間を学習

  • 動画トークン列と潜在空間のアクション列をダイナミクスモデルに入力

  • ダイナミクスモデルがTフレームの動画を生成

トークナイザの底力

単に画像や動画を生成するだけなら、創発的に論理的思考ができるわけではないから関係ないと思っていましたが、間違いだったようです。
画像のトークナイザとアクションモデル、ダイナミクスモデルは個別に学習しているようです。
トークナイザはトークン化したあと、そこに含まれた意味から出力すべきフォーマットのデータを作り出せれば何でもいいようです。
よいトークナイザを作ることが潜在空間で学習をする効率をあげるだけでなく、潜在空間の中に適切に問題を解くための意味を閉じ込めることに重要な役割を果たしていると感じました。
トークナイザは110億パラメータのうちの2億パラメータですが、重要な部分を占めています。

科学の革命の可能性

NVIDIAのJensen Huangが去年のGTC 2013で物理でも化学でも生物でも生成AIで解けるというようなことを言っていたと聞いていました。言い過ぎではないかと思っていましたが、そうでもないようです。
いかなる問題解決であっても、その問題を解けるような適切なトークナイザーを定義すれば、あとはそのトークンについて計算資源の許す限り学習を繰り返せば、どんな問題も解けるような気がします。
数学でも物理学でも医学でもなんでも適用できるような気がします。具体的なトークナイザをどうするかは思いつかないので単なる印象です。
Ginieは動画の背後に世界基盤モデルがあると述べています。動画を生成できるということの前提に深い世界理解があるということです。
それと同じことが他の学術分野にも適用できる可能性を感じる論文でした。

おわりに

モダリティいじるだけならたいしたことないと思っていましたが、間違っていました。どんなデータについても適切なトークナイザを学習し、そのトークナイザが生む潜在空間で学習をすれば解けるようです。
世界の本質を圧縮によって作り出すのが大規模基盤モデルです。世界を理解するのはテキストの圧縮だけではないようです。動画でも世界モデルを作ることができます。その一例がGinieの基盤世界モデルです。
GinieだけでなくOpenAIのSoraも世界モデルを作っているようです。Soraの技術情報は基盤世界モデルとは言っていませんが、世界を理解するための基盤になると記述しています。
人類はどこまで進歩するのでしょうか。近未来が楽しみです。

参考文献


この記事が気に入ったらサポートをしてみませんか?