Ginie論文を読んで感じたトークナイザの底力
はじめに
2024年2月にGoogle DeepMindがGinie論文を出しました。OpenAI のSoraが出たあとでもあり、動画生成AIを勉強する必要を感じました。動画生成AIはよく知らなかったので論文を読んでみました。
今回はGinieの仕組み全体というより、トークナイザの能力を再認識したという部分をお話しします。
Ginie論文
20万時間のゲーム動画を教師無し学習で学習し、ゲームのアクションを予測して動画を生成するという論文です。
Transformerモデルは優秀です。この論文でも時間的なアテンションと空間的なアテンションを使う時空間Transformerモデルが使われています。単語列でアテンションが使えるなら時間と空間のほうが単語列よりも連続性が強くでるので学習しやすいようです。
規模の評価も行って110億パラメータのモデルを構成しています。
Tフレームの動画から動画トークナイザとアクション潜在空間を学習
動画トークン列と潜在空間のアクション列をダイナミクスモデルに入力
ダイナミクスモデルがTフレームの動画を生成
トークナイザの底力
単に画像や動画を生成するだけなら、創発的に論理的思考ができるわけではないから関係ないと思っていましたが、間違いだったようです。
画像のトークナイザとアクションモデル、ダイナミクスモデルは個別に学習しているようです。
トークナイザはトークン化したあと、そこに含まれた意味から出力すべきフォーマットのデータを作り出せれば何でもいいようです。
よいトークナイザを作ることが潜在空間で学習をする効率をあげるだけでなく、潜在空間の中に適切に問題を解くための意味を閉じ込めることに重要な役割を果たしていると感じました。
トークナイザは110億パラメータのうちの2億パラメータですが、重要な部分を占めています。
科学の革命の可能性
NVIDIAのJensen Huangが去年のGTC 2013で物理でも化学でも生物でも生成AIで解けるというようなことを言っていたと聞いていました。言い過ぎではないかと思っていましたが、そうでもないようです。
いかなる問題解決であっても、その問題を解けるような適切なトークナイザーを定義すれば、あとはそのトークンについて計算資源の許す限り学習を繰り返せば、どんな問題も解けるような気がします。
数学でも物理学でも医学でもなんでも適用できるような気がします。具体的なトークナイザをどうするかは思いつかないので単なる印象です。
Ginieは動画の背後に世界基盤モデルがあると述べています。動画を生成できるということの前提に深い世界理解があるということです。
それと同じことが他の学術分野にも適用できる可能性を感じる論文でした。
おわりに
モダリティいじるだけならたいしたことないと思っていましたが、間違っていました。どんなデータについても適切なトークナイザを学習し、そのトークナイザが生む潜在空間で学習をすれば解けるようです。
世界の本質を圧縮によって作り出すのが大規模基盤モデルです。世界を理解するのはテキストの圧縮だけではないようです。動画でも世界モデルを作ることができます。その一例がGinieの基盤世界モデルです。
GinieだけでなくOpenAIのSoraも世界モデルを作っているようです。Soraの技術情報は基盤世界モデルとは言っていませんが、世界を理解するための基盤になると記述しています。
人類はどこまで進歩するのでしょうか。近未来が楽しみです。
参考文献
Genie: Generative Interactive Environments https://arxiv.org/abs/2402.15391 2024年
【Genie】Googleが公開した仮想世界を作り出す「世界創造モデル」の仕組みを徹底解剖 https://weel.co.jp/media/genie 2024年
Sora https://openai.com/sora 2024年
この記事が気に入ったらサポートをしてみませんか?