見出し画像

GPT-4V、GeminiProを超えたLWM(LargeWorldModel)とは?

はじめに

みなさん、こんにちは!

今日は、AIの世界がどのように進化しているかについて、わくわくするようなお話をしましょう。

話題が尽きないLLM界隈ですが、LLMの次なるキーワードが出てきました。

その名も「LWM(LargeWorldModel)」です。

LLMがLargeLanguageModelでしたが、今度はLargeWorldModelです。

違いは「Language」が「World」になっています。

言語モデルではなく、この世界がモデルということですね。

みなさんがよく知る大規模言語モデル(LLM)から始まり、今「大規模世界モデル(LWM)」という、革新的な新しい領域へと進んでいます。

これは、AIの未来にとって大きなパラダイムシフトとなるかもしれません!

私たちは、これまでの言語情報に基づくモデルから、画像、音声、そして最終的には私たちの物理的な世界とデジタルの体験を融合させる、全く新しいタイプのAIへと進む道のりをたどります。

LWMとは?

Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.


日本語訳

現在の言語モデルは、言葉で簡単に説明できない世界の側面を理解するのに不十分であり、複雑で長い形式のタスクに苦労しています。ビデオ シーケンスは、言語や静止画像には存在しない貴重な時間情報を提供するため、言語との共同モデリングにとって魅力的です。このようなモデルは、人間のテキスト知識と物理世界の両方の理解を深め、人間を支援するためのより広範な AI 機能を可能にする可能性があります。ただし、何百万ものビデオおよび言語シーケンスのトークンから学習するには、メモリの制約、計算の複雑さ、データセットの制限により課題が生じます。これらの課題に対処するために、私たちはさまざまなビデオや書籍の大規模なデータセットを厳選し、RingAttendant テクニックを利用して長いシーケンスでスケーラブルにトレーニングし、コンテキスト サイズを 4K から 1M トークンまで段階的に増加させます。この論文は以下の貢献をします: (a) 最大のコンテキスト サイズのニューラル ネットワーク: 長いビデオと言語シーケンスで最大のコンテキスト サイズのトランスフォーマーの 1 つをトレーニングし、困難な検索タスクと長いビデオの理解における新しいベンチマークを設定します。(b) 視覚と言語のトレーニングの課題を克服するためのソリューション。これには、異なるシーケンス長を混合するためのマスクされたシーケンス パッキング、言語と視覚のバランスをとるための損失重み付け、長いシーケンス チャット用のモデル生成された QA データセットの使用が含まれます。(c) リングアテンション、マスクされたシーケンス パッキング、および数百万長のマルチモーダル シーケンスのトレーニング用のその他の重要な機能を備えた高度に最適化された実装。(d) 100 万トークンを超える長いテキスト ドキュメント (LWM-Text、LWM-Text-Chat) およびビデオ (LWM、LWM-Chat) を処理できる 7B パラメーター モデル ファミリを完全にオープンソース化します。この研究は、人間の知識とマルチモーダルな世界の両方についての理解を開発し、より幅広い能力を開発するための、長いビデオと言語の膨大なデータセットでのトレーニングへの道を開きます。

つまり言語では限界があるので、動画も含めて学習しているようです。

マルチモーダルであればGPT-4Vでも実現できていますが、このLWMは長時間のYoutube動画でも正確に答えることができます。



LWM は 1M コンテキスト ウィンドウ全体で高い精度を実現し、GPT-4V や Gemini Pro を上回るパフォーマンスを発揮します




LWM は、コンテキスト ウィンドウ内のさまざまなコンテキスト サイズと位置に対して高い精度を実現します。




RingAttendance を使用すると、ビデオ テキスト、テキスト ビデオ、イメージ テキスト、テキスト イメージ、純粋なビデオ、純粋な画像、純粋なテキストなど、さまざまな形式にわたるトレーニングに非常に大きなコンテキスト ウィンドウを使用できます。効果的なビデオ言語トレーニングを可能にする、マスクされたシーケンスのパッキングや損失重み付けなどの主要な機能については、LWM の論文を参照してください。



RingAttendant を使用して書籍のコンテキスト サイズを 4K から 1M に拡張し、その後、長さ 32K から 1M のさまざまな形式のビジュアル コンテンツに関する視覚言語トレーニングを行います。下のパネルは、複雑なマルチモーダルな世界に関するクエリを理解し、応答するための対話型機能を示しています。



LWM は、テキスト プロンプトに基づいて自己回帰的に画像を生成します。



LWM は、テキスト プロンプトに基づいて自己回帰的にビデオを生成します。


LWMは動画を生成することも可能です。
テキスト-To-動画はいろんなサービスがありますが、LWMのモデル単体で実現できます。

LWM は画像に関する質問に答えることができます。

このあたりはGPT-4Vでも同じようなことはできますので、あまり新しい話ではなさそうです。



LWM は、最先端の商用モデル GPT-4V と Gemini Pro が両方とも失敗した場合でも、1 時間の YouTube ビデオに関する質問に答えます。各例に関連するクリップは、タイムスタンプ 9:56 (上) と 6:49 (下) にあります。

このあたりがLWMの特徴でGPT-4V、Gemini Proより良い精度で回答が得られています。


現状のLLM

GPT-3 や GPT-4 などの LLM は、革命をもたらしました。

膨大な量のテキスト データを処理することで、これらのモデルは人間のようなテキストを理解して生成することができたのです。

しかし、学習が言語であるため、世界の理解をテキストからの情報だけになります。

次のフェーズではマルチモーダル入力によりAIは画像や音声も理解できるようになり、人間のやりとりをさらに理解できるようになりました。


そしてLLMからLWM(大規模世界モデル)へ

LWM は、言語情報、音声、画像を超えて、私たちの物理的現実とデジタル現実の全領域を含む、AI の未来を示しています。

つまり、マルチモーダルのように言語情報、音声、画像だけでなく、物理世界をデジタルで理解できるようになり、対話できるようになります。

LWM は、IoT デバイス、センサー、カメラなどのさまざまなソースからの実世界データを処理し、人間の知覚や認識を反映する方法で世界を理解し、対話します。

大規模な世界モデル(LWM)の力で、デジタルとリアルの境界線がぼやけ始めています。

想像してみてください、VR(仮想現実)やAR(拡張現実)デバイスからのデータが、私たちの日常にどんどん溶け込んでいく世界を。
スマートフォンやテレビ、PCモニターといったお馴染みの画面を超えて、私たちは今、よりリアルで没入感あふれる体験の時代に突入しています。

この素晴らしい変化は、ただ楽しいだけではありません。
実は、これによってAIが私たちの行動や環境を、以前にも増して深く理解できるようになります。
つまり、私たちが生活する世界が、AIにとってより読みやすく、感じやすい「本」となるわけです。
これは、ユーザー体験の向上はもちろん、私たちとテクノロジーの関係をより豊かで意味のあるものにしてくれるでしょう。


まとめ

まだまだ論文レベルのようで、LWMというキーワードの実装や事例は見当たらないですが、マルチモーダル化は自然な流れなので、気が付けばLLMからLWMに呼び方が変わっているかもしれないですね。

ただ、この世界の概念を丸ごと学習して、よりAIが現実世界を理解できるようになる動きはLWMに限らず進化していくと思いますので、これからが楽しみです。

今回、文章の書き方はChatGPTに手伝ってもらいました。

いつも文章が単調になってしまうのですが、いつもの文章をChatGPTが少し書き換えるだけで魅力的な文章になるので面白いですね。

自分は文章苦手なので今後も手伝ってもらおうと思います。

参考


この記事が気に入ったらサポートをしてみませんか?