LCM:AIの究極の進化?大規模概念モデル
9,821 文字
こんにちは。もう古い大規模言語モデルは忘れましょう。今日は新しいものがあります。大規模概念モデルです。
全ては Metaから始まりました。Metaには問題がありました。ソーシャルメディアプラットフォームに200以上の言語があり、人間のオペレーターや翻訳者のコストをどうやって削減するか、新しい市場への成長をどうスケールさせるか、利益をどう増やすかという課題でした。
単純な解決策は、コミュニケーションから言語を抽象化することでした。メッセージの概念、メッセージの内容、そしてメッセージがエンコードされている言語(英語、フランス語、スペイン語、イタリア語、ポルトガル語など好きな言語)があります。解決策は人間の言語を抽象化し、人間の特定のメッセージの内容を数学的な概念として扱うことでした。
古い方法では、大規模言語モデルが次のトークンを予測していました。トークンは単語かもしれませんし、いくつかの文字かもしれません。特定の確率で自己回帰的な方法論でした。新しいアイデアは、メッセージの内容の概念で作業することです。
これは素晴らしいアイデアです。なぜならMetaにとってとても単純化できるからです。Metaは人間が単語や文字を超えて、複数の抽象化レベルで情報を分析し、ソーシャルメディアプラットフォームに投稿できるクリエイティブなコンテンツを生成すると言います。そのためLCMは、それ自体が美しい明示的な高次の意味表現で動作する新しいアーキテクチャとなっています。
先週私のビデオでお見せしたように、文脈学習を単なる少数ショット例だけでなく、プロンプトで与えられた単純な例から、プロンプトで提供する高次の認知推論複合体に移行できることを既に経験しています。これにより、LLMは隠れたパターンを見つける必要がなく、解決策を見つけるための推論をすでに提供していることになります。
Metaも多かれ少なかれ同じことをしています。Metaは概念を抽象的な原子的アイデアとして定義し、実際には概念はテキスト文書の1つの人間の文に対応することが多いと述べています。そしてMetaは、推論アーキテクチャに最適化された新しい埋め込み空間を訓練することを目指すと述べています。
彼らは両方とも多かれ少なかれ同じ方向に向かっています。共通の基盤を見つけようとしているのです。Metaは既存の自由に利用可能な文レベルのメカニズムであるSonarを選択したと述べています。
2023年のINRIAによる美しい出版物「Sonar:文レベルのマルチモーダルおよび言語に依存しない表現」を覚えていれば、その時点でMetaが200の言語をどのように扱うかに取り組んでいて、何年も研究を続けていることがわかります。そのSonar技術は、完全なTransformerとエンコーダーデコーダー(単なる自己回帰アーキテクチャではない)に依存し、事前学習された機械翻訳モデルの重み構造で初期化されています。
MetaがSonarを訓練するために使用するアーキテクチャは、並列テキストデータを通して、文全体を表現する単一のベクトルボトルネックを使用し、他のモデルのようなトークンレベルのクロスアテンションを使用しません。何年も前からの主なアイデアは、これを持ち、内容の完全な概念を単一のベクトルで、特定のベクトル空間で表現することでした。
GitHubを確認したい場合は、数日前に素晴らしいアップデートがありましたが、ライセンスが不明でMITライセンスが見つかったと記載されているので注意が必要です。行動に使用できるかどうかわからないので、この制限に注意してほしいと思います。
Metaは現在、この新しい方法論で各文がSonarでエンコードされ、文の埋め込みを達成すると述べています。文の埋め込みは特別なものではありませんが、これが推論の原子的項目であることを考えると、このベクトル空間で概念のシーケンス、文のシーケンスを構築でき、LCMはLLMを訓練するように訓練できます。
これは知識を獲得できることを意味しますが、考えてみてください。10の言語があり、各言語で少しずつ知識がある場合、英語で少し、フランス語で少し、ドイツ語で少しと追加していくと、このシステムは異なる言語やモダリティ(話し言葉やテキストなど)から学習し、抽象化に集約されます。100の言語を持つプラットフォームがある場合、どの言語が入力されても知識は数学的空間にエンコードされます。
Metaは、長いコンテキストや長形式の出力を扱う場合、Berkeleyがリングアテンションで、Googleが200万トークンのコンテキスト長に使用していることを示しました。Metaは、Transformerがトークンのシーケンス長で二次的に複雑さが増加する問題があると述べています。
MetaはLCMが通常の言語を使用する場合よりも少なくとも1桁短いシーケンスで動作すると述べています。そうなのです。エンコーディングシーケンスの長さを減らすことで最適化を行っているのです。
私の普通の文を見てみましょう:「彼女は広がる星のキャノピーの下に立ち、その心は天体力学の計り知れない優雅さに漂い、銀河系のスワールダウンは暗黒物質密度を計算し、見えない力の静かな池は暗黒エネルギーを再計算していた。優しい触れ合いが彼女の肩に触れ、彼女を思考の深みから引き出し、友人の馴染みのある顔を見る静かな希望へと向かわせた。彼女の心は宇宙の広大さと人間のつながりの親密さの間で揺れていた」
しかしMetaの制限では、システムが機能するために文は10トークン、最大20トークンです。そこで私は「彼女は星を見つめ、それらが秘めている謎を夢見た」と変換しました。意味的な豊かさ、意味的な内容が今や少し問題を引き起こすかもしれませんが、Metaはソーシャルメディアプラットフォームのコミュニケーション向けに動作していて、FacebookやWhatsAppなどで10トークンの文は通常のシーケンス長だと理解できます。
しかしMetaは、大規模なテキストコーパスを扱う場合にいくつかの実践的な制限があることを認めています。まず、10または20トークンより長い文に遭遇した場合、堅牢な自動テキスト分割技術を見つける必要があります。第二に、内容が本当に長く複雑な場合、これはSonarアーキテクチャを使用してエンコードされた埋め込みの品質に悪影響を与える可能性があります。
これは特に科学分野のテキストに当てはまります。科学分野で何かを伝えたい場合、実験の各事実の説明に深い意味的内容を持つ長い文を含む、むしろ長い技術的な要約が必要だからです。明らかにシステムの制限が見えてきます。
そして彼らには素晴らしいアイデアがあり、私はこれに魅了されました。彼らは拡散Transformerと古典的なTransformerという2つの完全に新しいアーキテクチャを組み合わせ、拡散ベースの大規模コンテキストモデルを形成すると言います。
原論文を読むと本当に素晴らしいのですが、このビデオでは単純化して説明したいと思います。潜在拡散モデル、安定拡散モデル、オリジナルのオートエンコーダー、UnitとCLIPにまったく馴染みがない方向けに、非常に短いまとめをします。
最初に、この新しい数学的な埋め込み空間(Sonar空間と呼ばれる)での文の表現があり、非常に短い文の単純な埋め込みを計算します。例えば、特定の文の20次元ベクトル表現があるとします。文変換、S-BERTシステム、BERTシステムについて話したとき、サブ空間を構築できると言いました。
例えば、単純な文の場合、主語の意味論は次元1から3まで、動詞と行動は20次元ベクトルの次元4から6まで、7から9までは目的語、そして文法や文脈依存性があります。これを構築でき、1000次元または2000次元、10000次元の数学的空間があると想像してください。
このように概念をエンコードできますが、どれだけの異なるデータをエンコードできるかには論理的な数学的制限があります。そのため、Sonar埋め込み空間の構築方法が重要で、数学的に最適化された方法で行う必要があります。
しかしそれを持っていれば、拡散プロセスがあります。これは重要です。埋め込みの改良があります。もはや意味的な構造ではなく、数学的なベクトルを持っています。これは古典的な拡散プロセスです。特定のタイプのノイズを追加するフォワードプロセス、デノイジングを行うリバースプロセス、そして拡散の出力があり、新しく生成された文を表現するクリーンな埋め込みがあります。古典的な方法で、これには特別なものはありません。
しかしTransformerを導入することに注目してください。私はMetaがTransformerアーキテクチャを除去したいと思うかもしれないと考えました。なぜならそれはGoogleによって特許化されているからです。しかし彼らはTransformerをアーキテクチャに大規模に統合しました。
私はTransformerがこのLCMにも中心的であると考えています。なぜならそれは文脈エンコーディングプロセスと拡散プロセス自体の両方をサポートするからです。Sonarを見ると、Transformerが事前文脈を条件付けベクトルにエンコードし、このベクトルがデノイジングプロセスとノイズ予測プロセスを導きます。
各拡散ステップの特定の時間Tで、Transformerがノイズの多い埋め込みからεθを予測し、デノイジングプロセスを可能にします。マルチシーケンスタスクとマルチセンテンスタスクでは、文の埋め込みの階層的処理でTransformerがあり、文間の関係を捉え、テキスト全体で一貫したコンテンツを構築します。
テキストが内容の原子的なものだけの場合、これは簡単なタスクではありません。Transformerは時々美しい幻覚を見ることができ、これが今や拡散と織り交ぜられています。そのため、この方法論には課題があると思います。
そして単純な出力があります。きれいな埋め込みは今や特定の文を表現し、下流の推論タスクがあります。この新しいLCMにおける拡散とTransformerアーキテクチャの重要な役割を見たい場合、これは非常に短いまとめです。
彼らはさらなる最適化ステップとして、1タワーまたは2タワーのいずれかを実験しました。数学を忘れずに単純に説明すると、1タワーアーキテクチャはより単純で効率的で、扱いたいコンテキストや複雑さが低い場合に使用します。
科学的なテキストのようなより複雑なコンテンツがある場合、2タワーアーキテクチャを推奨します。文脈エンコーディングとノイズ予測を分離し、文脈エンコーディング用と別のノイズ予測用に独自のタワーアーキテクチャを構築します。これによりLCMフレームワークでの拡散ベースの推論を改善します。
もう一度説明すると、1タワーとは両方のタスクに単一のTransformer、2タワーとは文脈エンコーディング用と1つのTransformer、デノイジング用に1つのTransformerを使用し、より専門化された専門家システムを分離することです。
タスクが組み合わさっている場合、推論の問題を引き起こす可能性があります。タスクが絡み合っている場合、可能であれば専門化が行われることを許容します。パフォーマンスは、より単純な複雑なタスク、より堅牢ではない複雑なタスクの場合、1タワー構造を使用します。科学や数学、論理的推論に入る場合は2タワー構造を推奨します。
はい、より単純で、メモリが少なく、より安価です。2タワーアーキテクチャの場合は、計算コストとメモリコストが高くなります。しかし、拡散プロセスをもう少し詳しく見てみましょう。彼らはこのアイデアについて本当に美しい説明をしており、Metaのオリジナルのドキュメントを読むことを本当にお勧めします。
簡単なまとめとして、なぜこの拡散プロセスなのか、なぜこれに焦点を当てているのか、そしてなぜTransformerアーキテクチャへの道がこれだと考えているのかについて説明します。
拡散プロセスは、文の埋め込みのノイズの多い表現を、きれいで意味のある表現に徐々に改良することを担当します。文の意味についての大まかなアイデアから始まり、ベクトルで表現されます。ベクトルにはノイズが多く、複数の異なるタイプのノイズ分布があります。これについては後で見ていきます。
私たちのタスクは、このノイズの多いベクトルを徐々にきれいにし、より明確にし、本当に1つの特定のベクトルに収束させることです。この改良の各ステップで、拡散プロセスは今やTransformerに、意図された意味やタスクに埋め込みをより適合させるために、どの部分のノイズを除去すべきかを判断するよう求めます。
この相互作用は、アーキテクチャのもう1つの重要な部分ですが、反復的に行われます。UnitとDiffusionプロセスと全てを覚えていれば、これは現在のノイズ埋め込みを提供し、Transformerはステップバイステップでそれをどのようにクリーンにするかを予測します。
拡散プロセスはこの修正を適用し、更新された埋め込みを次のステップのTransformerに戻します。この往復は、埋め込みが完全に改良され、明確な文の埋め込みを表現するまで続きます。
クリーンな埋め込みが準備できると、人間のテキストにデコードして推論タスクで使用できます。この拡散プロセスは文の埋め込みの段階的な改良を扱い、一方Transformerは各ステップでノイズをクリーンアップするために必要な知識と文脈を提供します。
これで理解できると思います。Transformerだけで問題があった場合、今やそれをこのLCMアーキテクチャに持ち込んでいます。LLMsで問題があった場所では、LCMsでも問題があります。なぜならTransformerが今やノイズの多いベクトル表現をクリーンアップするこのエレガントな解決策にどれだけ影響を与えるかという点で不可欠な部分となっているからです。
これは昨日公開されたばかりで、実際のテキストを実行する時間がありませんでした。私は自問自答しています。なぜこのノイズなのか、これは何をもたらすのか。
現実世界のシナリオでは、LCMモデルは不完全な文、奇妙に聞こえる文、ノイズの多い入力などに遭遇する可能性があり、Metaのアイデアは、この拡散トレーニングプロセスがLCMにそのような不完全なデータを理解し、一貫した論理的に構造化された美しい出力を生成する能力を与えるというものです。
このフレームワークは確率的な要素を導入し、モデルがノイズがある可能性のある特定のベクトル表現の複数の潜在的な意味や改良を探索することを可能にし、それによって堅牢性と柔軟性を追加しますが、分類問題に縮小することにもなります。慎重に扱う必要がある微妙なバランスです。
ノイズは、モデルが埋め込みを効果的に改良し、実際の例で遭遇する不確実性を扱うことを学習するために、トレーニング中に意図的に追加されます。推論実行中は素晴らしいです。
デノイジングの行為は、画像で知られているノイズを修正するだけでなく、システムが特定の間隔、特定の制限内でベクトル表現、埋め込みベクトルをクリーンアップする方法を理解させます。これは推論プロセスのロバスト性に特に重要です。
しかし、これらのベクトルはプロセス全体にとって重要です。なぜならベクトルは、モデルが推論、比較、新しいクリーンなベクトル表現の生成に使用する中核的な表現だからです。このレベルでのデノイジングは、モデルがノイズや曖昧な入力を扱いながら、本質的な意味を保持できることを保証します。これは素晴らしく、人間が読める文にデコードバックできます。
私たちは数学的なベクトル埋め込みの空間でのみデノイジングアルゴリズムを操作し、モデルがこの不確実性を扱うことを学習することを保証します。
大規模概念モデルLCMをもう少し詳しく見てみましょう。文は今や内容の概念の完璧な代表であり、エンコードされ、LCMのトレーニングデータに基づいて構成された数学的空間にさらにエンコードされます。
対応するSonar埋め込み空間を持つベクトル空間とベクトルサブ空間を構築し、BERTやRoBERTaなどの事前トレーニングされたTransformerベースのエンコーダーや、私の専門家モデル、文SPTモデルなどの文レベルエンコーダーを扱います。
論文で言及されたSonar埋め込み空間は、複数の言語で動作するように特別に事前トレーニングされています。多言語入力用に微調整されたTransformerベースのアーキテクチャを使用しています。
しかし、事前トレーニングに使用されたデータセットを具体的に見ると、それらはかなり短い文です。これはMetaのソーシャルメディアプラットフォームには完璧に機能します。トレーニングデータセットの短い文、実世界の例のソーシャルメディアプラットフォームでの短い文。
しかし、ソーシャルメディアプラットフォームの外に出て、例えば科学的な文や私の美しい文がある場合、システムは深刻な問題に遭遇する可能性があります。
まとめると、LCMの方法論は本当に素晴らしく、美しいアイデアです。Transformerベースのエンコーダーは、内容の概念のみを表す文を、事前トレーニングコンテンツに基づいて構築されるベクトル空間の新しい数学的ベクトルにマッピングし、これをSonar埋め込み空間と呼びます。
もちろん、各文に対して単一の埋め込みベクトルを生成するTransformerの集約による組織的な文脈エンコーディングがあります。もう一度言いますが、文は内容の概念であり、今や高次元の単一のベクトルです。
そして希望は、この高次元ベクトル空間で、マルチホップ推論に到達するためにこれらのベクトルで何らかのベクトル演算ができるかもしれないということです。まだそれは見えていませんが、これは最初の日に見ただけだと言っておきます。
Transformerは、埋め込みが文の豊かなニュアンスの意味を捉えることを保証する上で重要であり、それを推論、マルチモーダル統合、言語間の一般化などのタスクに適したものにしています。
これが機能し、短い文だけでなく一般的に機能する場合、世界のすべての文がその意味の核心に抽象化され、その文の意味の核心を1000以上の他の文に翻訳できることになります。構文、文法などに関する大きな問題がありますが、文の核心的なアイデアは何か、それを数学的な埋め込み空間にマッピングできれば、私のマトリックス乗算、AIシステムでその空間を操作できることを理解します。
簡単なまとめです。文Transformer、BERTシステム、S-BERTシステムについてもっと学びたい場合は、40本のビデオのプレイリストがあります。S-BERTについては現在60本のビデオがありますが、このプレイリストには最初の40本のみが含まれています。
制限について明確にしましょう。これは最初のアイデアで、素晴らしく美しいですが、まだそこには到達していません。Sonar空間での文は、連続的なベクトルとして表現されているにもかかわらず、離散的な組み合わせ的オブジェクトのままです。
これが問題です。なぜなら、元の拡散プロセスでは離散空間ではなかったからです。これにより、このテキストモダリティでの拡散モデリングは苦労します。
我々のエキスパートモデルで構築された埋め込み空間の選択とデザインは、LCMモデリングアプローチで重要な役割を果たします。空間が最適に構築されていない場合、拡散を適用しても、非拡散を適用しても、システムは失敗します。
このSonarモデルは、非常に特定のトレーニングデータ、つまり比較的短い文を含む機械翻訳データでトレーニングされました。推論も複雑なトピックも、機械翻訳データのみです。
この数学的空間を基本空間として使用するには、次のステップの進化でより良いものを作る必要があり、より広い範囲のトレーニングデータ、数学的データ、物理的データ、通常のデータ、通常の長さのデータなどを持つ必要があると思います。
彼らは最初に16億または17億の事前トレーニング可能なパラメータモデルで実験し、それを7Bモデルにスケールしようとしましたが、いつものようにこれに関連する多くの問題があります。データ、データ品質が非常に重要です。
Sonarがトレーニングされた機械翻訳データだけでなく、異なるデータコンテキストや、存在しなかった異なる言語がある場合、問題が発生します。LCMモデリングへの強い事前の接続がないと、このエンコーダーは控えめに言っても最適ではないかもしれません。
データの関連性、データ品質、データの一貫性、データの複雑さ、Transformerで持っているすべてのことが、すぐに見つかり、おそらくさらに多くのことが見つかります。なぜなら今、拡散プロセスの離散的な組み合わせ空間との一貫性も見つける必要があるからです。
はい、Facebook Researchに大規模概念モデルがあります。これはMetaのオリジナルのドキュメントには見つからないものです。すべてが11時間前に更新されています。コードがあり、興味深いことにMITライセンスがあるので、これで自由に遊べます。
例えば、このウィークエンドのタスクになるでしょう。興味がある場合は、これがレポジトリです。これは2024年12月12日のMetaによる研究です。美しい新しいアイデアで、本当に複雑で、読むと50ページ近くあり、かなり数学的な重い内容ですが、私のビデオで一般的なアイデアを伝え、ドアを開いて、正確に何が起こっているのか、制限は何か、何が素晴らしいのか、モデルがどのように機能するのかを理解してもらえればと思います。
実装の詳細についてもっと知りたい場合は、この論文かGitHubの実装を見てください。
最後の例として、どのような複雑さを扱っているのかを示すために、Metaのオリジナルの論文からの例を見てみましょう。これはトピックの説明を生成するためのシステムプロンプト、オリジナルのシステムプロンプトです。10トークンと短いことを覚えておいてください。
彼らは「トピック説明ジェネレーター」と言い、文脈学習の1、2の例と1つの短い例があります。そして、「ある日、街のある地区が完全に荒廃していました。ガラスの窓は砕け散り、店は荒らされ、多くの民間人がスーパーマンは即座に古い敵の一人のサインを認識し、過去に彼を打ち負かしており、それは彼へのメッセージでした。私はあなたに挑戦します、来て私を見つけてください」のような長い例があります。
システムプロンプトの最良の例として提供しているのは「スーパーマンの古い敵のウォーラーが現れ、彼に挑戦した」という良いトピック説明の例です。
このような面白い文では機能するかもしれませんが、内容を抽出し、それを内容の概念にさらに測定することは簡単なタスクです。しかし、理論物理学や生化学、金融取引、それらのトピックでの依存関係について考えると、このような非常に短い文では破綻する可能性があります。
しかし、最初に話したように、Metaには特定の問題があり、特定のツールを開発しました。常に特定の問題に対して特定のツールを開発します。ソーシャルメディアプラットフォームでの非常に短いコミュニケーションパターンにはこれが機能するかもしれませんが、これを通常の大規模言語モデルアプリケーションに適用しようとする場合は、制限に注意してください。
アイデアは絶対に魅力的で、私は今後このアプローチについてさらに開発し、もっと読むことを楽しみにしています。興味がある場合は、登録して、次のビデオでお会いしましょう。