MetaのAI主任科学者が信じる自律型AIモデルへの道のり

2024年5月16日 22:23

[拍手] ありがとうございます、ヤン。そして、いらっしゃいませ。神様、本当にありがとうございます。これは私の年のハイライトです。あなたと話す機会を得たことが何とも素晴らしい。今あなたが何を見ているのかわかりませんが、ケンブリッジから世界で最も頭の良い2000人があなたを見ています。そして、あなたの頭脳を探る機会が得られるなんて。彼はステレオで登場していますね、見てください。私は彼らを後ろから見ることができます。そうですね、ヤン、あなたが見たいなら後ろにも顔が見えるようにしましょう。さて、ヤン、今日の会議中にちょうどラマ3が発表されたという驚くべき偶然について話しましょう。まったく信じられないですね。今日発表されたのは、8Bのラマ3、8ビリオンと70Bです。噂では、8Bは以前のラマ270Bと同等の性能を持っていると言われています。桁違いの変化ですね。これが正しいでしょうか？さらに、15兆パラメータで訓練されたと聞きましたが、その15兆のトークンはどこから来たのですか？
さて、まず最初に言っておかなければならないのは、ラマ3について私はほとんど何の功績もないということです。私たちのモデルをオープンソースにすることを確実にしたことに少しだけ功績があるかもしれませんが、技術的な貢献は非常に大きなチームから来ていて、私はそのごく一部です。15兆のトークンですが、つまり、手に入れられるすべてのデータ、高品質の公開データを集め、それを微調整し、ライセンスデータなども含めることで15兆に達します。しかし、それが限界に達しているのです。手に入れられるテキストの量には限りがありますからね。
さて、私はあなたに大きな感謝を伝えなければなりません。あなたが昔、光学文字認識を行っていたとき、私はあなたのCNN論文を読んでいました。彼は畳み込みニューラルネットワークを発明し、それが本当に機能するようになりました。それが私のスタートアップで初めて得た収益の最初のドルでした。あなたの仕事に基づいてニューラルネットワークを使用し、それが私の人生の進路を変えました。そして今、あなたは再びそれを行っています。特に前列にいる若者たちのために、オープンソースのチャンピオンとして、彼らが他では構築できなかったであろう企業を築く機会を基本的に提供しているのです。まずは、そのために大きな感謝の意を表します。[拍手]
次に起こることは、歴史を振り返って人類の転機だったと言えるような出来事になるかもしれません。750Bの巨大ニューラルネットがまもなく登場しますが、それもオープンソースであると想定しています。4または5D、約400百万、約4百万ビリオンビリオンですね。そうですね。密ではなく疎です。興味深いですね。さて、それはまだ訓練中ですが、手に入れたすべてのコンピュータにもかかわらず、まだかなりの時間がかかります。微調整にも時間がかかりますが、今後数か月でそれらのモデルのバリエーションが出てくる予定です。
そう、それについて次に質問しようと思っていました。同時に出てこなかったということは、まだ訓練中であることを意味します。これは非常に大規模な取り組みです。そして、ニュースで見たのですが、Facebookがさらに500,000個のNvidiaチップを購入したということです。これにより、合計で約百万になります。割引を受けなければ、これが30億ドル分のチップに相当し、これはアポロ月探査ミッションの研究開発費を超える規模になりますが、私はそれを正確に理解していますか？驚異的ですね。
はい、多くの問題があります。訓練だけでなく展開も計算能力に制約されています。私たちが直面している問題の一つは、GPUの供給です。もう一つの問題は、それらを大量のGPUで並列化できるように学習アルゴリズムをスケーリングアップすることです。この点での進展は遅いです。コミュニティでも同様です。新しい原理やAIシステムを構築するための全く新しい設計図など、他のブレークスルーも待っています。
あなたが言及したように、この規模の投資を行い、それをオープンソースにするという哲学には歴史的な前例がありません。相当するものは、もしテスラを製造するギガファクトリーを作り、それを社会に与えるようなものです。しかし、オープンソースにすると、それは無限にコピーできるため、ギガファクトリーをオープンソースにするというのは適切なアナロジーではありません。ビジネス史に前例がないのです。これをオープンソースにする論理は何ですか？何を期待していますか？
さて、オープンソースのインフラソフトウェアの考え方は、今日非常に普及しており、Meta、以前のFacebookのDNAの中にあります。長年にわたって多くのオープンソースパッケージがあります。AIの分野でも同様です。ほぼ全員がPCHを使用していますが、一部のGoogleユーザーを除いては。そして、それはオープンソースです。元々Metaで構築され、Metaはその所有権をLinux Foundationに移しました。それにより、よりコミュニティ主導の取り組みとなりました。これは会社のエンドゴールであり、理由はインフラがオープンソースになることでより速く成長し、より多くの人が貢献し、セキュリティが向上するからです。
インターネットインフラソフトウェアに当てはまることは、AIにも当てはまります。また、AIにとって追加の要素として、フィットモデルの訓練が非常に高価であるということがあります。50の異なる組織が各々のモデルを訓練するのは完全なリソースの無駄遣いです。数社だけがオープンにすることでエコシステム全体が発展します。これは90年代にインターネットで起こったことと非常に似ています。90年代半ばにインターネットが普及し始めたとき、ソフトウェアインフラはMicrosoftやSun Microsystemsのようなプロプライエタリプラットフォームによって支配されていました。しかし、彼らは市場から消え、現在はすべてLinux、Apache、MySQL、PHPなどのオープンソースです。ウェブブラウザのコアもオープンソースです。インフラソフトウェアはオープンソースである必要があります。そうすることで進化が速くなり、セキュリティが向上します。
あなたが言ってくれて本当にうれしいです。なぜなら、これについては異なる哲学があります。オープンAIが進んでいる方向とあなたが進んでいる方向を考えると、あなたが描いている世界ではすべてのスタートアップやチームが繁栄し、競争し、創造し、革新することができます。対照的な世界では、強力なAIが箱の中で発明され、ごく少数の人々によって制御され、利益がごく少数に帰することになります。私にはそのゲームに参加しているわけではありませんが、あなたの未来のビジョンが非常に好きです。ですので、これを聞いてとても嬉しいです。
限られた時間の中で、このことの影響とそれがどこに向かっているのかについて多くの時間を費やしたいと思います。また、VJEAについても聞きたいです。あなたは、LLMが素晴らしいことを構築するための道を示してくれるが、本当に知的なシステムに到達することはないと言っています。世界での経験が必要であり、VJEAはその解決策だと思っています。それがその目標に到達する手段になるのでしょうか？VJEAについて教えてください。
さて、まず最初に、AI研究がどこに向かっていると考えているかをお伝えしなければなりません。私は2年前にこのビジョンについての長い論文を書きました。それをオンラインで公開しています。「Autonomous Machine Intelligenceへの道」というタイトルで、オープンレビューで見つけることができます。「Autonomous（自律）」を「Advanced（高度）」に変更しました。人々は「自律」という言葉に恐怖を感じるからです。この概念をAMIと呼び、フランス語で「友達」を意味するため、良いアナロジーだと思います。
現在のLLMはその能力に限界があります。先ほどのステパンWもその限界を指摘していました。その一つは物理的な世界を理解していないことです。二つ目は持続的な記憶を持っていないことです。三つ目は、私たちが通常理解する意味での推論ができないことです。以前の推論を再現し、状況に適応させることはできますが、本当に人間や多くの動物が理解する意味での推論はできません。最後に、重要なのは、計画もできないことです。以前に訓練された計画を再現することはできますが、新しい状況で計画することはできません。LLMの限界については、多くの研究が示しています。これらの計画、推論、物理的世界の理解などが必要です。
新しいアーキテクチャを設計し、現在のものとは大きく異なるAIシステムを構築し、世界を理解し、持続的な記憶を持ち、推論し、計画し、制御可能なシステムを作る必要があります。これにより、安全で制御可能なシステムが作られます。AIシステムが世界を観察することで物理的な世界を理解する方法を考えることが必要です。人間や動物の赤ちゃんのように、世界の動力学を観察し理解する必要があります。
ほぼ10年間、私たちのチームは、ビデオ予測システムの訓練に取り組んできました。ビデオで何が起こるかを予測するシステムを作ることで、物理的な世界の理解が深まると考えました。しかし、これは基本的に失敗しました。数年前に気付いたのは、画像やビデオの表現を学習するためのアーキテクチャが生成的でないということです。イメージやビデオの破損部分を再構築するために大規模なニューラルネットワークを訓練する方法です。これではうまくいかず、表現が良くないのです。数年前に気付いたのは、この問題へのアプローチは「ジョイントエンベディングアーキテクチャ」であるということです。JEAはその略称です。
ジョイントエンベディングアーキテクチャのアイデアは90年代初頭にさかのぼります。多くの人々が取り組んでいました。ビデオの部分をマスクし、その後のビデオを予測する大規模なネットワークを訓練するのではなく、ビデオの表現を予測するのです。JEAはそのようなシステムの特定の例であり、結果は非常に有望です。最終的には、直感的な物理学の概念を持ち、行動の結果を予測できるシステムを構築できると思います。これにより、システムは計画を立てることができ、特定の目標に到達するための行動を計画できるようになります。これが知能の本質です。
心理学的な質問ですが、生成アルゴリズムを使用して画像を作成すると、6本指や4本指を作成することが多いですが、5本指を作成することはほとんどありません。LLMには常識が驚くほどありますが、同時に驚くほど欠けています。JEAデータを組み込むことで、私たちと同じように考える機会が増えます。これにより、最終的には巨大な基盤モデルが作られるのか、それとも専門家の混合アプローチを使用し、合成的に結びつけるのかについて教えてください。
最終的には一つの大きなモデルになると思います。モジュール化されているため、複数のモジュールが相互作用しますが、完全に接続されているわけではありません。現在のアプローチでは、マルチモーダルシステムがテキストと画像、ビデオを扱う場合、早期統合すべきか、遅延統合すべきかという議論があります。画像やビデオをトークン化し、テキストトークンと結合するか、特化したエンコーダーを通じて画像やビデオを処理し、上位で結合するかです。私は後者のアプローチを支持していますが、多くの現在のアプローチは早期統合です。なぜなら、簡単でシンプルだからです。
未来を予測するのは危険ですが、もし誰かができるとすれば、それはあなたです。ですので、VJEAデータを組み込み、これらの巨大なモデルを訓練し、さらに10倍規模のチップを購入するとします。その組み合わせで物理学の問題や生物学的実験の問題を解決することができるでしょうか、それともまだ何か欠けているものがあるのでしょうか？
いくつかのものが欠けていることは明らかです。しかし、具体的に何が欠けているのかはまだわかりません。最初の障害は見えますが、その先は不明です。最初は猫のように世界を理解するシステムを目指しています。それでも大きな進歩です。もし猫のように世界を理解できるシステムがあれば、簡単に訓練できるシステムがあれば、家庭用ロボットが可能になります。もし17歳の子供のように20時間の練習で運転を学べるシステムがあれば、それは大きな利点です。
少し時間をください。ダボスで話したときのことを覚えていますか。イマジネーションアクションでのイベントを楽しんでいただけましたか。次回は6月6日です。三つすべてのイベントで話すと、チャイアペットをもらえます。これはチャイアペットの足です。チャイアペットが素晴らしいと思います。次回も参加してくれますか？
ええ、楽しかったです。来年もお願いします。テクノポジティブな楽観主義者から悲観主義者までのスペクトラムがありました。
さて、オープンAIのメンバーが参加しているので、Metaのヤンさん、ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？