マーク・ザッカーバーグ - ラマ3、100億ドルのモデル、カエサル・アウグストゥス、そして1GWデータセンター

2024年5月18日 10:24

それは私にとって全く疑問の余地がない - 次のものを構築するためにスイングを取るかどうか。私はそれをしないのが不可能なんだ。私たちが機能を立ち上げたくて、Appleが「いや、それは立ち上げられない」と言った時がたくさんあった。それは最悪だ。AIでそれを設定しているのか。閉じたモデルを実行し、APIを制御し、したがって何を構築できるかを指示できる一握りの企業が得られるのか。

それから、300メガワットや500メガワット、1ギガワットのようなデータセンターを構築し始めると、まだ誰も単一の1ギガワットのデータセンターを構築したことがない。

どこにいても、信頼できない何らかの主体がいるだろう。もし彼らが超強力なAIを持っているなら、それはもっと大きなリスクだと思う。

マーク、Podcastへようこそ。招待していただきありがとうございます。あなたのPodcastの大ファンです。ありがとう、そう言ってくれて嬉しいよ。

このインタビューが公開されるときにリリースされるものについて話し始めましょう。モデルとMeta AIについて教えてください。新しいことと面白いことは何ですか?

世界中のほとんどの人が目にするのは、Meta AIの新しいバージョンだと思います。私たちがしている最も重要なことは、モデルのアップグレードです。Llama-3を展開しています。開発者コミュニティ向けにオープンソースとして、そしてMeta AIを強化するものとして提供しています。Llama-3についてはたくさん話すことがあると思いますが、要するに、Meta AIは現在、人々が自由に使える最も知的なAIアシスタントだと思います。

また、リアルタイムの知識のためにGoogleとBingも統合しています。私たちのアプリ全体でそれをもっと目立たせるつもりです。FacebookとMessengerの上部では、検索ボックスを使って直接質問することができるようになります。

かなりクールだと思ういくつかの新しい作成機能を追加しました。アニメーションはその一つだと思います。基本的に任意の画像を取得して、それをアニメーション化することができます。

人々が非常に驚くと思うのは、高品質の画像をあまりにも素早く生成するので、実際には入力中に生成し、リアルタイムで更新することです。クエリを入力すると、それを絞り込んでいきます。「牧草地の牛の写真を見せて、背景に山があって、マカダミアナッツを食べていて、ビールを飲んでいる」というように入力すると、画像がリアルタイムで更新されていきます。かなりすごいです。人々はそれを楽しむと思います。

ですから、私は世界中のほとんどの人々がそれを目にするだろうと思います。それをどこでもではなく、少数の国々で展開し始めて、今後数週間、数ヶ月でもっと増やしていきます。

それはかなり大きな問題になると思いますし、人々の手にそれを届けるのが本当に楽しみです。Meta AIにとって大きな前進です。

しかし、少し中身に入りたいなら、Llama-3のことが明らかに技術的に最も興味深いです。私たちは3つのバージョンを訓練しています。80億パラメータモデルと700億、これらは今日リリースしていますが、4050億の密なモデルはまだ訓練中です。

したがって、今日はそれをリリースしていませんが、80億と700億がどのようになったかについてはかなり興奮しています。それらはそのスケールでは最先端です。すべてのベンチマークを含むブログ記事を公開するので、人々は自分でそれをチェックできます。オープンソースなので、人々はそれで遊ぶ機会を得ます。

マルチモーダリティ、より多くの多言語性、より大きなコンテキストウィンドウをもたらす新しいリリースのロードマップがあります。うまくいけば、今年の後半に4050億をリリースできるでしょう。現在のトレーニングの段階では、すでにMMLL85周辺にあり、多くのベンチマークで最先端のスコアを出すことを期待しています。私はそのすべてについてかなり興奮しています。

700億も素晴らしいです。今日それを公開しています。それはMMLL82周辺で、数学と推論で最高のスコアを出しています。これを人々の手に渡すだけで、かなり驚くべきことだと思います。

おお、面白い。それをベンチマークとして聞くのは初めてだ。それは非常に印象的だ。80億はほぼ私たちがリリースしたLlama-2の最大バージョンと同じくらい強力です。

つまり、最小のLlama-3は基本的に最大のLlama-2と同じくらい強力なのです。

これらのモデルを掘り下げる前に、時間を遡りたいと思います。2022年はこれらのH100sを取得し始めた年だと思いますが、いつかを教えてください。株価は打撃を受けています。人々はこの設備投資で何が起こっているのかを尋ねています。

人々はメタバースを買っていません。おそらくその設備投資をH100sを入手するために使っているのでしょう。当時、どうしてH100sが必要だと知っていたのですか? GPUが必要だと知っていたのはどうしてですか?

Reelsに取り組んでいたからだと思います。私たちは常に、まだ地平線上ではっきりと見えないものを構築するのに十分な容量を持ちたいと思っています。フォローしている人やページからのコンテンツをランク付けするだけでなく、「未接続のコンテンツ」と呼ばれるものを推奨し始めるために、大きな努力をしました。

フォローしていない人やページからのコンテンツです。潜在的に表示できるコンテンツ候補の規模は、数千から数百万のオーダーに拡大しました。それは完全に異なるインフラストラクチャを必要としました。

私たちはそれを行うために取り組み始め、TikTokがしていたことを追いつくほど早くコンテンツをランク付けするためのインフラに制約がありました。私は基本的にそれを見て、「ねえ、私たちが二度とこの状況に陥らないようにしなければならない。だから、ReelsとフィードでコンテンツをランクづけするためにGPUを必要とする分を注文しよう。しかしそれも2倍にしよう。」と言いました。

繰り返しになりますが、私たちの通常の原則は、まだ見えていない地平線上に何かがあるということです。

それがAIになるとわかっていましたか? 私たちは、大規模モデルのトレーニングに関係する何かになるだろうと考えていました。当時、私はおそらくコンテンツに関係するものになるだろうと思っていました。

Reelsやそのほかのコンテンツでレコメンドをうまく機能させようとすることに非常に深く入っていたので、そういうことばかり考えていました。フォローしていない人からの面白いコンテンツを人々に見せることができるようになったので、それは今やInstagramとFacebookにとって非常に大きな解放です。

しかし、それは振り返ってみると非常に良い決定でした。そして、それは後れを取っていたからこそ生まれたのです。「ああ、私はとても先を行っていた」というわけではありません。実際、私たちが最終的に良さそうな決定をする時のほとんどは、以前に何かを台無しにしたからで、同じ過ちを繰り返したくないからです。

これは全くの脱線ですが、この件について尋ねたいと思います。AIに戻りましょう。2006年にあなたは10億ドルで売却しませんでしたが、おそらく売却した金額があるはずですよね? 当時のFacebookの実際の評価額はこれくらいで、実際には正しい評価をしてもらえていないと頭の中でメモしたのでしょうか? もし5兆ドルを提示されたら、もちろん売却していたでしょう。だからその選択についてどのように考えていたのですか?

私は、これらのことの一部は単に個人的なものだと思います。当時の私には、その分析を行うほどの洗練されたものはなかったと思います。周りには10億ドルについてあらゆる議論をしている人たちがいて、「必要な収益はこれくらいで、ここまで大きくなる必要がある。明らかにまだ何年も先のことだ。」と言っていました。

当時の私たちからすると、非常に先の話でした。私には本当にそのような議論に加わるだけの財務的な洗練さはありませんでした。

心の奥底では、私たちがやっていることを信じていました。

「もしこれをしていなかったら、何をするだろう? そうだな、私は物作りが本当に好きで、人々のコミュニケーションを助けるのが好きなんだ。人々の間で何が起こっているのか、人々の間のダイナミクスを理解するのが好きなんだ。だから、もしこの会社を売ったら、私はこのような別の会社を作るだろうし、私は今持っている会社が好きなんだ。だから、なぜ?」というような分析をしました。

私は、人々が行う最大の賭けの多くは、しばしば単なる信念と価値観に基づいているのだと思います。実際、先のことを結びつけようとする分析を行うのは通常非常に難しいものです。

あなたはFacebook AI Researchを長い間持っていました。今では、それがあなたの会社の中心になったようです。AGIを作ることが、またはその使命をどのように考えているかにかかわらず、Metaがやっていることの重要な優先事項になったのはいつですか?

しばらくの間、それは大したことではありませんでした。FAIRを約10年前に立ち上げました。その考えは、一般的な知性やあなたが何と呼ぼうと、その途中で、すべての異なる革新があり、それが私たちがすることすべてを改善するだろうというものでした。

私たちはそれを製品として考えたわけではありません。それはむしろ研究グループのようなものでした。

この10年間で、それはすべての製品を改善する多くの異なるものを生み出してきました。それは分野を進歩させ、その分野の他の人々が私たちの製品を改善するものを作ることを可能にしました。私はそれが素晴らしいと思います。

ChatGPTや画像作成に関するdiffusionモデルが登場したここ数年で明らかに大きな変化がありました。これはかなり驚くべきことで、そこにあるすべてのアプリとの人々の交流方法に明らかに影響を与えるでしょう。

その時点で、私たちはgen AIグループという2つ目のグループを立ち上げ、そのようなものを私たちの製品に持ち込み、これらの異なる製品すべてを強化する主要な基盤モデルを構築することを目標としました。

私たちがそれを始めたとき、最初の理論は、私たちがやっていることの多くはかなり社会的なものだということでした。それはクリエイターとの交流を助け、企業との交流を助け、企業が物を売ったり顧客サポートを行ったりするのを助けるものです。また、私たちのアプリやスマートグラス、VRのための基本的なアシスタント機能もあります。

ですから、最初はそれらのユースケースをサポートするために完全なAGIが必要になるとは完全には明確ではありませんでした。しかし、それらに取り組むことを通じて、あらゆる微妙な方法で、実際にそうする必要があることが明らかになったと思います。

例えば、Llama-2に取り組んでいたとき、人々はWhatsAppでMeta AIにたくさんのコーディングの質問をしないだろうから、コーディングを優先しませんでした。今はするでしょう。分かりません。WhatsAppやFacebookやInstagramがユーザーがたくさんのコーディングの質問をするUIだとは思いません。多分、私たちが立ち上げているウェブサイト、meta.aiかもしれません。

しかし、この18ヶ月間で少し驚くべき結果が出ているのは、コーディングが多くのドメインで重要だということです。コーディングだけでなく。人々がコーディングの質問をしていなくても、コーディングでモデルを訓練することは、質問に答えるのにより厳密になるのに役立ち、さまざまな種類のドメイン全体で推論するのに役立ちます。

これは、人々が主にコーディングの質問をしていなくても、Llama-3ではコーディングで多くのトレーニングを行うことに注力した一例です。それはこれらすべてのことをより良くするでしょう。

推論は別の例です。クリエイターとチャットしたいのかもしれませんし、あなたはビジネスで顧客と対話しようとしているのかもしれません。その対話は、「OK、人がメッセージを送信し、あなたはそれに返信するだけ」のようなものではありません。それは、「人の目標をどのように達成するか」を考えようとする多段階の対話です。

多くの場合、顧客が来るとき、彼らは必ずしも自分が何を求めているのかを正確に知っているわけではありませんし、どのように質問をすればいいのかもわかりません。だから、質問に答えるだけがAIの仕事ではないのです。より全体的に考える必要があります。

つまり、他の誰かが推論を解決したり、推論に関して良い進歩を遂げたりしたら、私たちが基本的なチャットボットで座っていると、私たちの製品は他の人が構築しているものに比べて貧弱なものになります。結局のところ、私たちは一般的な知性を解決しなければならないことに気づき、それができることを確実にするために、ただ賭けと投資を増やしました。

では、これらすべてのユースケースをユーザーのために解決するLlamaのバージョンは、この建物にいるプログラマーを置き換えるのに十分なほど強力なバージョンになるのでしょうか?

私は、これらすべてのことが時間とともに進歩的になると思います。しかし、最終的なケース、Llama-10では。そこにはたくさんのことが含まれていると思います。この建物のプログラマーは、Llama-10の後、10倍生産的になるのでしょうか?

もっとそうであってほしいですね。私は人類にとって知性の単一の閾値はないと信じています。なぜなら、人々はさまざまなスキルを持っているからです。

ある時点で、AIはおそらくモデルの力に応じて、それらのほとんどのことで人々を凌駕するだろうと思います。しかし、それは進歩的であり、AGIは1つのものではないと思います。

基本的に、さまざまな機能を追加しているのです。マルチモーダリティは、私たちが現在、最初は写真と画像とテキストで、最終的にはビデオで注目している重要なものです。私たちがメタバースに非常に注目しているので、3D タイプのものも重要です。

私がかなり注目しているモダリティの1つは、業界の他の人々があまり注目しているのを見たことがないのですが、感情的な理解です。人間の脳の非常に多くの部分は、人々を理解し、表情や感情を理解することに特化しています。それは独自の全体的なモダリティだと思います。

それはおそらくビデオや画像に過ぎないと言うかもしれませんが、それは明らかにそれら2つの非常に特殊なバージョンです。

ですから、モデルがより良い推論と記憶に焦点を当てるようにトレーニングしたい、さまざまな機能があります。それは独自の全体的なものです。

将来的には、より複雑な質問をするためにクエリコンテキストウィンドウにものを押し込むことが主になるとは思いません。異なるメモリストアや、より個人に特化した異なるカスタムモデルがあるでしょう。これらはすべて単に異なる機能です。

それからもちろん、それらを大きく小さくすることです。私たちは両方を気にかけています。あなたがMeta AIのようなものを実行している場合、それはかなりサーバーベースのものです。また、スマートグラスでもそれを実行したいと思っていますが、スマートグラス内のスペースはあまりありません。だから、そのために非常に効率的なものが欲しいのです。

推論に100億ドル分の、さらには最終的には1000億ドル分のものを使用している場合、産業規模でインテリジェンスを使用している場合、ユースケースは何ですか? シミュレーションですか? メタバース内にいるAIですか? データセンターを何に使うのでしょうか?

私たちの賭けは、それが基本的にすべての製品を変えるだろうということです。Meta AI 全般のアシスタント製品のようなものがあると思います。

それは、質問をしてそれに答えを形成するチャットボットのようなものから、より複雑なタスクを与えてそれを遂行するようなものへと移行していくと思います。それは多くの推論を必要とし、他の方法でも多くの計算を必要とするでしょう。

そして、他の人のための他のエージェントとの対話は、私たちがするビジネスや制作者のための大きな部分になると思います。

これに関する私の理論の大きな部分は、あなたが対話する単一の AIだけがあるわけではないということです。すべてのビジネスは、自分の利益を代表するAIを必要とするでしょう。彼らは、競合他社の製品を販売するAIを通じて主にあなたと対話したいとは思わないでしょう。

制作者は大きなものになると思います。私たちのプラットフォームには約2億人の制作者がいます。彼らは基本的に皆、自分のコミュニティに関わりたいというパターンを持っていますが、一日の時間によって制限されています。彼らのコミュニティは一般的に彼らと関わりたがっていますが、一日の時間によって制限されていることを知りません。

その制作者が基本的にAIを所有し、望むように訓練し、コミュニティと関わることができるようなものを作ることができれば、それは非常に強力になると思います。これらすべてのことにわたって膨大なエンゲージメントがあるでしょう。

これらは消費者の使用例に過ぎません。私の妻と私はチャン・ザッカーバーグ・イニシアチブという財団を運営しています。科学の分野で多くのことをしていて、科学やヘルスケア、そしてこれらすべてのことを進歩させるAIの仕事が明らかにたくさんあります。

ですから、それは結局、製品や経済のほぼすべての分野に影響を与えるでしょう。あなたは、あなたのために外に出て行って、あなたのために多段階のことをすることができるAIについて言及しました。それはより大きなモデルですか? 例えばLlama-4では、まだ70Bのバージョンがありますが、適切なデータでトレーニングするだけで、それは非常に強力になりますか? 進歩はどのように見えますか? スケーリングですか? 同じサイズですが、あなたが話していたような異なるバンクですか?

私はその答えを知っているとは思いません。一つのパターンのように思えるのは、Llamaモデルを持っていて、それを中心にいくつかの他のアプリケーション固有のコードを構築するということです。

その一部は、ユースケースのためのファインチューニングですが、その一部は、例えば、GoogleやBingのようなツールとMeta AIがリアルタイムの知識を取り入れるために連携する方法のロジックなどです。それは基本的なLlamaモデルの一部ではありません。

Llama-2では、その一部があり、それはもう少し手作業でしたが、Llama-3の目標の一部は、そのより多くをモデル自体に組み込むことでした。Llama-3では、これらのエージェントのような行動をより多く始めるにつれて、そのいくつかがより手作業になると思います。

私たちの目標は、Llama-4でそのより多くをモデル自体に組み込むことです。各ステップで、地平線上で何が可能になるかを感じ取ることができます。私たちはそれを使ってごちゃごちゃし、ハックし始めます。

私は、それが次のバージョンのモデル自体に組み込みたいものを磨くのに役立つと思います。それは、明らかに手作業でコーディングしているものは何でも、いくつかのユースケースのロックを解除できますが、本質的に壊れやすく、一般的ではないので、より一般的にします。

あなたが「モデル自体に」と言うとき、あなたはモデル自体に入れたいものでそれをトレーニングするのですか? 「モデル自体に」とはどういう意味ですか?

Llama-2では、ツールの使用は非常に具体的でしたが、Llama-3ではツールの使用がはるかに良くなっています。Googleを使用して検索を行うためのすべてのものを手作業でコーディングする必要はありません。それができるのです。

同様に、コーディングとコードの実行、その他多くのことができます。そのような機能を手に入れると、次に何ができるかを垣間見ることができます。Llama-4が登場するのを待つ必要はないので、それらの機能の構築を開始できます。

多くの手作業のコーディングを行い、それが製品をより良くします。少なくともその間だけでも。それは次のバージョンのモデルに構築したいものを示すのに役立ちます。

Llama-3のコミュニティファインチューンで、あなたが最も興奮しているのは何ですか? おそらくあなたにとって最も役に立つものではなく、ただ遊ぶのが最も楽しみなものは何ですか。

彼らはそれを古代にファインチューニングして、あなたはただバージルと話をしているでしょう。何に興奮していますか?

物事の性質は、驚かされるということだと思います。私が価値があると思った具体的なことは何でも、おそらく私たちは構築しているでしょう。

要約版ができると思います。より小さなバージョンが出てくると思います。

1つは、80億では多くのユースケースに十分な小ささではないと思うことです。時間が経つにつれて、10〜20億パラメーターのモデル、さらには5億パラメーターのモデルを手に入れて、それで何ができるかを見たいと思います。

80億のパラメーターでLlama-2の最大モデルとほぼ同じくらい強力なら、10億のパラメーターではおもしろいことができるはずです。そしてより速くなります。

ユーザークエリの意図を理解し、最も強力なモデルにフィードしてプロンプトがどうあるべきかを絞り込む前に、人々が行う多くの基本的なことの分類に適しているでしょう。コミュニティがそれを補完するのに役立つかもしれないと思います。

私たちも今はこれらのいくつかを蒸留することを考え始めていますが、現時点では4050億のトレーニングにGPUが使われています。

つまり、あなたはこれらのGPUをすべて持っています。年末までに35万台になると言っていましたよね。

それは全艦隊です。私たちは2つ、2万2000台または2万4000台のクラスターを構築しました。これは、大規模モデルをトレーニングするために持っている単一のクラスターで、明らかに私たちが行っているすべてのものにわたっています。私たちの多くのものは、Reelsモデル、Facebook Newsfeed、Instagram Feedのトレーニングに向けられています。

推論は私たちにとって非常に大きなことです。なぜなら、私たちは大勢の人々にサービスを提供しているからです。私たちのトレーニングに必要な推論計算の割合は、このようなことをしている他のほとんどの企業よりもおそらくはるかに高いでしょう。私たちがサービスを提供しているコミュニティの規模の純粋な量のためだけに。

彼らが私と共有した資料では、トレーニングのために計算上最適なものよりも多くのデータでトレーニングしたことが本当に興味深かったです。推論はあなたたちにとって、そしてコミュニティにとっても非常に重要なことなので、この素晴らしいものを持っていて、何兆ものトークンをそこに入れることは理にかなっています。

70Bでさえ、私たちはそれがより飽和すると思っていましたが、興味深いことの1つです。私たちはそれを約15兆トークンでトレーニングしました。

私たちが当初予測していたのは、それがもっと漸近線に近づくだろうということでしたが、最後までそれはまだ学習していました。おそらくもっとたくさんのトークンを与えることができたでしょうし、それはいくらかよくなっただろうと思います。

ある時点で、あなたは会社を経営していて、これらのメタ推論の質問をする必要があります。私たちのGPUを70Bモデルのさらなるトレーニングに使いたいですか? Llama-4の仮説をテストし始められるように、先に進みたいですか?

その判断をしなければならず、70Bのこのバージョンについてはかなりのバランスが取れたと思います。今後、70Bマルチモーダルなものが出てくるでしょう。しかし、これは、このスケールのアーキテクチャがこれほど多くのデータを取り入れることができるということが魅力的だったということです。

それは本当に興味深いです。これは将来のモデルについて何を意味するのでしょうか? Llama-3の8BがLlama-2の70Bよりも優れているとおっしゃいましたね。

いえ、いえ、ほぼ同じくらい良いのです。私は過大評価したくありません。それは同じようなオーダーにあります。

つまり、Llama-4の70BはLlama-3の405Bと同じくらい良いということですか? 将来はどのように見えるでしょうか?

これは偉大な質問の1つですね。誰にもわからないと思います。世界で最もトリッキーなことの1つは、指数関数的曲線を計画することです。どのくらいの期間続くのでしょうか?

私たちは続けていく可能性が十分にあると思います。インフラを構築し、それが続けば本当に素晴らしいものが得られ、素晴らしい製品ができると想定して、100億ドルや1000億ドル以上を投資する価値があると思います。

業界の誰もが、その割合で拡大し続けるかどうかを本当に言うことはできません。一般的に歴史上、ある時点でボトルネックにぶつかります。

今、これにはとてもたくさんのエネルギーがあるので、おそらくそれらのボトルネックはかなり早く乗り越えられるでしょう。それが興味深い質問だと思います。

これらのボトルネックがない世界はどのように見えるでしょうか? 進歩がこのペースで続くと仮定して、それはもっともらしく思えます。ラマについては置いておいて、もっと大局的に見ると...

そこには異なるボトルネックがあるでしょう。ここ数年、GPU生産の問題があったと思います。GPUを買うお金を持っている企業でさえ、必ずしも望むほど多くを手に入れることができなかったのです。供給に制約があったからです。今はそれがなくなりつつあると思います。だから、世界中の多くの企業が、これらのものを構築するために多額の資金を投資することを考え始めているのがわかります。

しばらくの間はそれが続くと思います。資本の問題があります。どの時点で、資本を投入する価値がなくなるのでしょうか?

実際、それに達する前に、エネルギーの制約にぶつかると思います。誰も1ギガワットの単一トレーニングクラスターをまだ構築していないと思います。ソフトウェアから、ある程度規制されていると思いますが、私は技術コミュニティの多くの人々が感じているよりも規制されていると主張したいと思います。

明らかに、小さな会社を始めるのであれば、おそらくそれをあまり感じないでしょう。私たちは世界中のさまざまな政府や規制当局と対話し、従う必要のある多くのルールを持っており、それらを適切に行うことを確認しています。しかし、エネルギーについては疑いの余地がないと思います。

大規模な新しい発電所を建設したり、他の私有地や公有地を横断する送電線を建設したりすることについて話しているなら、それは単に厳しく規制されたものです。何年もの準備期間が必要だと言っています。

何か大規模な施設を立ち上げたいのなら、それに電力を供給することは非常に長期的なプロジェクトです。人々はそれを行うと思いますが、これは、ただAIのレベルに到達し、多額の資本を得て、それを投入すれば、突然モデルがそうなるというようなものではないと思います...

あなたは途中で異なるボトルネックにぶつかります。AIに関連したプロジェクトや、そうでないものでも、Metaのようなリソースを持つ企業でさえできないようなことはありますか?あなたのR&D予算や設備投資予算が今の10倍だったら、追求できるようなことはありますか?心の片隅にあるけれど、今のMetaではできないようなことは?株式や債券を発行してもできないようなことですか?予算の10倍も大きいものですか?

エネルギーが一つだと思います。現在できるよりも大きなクラスターを構築するでしょう。エネルギーがあればそれができるのですが。

つまり、究極的にはお金のボトルネックなのですね?1兆ドルあれば...

時間の問題だと思います。指数関数曲線がどこまで行くかによります。現在、多くのデータセンターは50メガワットか100メガワット程度で、大きなものでも150メガワットかもしれません。データセンター全体を使って、トレーニングに必要なものをすべて詰め込み、できる限り大きなクラスターを構築します。多くの企業がそのようなことを行っていると思います。

しかし、300メガワットや500メガワット、1ギガワットのようなデータセンターの構築を始めると、まだ誰も1ギガワットのデータセンターを構築したことがありません。それは時間の問題だと思いますが、来年にはできないでしょう。このようなものを構築するには、何年もかかるでしょう。これを視点に入れるために、1ギガワットはモデルのトレーニングにのみ向けられる意味のある原子力発電所の規模になると思います。

アマゾンはこれをしませんでしたか?950MWを持っています...

彼らが何をしたのかはよくわかりません。彼らに聞く必要があります。

でも、同じ場所である必要はないですよね?分散トレーニングが機能するなら、分散させることができます。

そうですね、それがどのように機能するかは大きな問題だと思います。将来的には、これらの大規模モデルのトレーニングと呼ばれるものの多くが、実際にはモデルにフィードバックするための合成データを生成するインファレンスに近いラインになる可能性があるようです。

その比率がどうなるかはわかりませんが、合成データの生成は、今日のトレーニングよりもインファレンスだと考えています。明らかに、モデルをトレーニングするためにそれを行っているのであれば、それはより広範なトレーニングプロセスの一部です。

したがって、それはオープンな質問であり、そのバランスとそれがどのように展開するかです。

Llama-3やLlama-4以降でもそうなる可能性がありますか?つまり、これを公開して、誰かが大量の計算能力を持っていれば、あなたが公開したモデルを使ってこれらのものを際限なく賢くすることができるのでしょうか。

クウェートやUAEのようなランダムな国があって、大量の計算能力を持っていて、実際にLlama-4を使ってはるかに賢いものを作ることができるとしましょう。

そのようなダイナミクスはあると思いますが、モデルアーキテクチャには根本的な制限があると思います。Llama-3アーキテクチャでトレーニングした70Bモデルは良くなることができ、それは続けることができます。

先ほど言ったように、もっとデータを与え続けたり、高価値トークンを再度ローテーションさせたりすれば、それは良くなり続けるだろうと感じました。世界中の多くの企業が基本的にLlama-2の70Bモデルアーキテクチャを取り、新しいモデルを構築しているのを見てきました。

しかし、Llama-3の70BやLlama-3の405Bのような世代的な改善を加えると、今日オープンソースのものはそのようなものはありません。それは大きなステップの機能だと思います。人々がその上に構築できるものは、そこから無限に行くことはできないと思います。

ある程度の最適化はできますが、次のステップの機能に到達するまでです。では、具体的なモデルから少し話を広げて、あなたがエネルギーの承認を得るのに何年もかかるというような話からも離れましょう。大局的に見て、今後数十年、AIではどのようなことが起こっているのでしょうか?それはメタバースやソーシャルのような別のテクノロジーのように感じられますか、それとも人類史上の根本的に異なるものに感じられますか?

私はそれがかなり基本的なものになると思います。私はそれがコンピューティングそのものの創造に似ていると思います。ウェブやモバイル電話を手に入れたときのように、以前は不可能だったことが可能になったので、すべての経験を再考することになるからです。

ですから、そういったことは起こると思いますが、それははるかに低レベルのイノベーションだと思います。私の感覚では、人々がコンピューターを持たないところからコンピューターを持つところへ移行するようなものになると思います。

それがどのように進むのかを正確に推論するのは非常に難しいです。宇宙のスケールでは明らかにそれは数十年かそれくらいの間に急速に起こるでしょう。

それが本当にばらばらになって、ある日突然、かなり知的なものから非常に知的なものに変わるのではないかと心配している人たちがいます。エネルギーの制約などの物理的な制約があるので、そういったことが起こる可能性は低いと思います。それが現実になるとは思えません。私たちには少し順応する時間があるでしょう。

しかし、それは本当に私たちの働き方を変え、人々にさまざまなことをするためのすべてのこれらのクリエイティブツールを与えるでしょう。私はそれが人々により多くのことを可能にすると思います。

では一夜にしてではありませんが、宇宙のスケールでこのようなマイルストーンを考えることができるというのがあなたの見解なのでしょうか?人類は進化し、そしてAIが起こり、そして彼らは銀河に向かった。何十年もかかるかもしれない、1世紀かかるかもしれないが、今まさに歴史の中で起こっている大きな枠組みはそういうことなのか?

何の意味で、ですか?コンピューターや火のようなほかのテクノロジーもありましたが、AI自体の発展は人類が初めて進化したときほど重要だということです。

それは難しいですね。人類の歴史は、人間性のある側面がさまざまな方法で本当にユニークだと考え、それが真実ではないが、人類は実際にはまだ超特別だという事実に取り組むことでした。

私たちは地球が宇宙の中心だと思っていましたが、そうではありません。しかし、人間はまだかなり素晴らしく、かなりユニークです。知性が生命と根本的につながっているという別のバイアスを人々が持つ傾向があると思います。

実際にそうであるかどうかは明らかではありません。私たちは意識や生命について十分に明確な定義を持っているとは思えません。知性を作り出すことに関するすべてのこのSFがあります。そこでは、人間のような行動や物事を引き受け始めます。

現在のこのすべての具現化は、知性が意識や主体性などから非常に分離される可能性があるという方向に向かっているように感じられます。私はそれが人々にとって超貴重なツールになると思います。

明らかに、このようなものが長期的にどの方向に進むかを予測するのは非常に難しいです。だからこそ、私は誰もそれをどのように開発するか、何をするかについて独断的になるべきではないと思います。

各リリースでそれを見る必要があります。私たちは明らかにオープンソースに非常に賛成ですが、私たちが行うすべてのことをリリースすると約束したわけではありません。

私は基本的に、オープンソーシングがコミュニティにとって良いことであり、イノベーションから恩恵を受けるので私たちにとっても良いことだと考える傾向があります。

しかし、ある時点でそのものが何をする能力があるかについて何らかの質的な変化があり、それをオープンソースにするのが責任あることではないと感じるなら、私たちはそうしないでしょう。それはすべて予測するのが非常に難しいです。どのような具体的な質的変化があれば、Llama-5やLlama-4をトレーニングしていて、それを見たら「オープンソースにするのはどうかな」と思うでしょうか?

少し抽象的な質問に答えるのは難しいです。なぜなら、製品が示す可能性のあるネガティブな行動があり、それを軽減できる限り、それは大丈夫だからです。

ソーシャルメディアにも悪いところがあり、私たちはそれを軽減するために努力しています。Llama-2にも悪いところがあり、私たちはそれが人々の暴力行為を助けたりしないように多くの時間を費やしています。

それは自律的あるいは知的なエージェントの一種だという意味ではありません。それは単に世界について多くのことを学んでおり、私たちがそれに答えるのが役に立たないと思う一連の質問に答えることができるということです。

質問は本当に、それがそれを示した後に軽減できないものは何かということだと思います。何かが良いか悪いかには非常に多くの方法があるので、それらをすべて事前に列挙するのは実際には難しいと思います。

ソーシャルメディアで私たちが扱わなければならなかったことと、さまざまな種類の危害を見てください。私たちは基本的に、人々が行う有害なことの18または19のカテゴリーにたどり着き、それらのものが何であるかを特定し、私たちのネットワーク上でそれが可能な限り起こらないようにするためにAIシステムを基本的に構築しました。

時間が経つにつれて、これをより多くの分類法に分解できるようになると思います。これは私たちが研究に時間を費やしていることの1つでもあります。私たちはそれを理解していることを確認したいからです。

これは正当なポイントだと思います。バランスオブパワーのようなものと、おそらくアライメント技術が良いので取り除くことができる危害について。

メタにはそのようなフレームワークがあればいいのですが。他の研究所ではこのようなことをしていて、「これが具体的なことだと分かったら、オープンソースはノーゴー、さらには潜在的に展開もノーゴーだ」と言っています。

それを書き留めるだけで、企業はそれに備え、人々はそれを期待し、などということができます。

実存的リスクの面では正当なポイントだと思います。現在、私たちは今日見ているリスクの種類、つまり、これらのコンテンツリスクに重点を置いています。

モデルが人々の暴力や詐欺を助けたり、さまざまな方法で人々に害を与えたりすることを望んでいません。実存的リスクについて話すのは知的には興味深いかもしれませんが、私は実際に、より多くのエネルギーを軽減する必要がある本当の危害は、誰かがモデルを取って人を傷つけるようなことをするところだと思います。

現在のモデルでは実際、そして私は次の世代、おそらくその次の世代でさえ、それらは今日私たちが見ている、人々が互いに詐欺を働いたりするようなより平凡な危害の種類だと思います。その点を軽視したくはありません。私はそれについてよい仕事をすることが私たちの責任だと思います。

メタは大企業です。あなたは両方を扱うことができます。オープンソースに関しては、PyTorch、React、Open Computeなどからのオープンソースの影響が、Metaのソーシャルメディアの側面よりも世界にとって大きかったと思いますか?

これらのサービスを使用している人々と話をしましたが、インターネットの大部分がこれらのものの上で動作しているので、それはもっともらしいと彼らは考えています。

それは興味深い質問ですね。世界の半分近くが私たちの消費者製品を使用しているので、それを超えるのは難しいです。しかし、私はオープンソースが物事を構築する新しい方法として本当に強力だと思います。

つまり、それは可能です。ベル研究所のようなものかもしれません。彼らは長距離通話を可能にしたかったので、トランジスタに取り組んでいました。彼らはそうしました。そして、長距離通話を可能にしたことは彼らにとって本当に利益になりました。

それから5年から10年後に、彼らが発明した最も有用なものは何だったかと尋ねたら、「さて、私たちは長距離通話を可能にしました。そして今、多くの人々が長距離で通話しています」というようなことでしょう。しかし、100年後に尋ねれば、おそらく答えは違うでしょう。

私はそれが私たちが構築しているものの多くに当てはまると思います。Reality Labs、AIのいくつか、オープンソースのいくつか。特定の製品は進化し、ある程度は来たり去ったりしますが、人類にとっての進歩は持続し、それは私たち全員ができるクールな部分です。

Llamaモデルはいつ頃、独自のカスタムシリコンでトレーニングされるようになるのでしょうか?

すぐです。Llama-4ではありません。私たちが取ったアプローチは、最初に、Reels、News Feed広告などのランキングと推奨のようなものに対するインファレンスを処理できるカスタムシリコンを構築したことです。

それは多くのGPUを消費していました。それを自分のシリコンに移動できたとき、より高価なNVIDIA GPUをトレーニングにのみ使用できるようになりました。

ある時点で、最初はいくつかのよりシンプルなものをトレーニングするために、そして最終的にはこれらの非常に大規模なモデルをトレーニングするために、私たち自身がシリコンを持つことができればと思います。その間、プログラムはかなりうまくいっていると言えます。私たちはそれを着実に展開しており、それに対する長期的なロードマップを持っています。

最後の質問です。これは全く予想外のことです。Google+のCEOにさせられたら、それをうまくいかせることができましたか?

Google+?うーん。よくわかりません。それは非常に難しい反事実です。

では、本当の最後の質問をします。ジェミニが打ち上げられたとき、オフィスで誰かが「カルタゴは滅ぼされるべきだ」と言った可能性はありますか?

いいえ、私たちは今は大人しいです。良い質問ですね。問題は、Google+にはCEOがいなかったことです。それは会社内の部門に過ぎませんでした。

あなたは以前、ドルの面で最も希少な商品は何かと尋ねましたが、私は実際、ほとんどの企業にとって、少なくともこの規模の企業にとって、それは焦点だと思います。

スタートアップの場合、おそらく資本の制約を受けることが多いでしょう。ただ1つのアイデアに取り組んでいて、すべてのリソースを持っていないかもしれません。ある時点で、やっていることの性質によって、ある閾値を超えます。

複数のものを構築しています。それらを通じてより多くの価値を生み出していますが、うまくいくために向けることができるものに関してより多くの制約を受けるようになります。

組織の中で何かランダムで素晴らしいことが起こっていて、私がそれについて知らない場合は常にあります。それらは素晴らしいです。

しかし、一般的に、組織の能力は、CEOと経営チームが監督し、管理できるものによって大きく制限されていると思います。これは私たちにとって大きな焦点でした。ベン・ホロウィッツが言うように、「主なことを主なことに保つ」ことを心がけ、重要な優先事項に集中し続けようとしています。

素晴らしい、それは素晴らしかったです、マーク。どうもありがとうございました。とても楽しかったです。

はい、本当に楽しかったです。招待してくれてありがとう。どういたしまして。

この記事が気に入ったらサポートをしてみませんか？