AIと次世代コンピューティングプラットフォーム - ジェンセン・フアンとマーク・ザッカーバーグの対談

2024年8月3日 22:09

皆さま、特別なゲストをお迎えしています。着席をお願いできますでしょうか。これから始めます。次のゲストは、私が非常に感銘を受けている人物です。3つの理由があります。
第一に、世界中の何十億もの人々の生活に触れ、ソーシャルファブリックの一部となるサービスを発明し、最先端のコンピューティング企業を創業した起業家・創業者は、ごく少数しかいません。
第二に、創業した企業を1兆ドル以上の価値にまで成長させた起業家・創業者は、ほとんどいません。
そして第三に、大学中退者です。この3つがすべて当てはまる人物です。
皆さま、マーク・ザッカーバーグさんをお迎えしましょう。調子はどうですか? ようこそ。マーク、初めてのSIGGRAPHへようこそ。信じられますか? コンピューティングの先駆者の一人で、現代のコンピューティングを牽引する人物なのに、私がSIGGRAPHに招待しなければならなかったのです。
さあ、マーク、座ってください。ここにお迎えできて光栄です。ようこそ。飛んできてくれてありがとう。
ええ、楽しみにしています。5時間くらい続いているって聞きましたけど。
そうですね。ここはSIGGRAPHですから。ここにいる人の90%はPhDホルダーです。SIGGRAPHの素晴らしいところは、ご存じの通り、コンピューターグラフィックス、画像処理、人工知能、ロボティクスを組み合わせたショーだということです。
ディズニー、ピクサー、アドビ、エピックゲームズなど、様々な企業が長年にわたってここで素晴らしいものを披露し、発表してきました。もちろん、NVIDIAも多くの成果を上げてきました。
今年は人工知能とシミュレーションの交差点で20本の論文を発表しました。私たちは人工知能を使ってシミュレーションを大規模化し、高速化する手助けをしています。例えば、微分可能な物理学などです。
また、人工知能のための合成データ生成に向けて、シミュレーション環境を使用しています。この2つの分野が本当に融合しつつあります。私たちはここで行ってきた仕事を誇りに思っています。
Metaでも素晴らしいAI研究をされていますね。面白いと思うのは、報道機関がMetaはここ数年でAIに参入したかのように書いていることです。FAIRが行ってきた仕事があたかも存在しないかのようです。
私たち全員が使っているPyTorchはMetaから生まれたものです。コンピュータービジョンの研究、言語モデルの研究、リアルタイム翻訳など、画期的な仕事をされています。
最初の質問ですが、Metaにおける生成AIの進歩をどのようにご覧になっていますか? それをどのように活用して、既存の業務を強化したり、新しい機能を提供したりしていますか?
はい、そこには多くの要素がありますね。まず、ここに来られてとてもうれしいです。Metaは8年間SIGGRAPHに参加してきました。私たちは新参者ですが、あなた方に比べればの話です。
確か2018年だったと思いますが、VRやMRヘッドセット向けの初期のハンドトラッキング技術をお見せしました。コーデックアバター、つまり消費者向けヘッドセットで駆動できる写実的なアバターの進捗についても何度か話してきました。それにはどんどん近づいているので、とてもワクワクしています。
また、ディスプレイシステムに関する多くの研究も行ってきました。MRヘッドセットを本当に薄くするための将来のプロトタイプや研究、非常に高度な光学スタックとディスプレイシステムを使用したものなど、統合システムについてです。そういったものをここで最初に発表することが多かったですね。
今年はメタバースだけでなく、AIの部分についても話せることを楽しみにしています。おっしゃる通り、私たちはFAIR（AI研究センター）を立ち上げました。当時はFacebookでしたが、今はMetaです。Reality Labsを始める前のことです。私たちはかなり長い間これに取り組んできました。
生成AIに関するすべての取り組みは興味深い革命です。私たちが行っているさまざまな製品すべてを、興味深い方法で変えていくと思います。
主要な製品ラインを見てみると、例えばInstagramやFacebookのフィードやレコメンデーションシステムがあります。友達とつながることだけが目的だった頃から長い道のりを歩んできました。ランキングは常に重要でした。友達のコンテンツだけをフォローしていた時でさえ、例えばいとこに赤ちゃんが生まれたような重要なことがあれば、それをトップに持ってきたいわけです。それがフィードの奥深くに埋もれていたら、ユーザーは私たちに怒るでしょう。
ですからランキングは重要でした。しかし、ここ数年で状況は変わり、今ではそういったコンテンツの多くが、一般に公開されているさまざまなコンテンツになっています。
レコメンデーションシステムは非常に重要になりました。なぜなら、友達からの数百や数千の潜在的な投稿候補ではなく、何百万ものコンテンツがあり、それが非常に興味深いレコメンデーションの問題になるからです。
生成AIによって、私たちはすぐに次のようなゾーンに移行すると思います。今日Instagramで見るコンテンツの大半は、あなたがフォローしている人々に関係なく、あなたの興味に合わせて世界中から推奨されたものです。
将来的には、こうしたコンテンツの多くがこれらのツールを使って作成されるようになると思います。一部はクリエイターがツールを使って新しいコンテンツを作成するでしょう。また、一部は最終的にあなたのためにその場で作成されたり、さまざまな既存のものを組み合わせて合成されたりするコンテンツになると思います。
これは私たちが行っていることの中核部分がどのように進化していくかの一例に過ぎません。この20年間ずっと進化し続けてきたのです。
世界が今まで考え出した中で最大のコンピューティングシステムの1つがレコメンダーシステムだということは、ほとんどの人が気づいていませんね。
そうですね、これは全く異なる道筋です。人々が話題にする生成AIの流行とは少し違いますが、トランスフォーマーアーキテクチャを使っています。非構造化データを特徴量に埋め込む、より一般的なモデルを構築していくという点では似ています。
品質向上を促進する大きな要因の1つは、以前はコンテンツの種類ごとに異なるモデルを持っていたということです。最近の例を挙げると、リールのランキングと推奨用のモデルと、より長尺の動画のランキングと推奨用の別のモデルがありました。
システムがインラインで何でも表示できるようにするには、いくらかの製品開発が必要でした。しかし、あらゆるものに対応できるより一般的な推奨モデルを作れば作るほど、どんどん良くなっていきます。
その一部は、コンテンツの経済性と流動性によるものだと思います。より広い範囲からコンテンツを引き出せるようになると、異なるプールから引き出す際の奇妙な非効率性がなくなります。
モデルが大きくなり、より一般化されるにつれて、それはどんどん良くなっていきます。いつかはFacebookやInstagramのすべてが、単一のAIモデルになるような気がします。
このモデルは、異なる種類のコンテンツやシステムを統合し、異なる時間枠で異なる目的を持つものになるでしょう。一部は今日あなたが見たい興味深いコンテンツを表示することですが、一部は長期的にあなたのネットワークを構築することを助けます。例えば、知り合いかもしれない人や、フォローしたいかもしれないアカウントなどです。
これらのマルチモーダルモデルは、パターンや弱い信号を認識するのが得意な傾向にあります。
AIがあなたの会社に深く根付いていることは興味深いですね。長年にわたってGPUインフラを構築し、これらの大規模なレコメンダーシステムを運用してこられました。
実は、GPUの導入には少し出遅れました。
そうですね、私は優しく言おうとしていたんですが。
分かっています。優しすぎますよ。
ステージに上がる前、バックステージで自分の過ちを認めることについて話していましたよね?
わざわざ自分から言う必要はないですよ。
この件については十分議論されてきたと思います。
ええ、私は散々批判されましたからね。
でも一度始めたら、強力に推し進めましたね。
そうですね、そうしましょう。
生成AIの素晴らしいところは、最近WhatsAppを使っていると、WhatsAppと協力しているような感覚があることです。Imagineが大好きです。ここに座って入力していると、入力に合わせて画像を生成してくれます。言葉を変えると、他の画像を生成してくれるんです。
例えば、「夕暮れ時にウイスキーを楽しむ年配の中国人男性と、ゴールデンレトリバー、ゴールデンドゥードル、バーニーズマウンテンドッグの3匹の犬」と入力すると、かなり良い感じの画像を生成してくれます。
そうですね、そこまで来ています。そして今では実際に私の写真をロードすると、本当に私になります。
先週からそれが可能になりました。
とてもワクワクしています。さて、私の想像を...
ここ最近、娘たちと一緒に彼女たちを人魚に想像するのに多くの時間を費やしています。とても楽しいですよ。
これがもう一つの側面です。生成AIの多くは、一方では長年行ってきたワークフローや製品の大幅なアップグレードになると思います。しかし他方では、これまでにない全く新しいものが作られるようになるでしょう。
Meta AIは、さまざまなタスクを支援するAIアシスタントを持つというアイデアです。私たちの世界では非常にクリエイティブ志向になると思います。おっしゃる通りです。
しかし、これらは非常に汎用的なので、それだけに限定する必要はありません。どんな質問にも答えられるようになります。時間が経つにつれ、Llama 3クラスのモデルからLlama 4以降に移行すると、チャットボットのような感覚、つまりプロンプトを与えて応答を返すという単純なやりとりではなくなると思います。
かなり早い段階で、意図を与えると、実際に複数の時間枠で作業を進めることができるように進化すると思います。最初に意図を与えたことを認識する必要があると思いますが、一部の作業は数週間や数か月かかる計算ジョブを開始し、後で結果を返してくるようなものになるでしょう。そして、何か世界で起こることがあれば...それはとても強力になると思います。
今日のAIは、ご存じの通り、ターンベースのようなものです。あなたが何か言うと、AIが何か返してきます。しかし、明らかに私たちが考えるとき、ミッションや問題が与えられたとき、複数の選択肢を検討します。あるいは、選択肢の木、つまり決定木を思いつき、その決定木を辿りながら、各決定の可能性のある結果を頭の中でシミュレーションします。つまり、計画を立てているのです。
将来的にAIも同じようなことをするでしょう。
クリエイターAIについてのあなたのビジョンについて話されたとき、私はとてもワクワクしました。正直なところ、それは素晴らしいアイデアだと思います。クリエイターAIとそれを可能にするAIスタジオについて、皆さんに説明してください。
実際、これについては少し話をしてきましたが、今日はより広範囲に展開しています。私たちのビジョンの多くは、1つのAIモデルだけではないだろうということです。業界の他の企業の中には、1つの中央エージェントを構築しているようなところもありますが、私たちはMeta AIアシスタントを使用できるようにする一方で、製品を使用するすべての人々が基本的に自分自身のエージェントを作成できるようにしたいと考えています。
プラットフォーム上の何百万ものクリエイターや、何億もの小規模ビジネスなど、最終的にはすべてのコンテンツを取り込み、非常に迅速にビジネスエージェントを立ち上げ、顧客とやり取りし、販売や顧客サポートなどを行えるようにしたいと考えています。
現在展開を始めているのは、AIスタジオと呼んでいるものです。基本的に、最終的にはすべてのクリエイターが自分自身のAIバージョンを構築できるようにするツールのセットです。これはエージェントまたはアシスタントのようなもので、コミュニティがそれと対話できるようになります。
ここには根本的な問題があります。1日には限られた時間しかないのです。クリエイターとしては、コミュニティとより多く関わりたいと思いますが、時間的な制約があります。同様に、コミュニティもクリエイターと関わりたいと思っていますが、それは難しいです。時間が限られているからです。
次善の策は、基本的にこれらのアーティファクトを作成できるようにすることです。それはエージェントですが、あなたの素材を使って学習させ、あなたが望む方式であなたを表現するようにトレーニングします。これは非常にクリエイティブな取り組みで、まるでアート作品やコンテンツを作るようなものだと思います。
クリエイター本人とやり取りしているわけではないことを明確にする必要があります。しかし、クリエイターがこれらのソーシャルシステム上でコンテンツを発信するのと同じように、エージェントを通じて行うことができる別の興味深い方法になると思います。
同様に、人々が様々な用途のために自分自身のエージェントを作成するようになると思います。一部はカスタマイズされたユーティリティ、つまり達成しようとしていることに対してファインチューニングやトレーニングを行ったエージェントになるでしょう。また一部はエンターテイメント用になるでしょう。
人々が作成するものの中には、単に面白かったり、様々な意味でおかしなものもあるでしょう。あるいは、物事に対して面白い態度を持っているかもしれません。私たちがMeta AIのアシスタントに組み込むことはおそらくできないでしょうが、人々はそういったものを見たり、対話したりすることに興味を持つと思います。
私たちが見ている興味深い使用例の1つは、人々がこれらのエージェントをサポートに使用していることです。これは少し驚きでした。Meta AIの主要な使用例の1つは、人々が直面する困難な社会的状況をロールプレイすることです。
プロフェッショナルな状況であれば、「上司に昇進や昇給をどうやって求めればいいか」といったものです。または、「友人と喧嘩をしている」とか「ガールフレンドと難しい状況にある」といった場合に、そのような会話がどのように進むかをシミュレーションします。基本的に、完全に判断を下さない場で、その会話をロールプレイし、それがどのように進むかを見て、フィードバックを得ることができます。
しかし、多くの人々は同じエージェント、それがMeta AIであれChataGPTであれ、他の誰もが使っているものと対話するだけでは満足しません。彼らは自分自身のものを作りたいと思っています。
これが大まかにAIスタジオの方向性です。しかし、これはすべて私たちが持っているより大きなビジョンの一部です。人々が対話する大きなAIが1つだけあるべきではないと考えています。世界はより多様なこれらの異なるものがあることで、より良く、より面白くなると思うのです。
アーティストがスタイルを持っている場合、そのスタイル、すべての作品を取り込んで、モデルの1つをファインチューニングできるというのは、とても素晴らしいと思います。これがあなたのAIモデルとなり、それを使ってプロンプトを与えたり、あなたのアートスタイルに沿って何かを作成するよう依頼したりできます。インスピレーションとして絵やスケッチを与えることもできるでしょう。そして、私はあなたのために何かを生成できます。あなたはそれを求めて私のボットに、私のAIに来るのです。
それは、すべてのレストラン、すべてのウェブサイトが将来的にこれらのAIを持つようになる可能性があるということですね。
ええ、将来的には、すべてのビジネスがメールアドレスやウェブサイト、ソーシャルメディアアカウントを持っているように、顧客とインターフェースするAIエージェントを持つようになると思います。
これらのことの中には、歴史的に非常に難しかったものもあります。例えば、どの会社でも、カスタマーサポートは販売とは別の組織になっていることが多いですが、CEOとしてはそうあって欲しくないでしょう。単に異なるスキルが必要だからそうなっているだけです。これらの抽象化を組織内に構築すると...
ちなみに、私はあなたのカスタマーサポートですよ。
そうですね。明らかに私のカスタマーサポートです。
マークが何か必要とするときはいつでも...
それが彼のチャットボットなのか、単にマークなのか分かりませんが...
ここにいるのは単に私のチャットボットでした。ただ質問しているだけです。
まあ、CEOならこういったことすべてをやらなければならないんでしょうね。
しかし、組織内に抽象化を構築すると、多くの場合、組織は別々になります。なぜなら、それぞれ異なることに最適化されているからです。しかし、これの理想的な形は1つのものだと思います。
顧客としては、実際のところ気にしません。何かを買おうとしているときと、買ったものに問題がある場合で、異なるルートを取りたいとは思いません。ただ質問に答えてもらえる場所があり、様々な方法でビジネスと関わることができればいいのです。これはクリエイターにも当てはまると思います。これが個人消費者側の視点です。
そして、顧客とのすべてのやり取り、特に彼らの苦情は、あなたの会社をより良くするでしょう。
全くその通りです。このAIとのすべての対話が組織の知識を取り込み、それがすべて分析に使われ、AIを改善し、さらにそれが続いていくのです。
そうですね。これがビジネスバージョンです。
より多くの統合があり、まだかなり初期のアルファ段階にあります。しかし、AIスタジオは人々がUGCエージェントなどを作成できるようにし、クリエイターがそれらを作成するこのフライホイールを開始することに関して、私はかなりワクワクしています。
AIスタジオを使って、私の画像、私のコレクションの画像でファインチューニングできますか?
はい、そこに到達しようとしています。
そして、私が書いたすべてのものをロードして、それを私のRAG（Retrieval-Augmented Generation）として使用できますか?
基本的にはそうです。
そして、毎回戻ってくるたびに、前回の続きから記憶を読み込み、何も起こらなかったかのように会話を続けられるのですね。
はい、そして、どの製品でもそうですが、時間とともに改善されていきます。トレーニングのためのツールは改善されていきます。単に何を言わせたいかだけでなく、一般的にクリエイターやビジネスは避けたいトピックもあります。
これらすべてがより良くなっていくと、理想的なバージョンはテキストだけではありません。ほぼ、そして、これは私たちが行っているコーデックアバターの仕事の一部との交差点です。最終的には、ほぼビデオチャットのようなものをエージェントと行えるようにしたいと思っています。
時間とともにそこに到達すると思いますが、この段階はそれほど遠くないと思います。しかし、フライホイールは非常に速く回転しているので、ワクワクしますね。
構築すべき新しいものがたくさんあります。基礎モデルの進歩が今ここで止まったとしても、それはないと思いますが、業界にとっては、これまでに構築されたすべてのものを最も効果的に使用する方法を見出すのに5年はかかるでしょう。
しかし、実際には基礎モデルや基礎研究の進歩は加速していると思います。かなり激動の時代です。
あなたのビジョン...
これはすべて、あなたが実現させたようなものですね。
ありがとうございます。
前回の会話で...
ありがとうございます。
CEOは繊細な花なんです。たくさんの...
ええ、この時点では私たちはかなり強くなっています。
私たちは業界で最も長く続いている創業者の2人だと思います。
そうですね、その通りです。
あなたの髪は白くなりました。私の髪は長くなっただけです。
私の髪は白くなりました。あなたの髪は巻き毛になりましたね、どうしたんですか?
いつも巻き毛でした。だから短く保っていたんです。
なるほど。ただ...
成功するのにこんなに時間がかかるとわかっていたら、始めなかったでしょう。
いいえ、あなたのように大学を中退していたでしょう。先行していたでしょうね。
それは私たちのパーソナリティの良い違いですね。あなたは12年先行しています。それはかなりの先行です。
あなたはとてもうまくやっていますよ。私は...
私は続けていけるでしょう。そう言っておきましょう。
そうですね。
あなたのビジョンで私が大好きなのは、誰もがAIを持つことができ、すべてのビジネスがAIを持つことができるということです。私たちの会社では、すべてのエンジニアとすべてのソフトウェア開発者がAIを持つことを望んでいます。あるいは多くのAIを。
あなたのビジョンで私が大好きなのは、誰もが、そしてすべての企業が自分自身のAIを作ることができるべきだとあなたが信じていることです。Llamaをオープンソースにしたとき、私はそれが素晴らしいと思いました。Llama 2.1、ところでLlama 2は昨年のAIにおける最大のイベントだったと思います。その理由は...
私はH100だと思っていましたが、まあ、鶏と卵の問題ですね。
そうですね、鶏と卵の問題です。
どちらが先だったのでしょうか? H100ですね。
実際、Llama 2はH100ではありませんでした。
A100でしたね。
ありがとうございます。
しかし、私がそれを最大のイベントだと言った理由は、それが登場したとき、すべての企業、すべての産業が活性化されたからです。突然、すべてのヘルスケア企業がAIを構築し始めました。すべての大企業、小企業、スタートアップがAIを構築し始めました。
すべての研究者がAIに再び取り組むことを可能にしました。なぜなら、彼らには何かをする出発点があったからです。そして今、3.1が出て、その興奮は計り知れません。ご存知の通り、私たちは協力して3.1をデプロイし、世界中の企業に提供しています。その興奮は計り知れません。
そして、これはあらゆる種類のアプリケーションを可能にすると思います。しかし、あなたのオープンソースの哲学について教えてください。それはどこから来たのですか? PyTorchをオープンソース化し、それは今やAIを行うためのフレームワークとなっています。そして今、Llama 3.1またはLlamaをオープンソース化しました。その周りには全生態系が構築されています。私はそれが素晴らしいと思います。しかし、それはすべてどこから来たのですか?
はい、これには多くの歴史があります。私たちは長年にわたって多くのオープンソース作業を行ってきました。その一部は、率直に言えば、他のテック企業の後で始めたということです。分散コンピューティングインフラやデータセンターなどの構築において。そのため、私たちがそれらを構築したときには、それはもはや競争上の優位性ではありませんでした。
私たちは「よし、これをオープンにして、その周りのエコシステムから恩恵を受けよう」と考えました。そのようなプロジェクトがいくつかありました。おそらく最大のものは、Open Computeだったでしょう。サーバーデザイン、ネットワークデザイン、そして最終的にはデータセンターデザインを取り上げ、それらすべてを公開しました。
それが業界標準のようになることで、すべてのサプライチェーンがそれを中心に組織化され、結果的に全員にとってコスト削減につながりました。公開してオープンにすることで、基本的に何十億ドルも節約することができました。
Open Computeは、NVIDIAのHGXが、私たちが1つのデータセンター用に設計したものが、突然すべてのデータセンターで機能するようになった要因でもありました。
素晴らしい経験でした。そして、私たちはインフラツールの多く、ReactやPyTorchなどでも同じことをしました。Llamaが登場したときには、私たちはこれを行うことに前向きに傾いていたと言えるでしょう。
AIモデルに特化して言えば、いくつかの見方があります。1つは、過去20年間会社で様々なものを構築してきて、とても楽しかったということです。最も困難だったことの1つは、競合他社のモバイルプラットフォームを通じてアプリを提供しなければならなかったことです。
一方で、モバイルプラットフォームは業界にとって大きな恩恵でした。それは素晴らしいことでした。他方で、競合他社を通じて製品を提供しなければならないのは、挑戦的です。
私はウェブ上でFacebookの最初のバージョンを作った時代に育ちました。それはオープンでした。そして、モバイルへの移行により、良い点は誰もがポケットにコンピューターを持つようになったことです。悪い点は、私たちができることがかなり制限されるようになったことです。
これらのコンピューティング世代を見ると、大きな最近性バイアスがあります。誰もがモバイルだけを見て、閉鎖的なエコシステムだから、基本的にAppleが勝利し、条件を設定したと考えています。技術的にはAndroidの方が多くの端末がありますが、Appleが市場全体を持っています。そしてすべての利益も。基本的にAndroidはAppleの開発に追随しています。
つまり、Appleがこの世代を明らかに勝利したのです。しかし、常にそうだというわけではありません。1世代前を見ると、Appleは閉鎖的なことをしていました。しかし、Microsoftは完全にオープンな会社ではありませんでしたが、Appleと比べると、Windowsが様々なOEMや異なるソフトウェア、異なるハードウェアで動作していたので、はるかにオープンなエコシステムでした。Windowsが主導的なエコシステムでした。
基本的に、PCの世代では、オープンなエコシステムが勝利しました。そして、次のコンピューティング世代では、オープンなエコシステムが再び勝利し、主導的になることを願っています。常に閉鎖的なものとオープンなものがあるでしょう。両方を行う理由があると思います。両方に利点があります。私はこれについて熱心な信奉者ではありません。私たちもクローズドソースのものを作っていますし、公開しているものがすべてオープンというわけではありません。
しかし、一般的に、業界全体が構築しているコンピューティングプラットフォームについては、特にソフトウェアがオープンであることに大きな価値があると思います。これが私の哲学を形作ってきました。
LlamaによるAIと、ARやVRで行っている作業の両方において、基本的に私たちが混合現実用に構築しているHorizon OSをAndroidやWindowsのようなオープンな運営システムにし、基本的に多くの異なるハードウェア企業と協力して、あらゆる種類のデバイスを作ることができるようにしています。
基本的に、エコシステムをそのレベルに戻し、それがオープンなものになることを望んでいます。そして、次の世代では、オープンなものが勝利すると楽観的に考えています。
私たちにとって具体的には、アクセスを確保したいだけです。これは少し利己的ですが、しばらくこの会社を運営してきて、今後10年から15年の私の目標の1つは、私たちがソーシャル体験を構築する基礎技術を確実に構築できるようにすることです。
これまでに構築しようとして、プラットフォームプロバイダーに「いや、それは構築できない」と言われたことがあまりにも多かったので、私たちは最下層まで構築し、確実に...
私たちの放送の機会が失われましたね。
ええ、申し訳ありません。申し訳ありません。ビープ音が鳴りました。
20分くらいは大丈夫だったんですが...閉鎖的なプラットフォームについて話し始めると怒りが込み上げてきます。
ねえ、いいじゃないですか。素晴らしい世界だと思います。最高のAIを構築することに専念している人々がいて、彼らがどのように構築するにせよ、それをサービスとして世界に提供しています。そして...
しかし、自分自身のAIを構築したい場合でも、まだ構築することはできます。AIを使用する能力があります。たくさんのことがありますが、私はこのジャケットを自分で作りたくありません。誰かに作ってもらうことを好みます。分かりますよね?
しかし、だからこそ...
だからこそ、革がオープンソースであることは私にとって有用な概念ではありませんが、素晴らしいサービス、信じられないほどのサービスとオープンな能力の両方を持つことができるという考えは、基本的に全スペクトルを持つことになります。
しかし、3.1で行ったことで本当に素晴らしかったのは、4または5B、70B、8Bがあり、合成データ生成に使用したり、より大きなモデルを使って基本的に小さなモデルを教えたりできることです。より大きなモデルの方がより一般的で、脆弱性が少ないですが、それでも望む運用ドメインや運用コストに適合する小さなモデルを構築することができます。
Meta guardでしたっけ?
ええ、Llama Guardですね。
ええ、Llama Guard、ガードレールのためのLlama Guardです。素晴らしいですね。
そして今、モデルの構築方法は透明性のある方式です。世界クラスの安全チームを持っています。世界クラスの倫理チームを持っています。誰もが適切に構築されていることを知っているような方法で構築できます。私はその部分が本当に気に入っています。
ええ、そして、前の話題を終わらせるために、脱線する前に...私たちはこれを構築しています。なぜなら、私たちはこのものが存在することを望んでおり、何らかの閉鎖的なモデルから切り離されたくないからです。しかし、これは単なるソフトウェアのようなものではありません。エコシステムが必要です。
そのため、オープンソース化しなければ、あまりうまく機能しないかもしれません。私たちはこれを利他的な人々だからやっているわけではありません。これがエコシステムにとって役立つと思いますが、私たちはこれを行うことで、堅牢なエコシステムを持つことによって、私たちが構築しているものを最高のものにすると考えているのです。
PyTorchのエコシステムにどれだけ多くの人々が貢献したか見てください。
全くその通りです。山のようなエンジニアリングが行われています。
そうですね。NVIDIA単独でも、おそらく数百人がPyTorchをより良く、スケーラブルで、パフォーマンスの高いものにするために専念しています。
そうですね、また、何かが業界標準のようになると、他の人々もそれを中心に作業を行います。すべてのシリコンとシステムは、最終的にこれをとてもうまく実行するように最適化されるでしょう。それは誰にとっても利益になりますが、私たちが構築しているシステムともうまく機能するでしょう。
これは、この方法が非常に効果的になる理由の一例に過ぎません。そう、オープンソース戦略は、ビジネス戦略としても良いものになると思います。人々はまだそれをよく理解していないようです。
私たちはそれが大好きで、その周りにエコシステムを構築しました。AIファウンドリーと呼ばれるものを構築しました。
ええ、ええ。あなたたちは素晴らしいです。私たちが何かをリリースするたびに、あなたたちが最初にそれをリリースし、最適化し、機能させています。つまり、私はそれに感謝しています。
何と言えばいいでしょうか? 私たちには優秀なエンジニアがいます。そして...
あなたはいつもこういったものに素早く飛びつきますね。
私は高齢者ですが、敏捷です。それがCEOのすべきことです。そして、私は重要なものを認識します。重要なものを認識します。
Llamaは本当に重要だと思います。私たちはその周りにAIファクトリー、AIファウンドリーという概念を構築しました。それによって、誰もがAIを構築するのを手伝うことができます。多くの人々はAIを構築したいという欲求を持っていますが、自分でAIを所有することが非常に重要です。
なぜなら、一度それを自分のフライホイール、データフライホイールに組み込むと、それが会社の組織知識がAIに符号化され、埋め込まれる方法だからです。そのため、AIフライホイール、データフライホイール、経験フライホイールを他の場所に置くことはできません。
オープンソースによってそれが可能になりますが、彼らは本当にこの全体をAIに変える方法を知りません。そこで、私たちはAIファウンドリーと呼ばれるものを作りました。私たちはツールを提供し、専門知識を提供し、Llama技術を提供します。この全体をAIサービスに変える能力があります。
そして、それが終わると、彼らはそれを受け取り、所有します。その出力を私たちはNIMと呼んでいます。このNIM、このニューラルマイクロNVIDIA推論マイクロサービスを、彼らはダウンロードし、受け取り、好きな場所で実行します。オンプレミスも含めてです。
私たちにはNIMを実行できるOEMから、Llamaベースのニムとパイプラインを作成するためにトレーニングし、協力しているアクセンチュアなどのGSIまで、パートナーの全エコシステムがあります。そして今、私たちは世界中の企業がこれを行うのを助けています。本当にエキサイティングなことです。これはすべて、Llamaのオープンソース化がきっかけとなっています。
ええ、特に大きなモデルから人々が自分自身のモデルを蒸留する能力を助けることは、本当に価値のある新しいことになると思います。なぜなら、製品側で話したように、少なくとも私は、誰もが話すような1つの主要なAIエージェントがあるとは思っていないからです。
同じレベルで、誰もが使用する1つのモデルが必ずしもあるわけではないと思います。私たちにはチップAI、チップ設計AI、ソフトウェアコーディングAIがあります。そして、私たちのソフトウェアコーディングAIはUSDを理解しています。なぜなら、私たちはOmniverseのためにUSDでコーディングするからです。
Verilogを理解するソフトウェアAIもあります。私たちのVerilogです。バグデータベースを理解し、バグのトリアージを支援し、適切なエンジニアに送るソフトウェアAIもあります。
これらのAIのそれぞれがLlamaからファインチューニングされています。私たちはそれらをファインチューニングし、ガードレールを設けています。チップ設計用のAIがある場合、政治や宗教などについて尋ねることには興味がありません。そのためガードレールを設けています。
だから、私は各企業が持っている各機能に対して、そのために構築されたAIを持つことになると思います。そして、彼らはそれを行うための助けを必要としています。
ええ、将来の大きな問題の1つは、人々がより大きく、より洗練されたモデルを使用するのか、それとも自分たちの用途のために独自のモデルを単にトレーニングするのか、どの程度になるかということです。少なくとも私は、異なるモデルが大量に増殖すると賭けています。
私たちは最大のものを使用しています。その理由は、私たちのエンジニアの時間が非常に価値があるからです。現在、私たちは4または5Bを使用していて、パフォーマンスのために最適化しています。ご存知の通り、405Bはどんなに大きなGPUにも収まりません。
そのため、NVLinkのパフォーマンスが非常に重要です。私たちはすべてのGPUをNVLinkスイッチと呼ばれるノンブロッキングスイッチで接続しています。例えば、HGXにはそのようなスイッチが2つあり、これらすべてのGPUが協力して405Bを非常に高性能に実行できるようにしています。
私たちがそうする理由は、エンジニアの時間が私たちにとって非常に価値があるからです。可能な限り最高のモデルを使用したいのです。数セントのコスト効率の違いは気にしません。単に最高品質の結果が彼らに提示されることを確実にしたいのです。
ええ。405は、GPT-4oモデルの推論コストの約半分です。つまり、その水準では、すでにかなり良いですね。しかし、ええ、デバイス上で何かを行おうとしたり、より小さなモデルが欲しい人々は、単にそれを蒸留するでしょう。それは全く異なるサービスのセットです。
そのAIが稼働していて、そのチップ設計用のAIを雇っているとしましょう。おそらく時給10ドルです。それを常に使用し、多くのエンジニアでそのAIを共有しているとしたら。つまり、各エンジニアにはおそらく彼らと一緒に座っているAIがあります。そしてそれはあまりコストがかかりません。
私たちはエンジニアに多くのお金を支払っています。だから、私たちにとって、1時間数ドルは、非常に価値のある誰かの能力を増幅します。
ええ、ええ。私を説得する必要はありませんよ。
AIをまだ雇っていないなら、すぐに雇うべきです。それが私たちが言っていることです。
さて、次の波について話しましょう。あなたたちが行っている仕事で私が本当に好きなのは、コンピュータビジョンです。私たちが内部で多く使用しているモデルの1つは、Segment Everythingです。
私たちは現在、ビデオでAIモデルをトレーニングしているので、世界モデルを理解できます。私たちのユースケースはロボティクスと産業のデジタル化です。これらのAIモデルをOmniverseに接続して、物理的な世界をより良くモデル化し、表現し、これらのOmniverseの世界でロボットがより良く動作するようにします。
あなたのアプリケーション、Ray-Ban Metaグラス、仮想世界にAIを持ち込むというあなたのビジョンは本当に興味深いです。それについて教えてください。
ええ、そこにはたくさんの要素があります。あなたが話しているSegment Anythingモデルについては、実際に次のバージョンをここSIGGRAPHで発表します。Segment Anything 2です。
現在、より高速になり、ビデオでも機能します。ああ、ここにあります。これは実際に私のカウアイ島の牧場の牛だと思います。
ところで、これらはマークの牛と呼ばれています。
マークの牛、おいしそう。
次回私たちが...
そうですね、マークが私の家に来て、一緒にフィリーチーズステーキを作りました。次回は牛を持ってきてください。
私はもっと助手のようでした。しかし、それは本当においしかったです。
本当においしかったです。
その助手のコメント...
いいですか、聞いてください。
そして夜の終わりに、あなたは「十分食べましたか?」と聞きました。私は「分かりません、もう1つ食べられるかもしれません」と答えました。あなたは「本当に?」と言いました。
通常、ゲストに何か言うと...
私は確かに「ええ、もっと作りましょう、もっと作りましょう」と言いました。
十分食べましたか? 通常、ゲストは「ええ、大丈夫です」と言います。
ジェンセン、もう1つチーズステーキを作ってください。
彼がどれだけOCDかを知ってもらうために。私が振り返って、チーズステーキの準備をしていると、「マーク、トマトを切ってください」と言いました。そしてマークに包丁を渡しました。
ええ、私は精密なカッターです。
そして、彼は切ります。トマトを切ります。それぞれが完璧に、まさにミリ単位で同じです。
しかし、本当に面白いのは、私はすべてのトマトがスライスされて、カードのデッキのように積み重ねられていることを期待していました。しかし、振り返ると、彼はもう1枚の皿が必要だと言いました。
その理由は、彼が切ったすべてのトマトが、互いに触れ合っていなかったからです。1枚のトマトスライスを他のトマトから分離すると、二度と触れ合うことはありません。
ええ。もし触れ合わせたかったら、そう言う必要がありました。だから私は単なる助手なんです。分かりますか?
だから彼には判断しないAIが必要なんです。
ええ、そうですね。
これは本当にクールです。牛を認識し、追跡しています。
ええ、ええ。多くの楽しいエフェクトがこれで作れるようになります。そして、オープンになるので、業界全体でより真剣なアプリケーションも可能になります。
ええ、科学者はこれを使って、サンゴ礁や自然の生息地、景観の進化などを研究します。しかし、これをビデオで行い、ゼロショットで、対話的に何を追跡したいかを指示できるようになるのは、かなりクールな研究です。
例えば、私たちがこれを使用する理由は、例えば倉庫があり、多くのカメラがあり、倉庫AIがすべての出来事を監視しているとします。例えば、箱の山が倒れたり、誰かが地面に水をこぼしたり、何か事故が起ころうとしているとき、AIがそれを認識し、テキストを生成し、誰かに送信します。そして、助けが来るでしょう。
それがこれを使用する1つの方法です。すべてを記録する代わりに、事故が起きた場合、ビデオの毎ナノ秒を記録して後でその瞬間を取り出す代わりに、重要なものだけを記録します。なぜなら、それが何を見ているかを知っているからです。
ビデオ理解モデル、ビデオ言語モデルを持つことは、これらの興味深いアプリケーションすべてにとって本当に強力です。
さて、他に何を...スマートグラスの話をしてください。
ええ。次のコンピューティングプラットフォームについて考えるとき、私たちはそれを混合現実、ヘッドセット、スマートグラスに分解します。人々にとって、それを身に着けることの方が理解しやすいでしょう。なぜなら、今日眼鏡をかけているほとんどの人が、最終的にスマートグラスにアップグレードすることになるからです。それは世界中で10億人以上です。それはかなり大きなことになるでしょう。
VR・MRヘッドセットについては、ゲームや様々な用途に興味を持つ人もいれば、まだそうでない人もいます。私の見方では、両方が世界に存在することになるでしょう。スマートグラスは次のコンピューティングプラットフォームの携帯電話のような、常時接続バージョンになると思います。
混合現実ヘッドセットは、より没入型のセッションのためにワークステーションやゲームコンソールのようなものになるでしょう。より多くの計算能力にアクセスしたいときに使用します。つまり、グラスは非常に小さな形状です。そこには多くの制約があります。携帯電話で同じレベルのコンピューティングができないのと同じです。
これらの生成AIのブレークスルーがちょうどその時に起こりました。
ええ。基本的にスマートグラスについては、2つの異なる方向からアプローチしてきました。一方では、理想的なホログラフィックARグラスに必要だと考えられる技術を構築してきました。すべてのカスタムシリコン作業、カスタムディスプレイスタック作業、グラスで機能させるために必要なすべてのものを行っています。
ヘッドセットではありません。VRやMRヘッドセットではありません。グラスのように見えます。しかし、まだあなたが今かけているグラスからはかなり遠いです。それらは非常に薄いですが、私たちが作っているRay-Banでさえ、完全なホログラフィックARに必要なすべての技術をまだそこに収めることはできません。
近づいてきていて、今後数年でさらに近づくでしょう。まだかなり高価になりますが、それは製品になり始めると思います。
もう一つのアプローチは、良い外観のグラスから始めることです。世界最高のグラスメーカーであるEssilor Luxotticaと提携することで。彼らは基本的にあなたが使用するすべての大きなブランドを作っています。Ray-BanやOakley、Oliver Peoplesなど、ほんの一握りです。ええ、基本的にすべてEssilor Luxotticaです。
グラスのNVIDIAですね。
彼らはおそらくその比喩を気に入ると思います。でも、今の時点で誰がそう思わないでしょうか?
私たちは彼らとRay-Banで協力してきました。現在2世代目です。そこでの目標は、素晴らしく見えるものに形状を制限し、その中にできるだけ多くの技術を詰め込むことでした。技術的に理想とするものをすべて収めることはできないことを理解した上で、最終的には素晴らしい外観のグラスになります。
現在、カメラセンサーがあるので、写真やビデオを撮ることができます。実際にInstagramにライブ配信することもできます。WhatsAppでビデオ通話をして、相手に自分が見ているものをストリーミングすることができます。マイクとスピーカーもあります。スピーカーは実際にとても良いです。オープンイヤーなので、多くの人々はイヤホンよりも快適だと感じています。
音楽を聴くことができ、それはとてもプライベートな体験です。それはかなり素晴らしく、人々はそれを愛しています。電話を受けることもできます。
しかし、そのセンサーパッケージは、AIと話すために必要なものとまさに一致していることが判明しました。それは一種の偶然でした。5年前に、ホログラフィックARとAIのどちらが先に来るか聞かれたら、おそらくホログラフィックARだと答えたでしょう。
グラフィックスの進歩とディスプレイの進歩、そしてすべての仮想および混合現実に関する新しいディスプレイスタックの構築など、それに向けて継続的な進歩を遂げているように見えました。
その通りです。そして、このブレークスルーがLLMsで起こりました。ホログラフィックARを持つ前に、本当に高品質なAIを持ち、非常に速いペースで改善されていることが判明しました。これは私が本当に予期していなかった逆転です。
幸運なことに、私たちはこれらの異なる製品に取り組んでいたので、うまく位置づけられています。しかし、最終的には異なる価格帯で異なるレベルの技術を持つ一連の異なるグラス製品になると思います。
現在Ray-Ban Metasで見ているものに基づいて、私は300ドル程度の価格帯のディスプレイのないAIグラスが、数千万人または最終的には数億人が持つ本当に大きな製品になると推測します。
非常にインタラクティブなAIと対話できるようになりますね。先ほど示したような視覚言語理解があり、リアルタイム翻訳があります。私が一つの言語で話し、あなたが別の言語で聞くことができます。
そして、ディスプレイも明らかに素晴らしくなりますが、グラスに少し重さが加わり、より高価になります。完全なホログラフィックディスプレイを望む人々も多くいると思いますが、最終的に本当に薄いグラスのようなものを望む人々も多くいるでしょう。
産業用アプリケーションや一部の仕事用アプリケーションでは、それが必要です。消費者向けのものにも必要だと思います。
そう思いますか?
ええ、思います。コロナ禍の間、みんなが一時的にリモートになったとき、このことをよく考えていました。Zoomで多くの時間を過ごしていて、「これがあるのは素晴らしいけど」と思いましたが、将来的には、あまり多くの年月を要せずに、仮想ミーティングを持つことができるようになるでしょう。
私は物理的にここにいませんが、私のホログラムがいるだけです。そして、私たちがそこにいて物理的に存在しているように感じられます。一緒に何かに取り組み、協力することができます。しかし、これは特にAIで重要になると思います。
そのアプリケーションであれば、常に着用しているわけではないデバイスでも大丈夫です。
ああ、はい。
しかし、実際にそうなる地点に達すると思います。
ええ、グラスの中には薄いフレームと厚いフレーム、そしてすべてのスタイルがあります。しかし、あなたのグラスの形状で完全なホログラフィックグラスを持つにはまだ時間がかかると思いますが、スタイリッシュな、少し厚めのフレームのグラスでそれを持つことはそれほど遠くないと思います。
サングラスは最近顔サイズになっていますね。それは見えます。
ええ、そのスタイルはとても役立ちます。
ええ、そうですね。私はスタイルインフルエンサーになろうとしています。グラスが市場に出る前に、これに影響を与えることができればと思っていますが...
あなたが試みているのは見えます。スタイルインフルエンサーとしてはどうですか?
まだ始まったばかりです。
そうですか?
まだ始まったばかりです。しかし、分かりません、ビジネスの将来の大きな部分が人々が着用するスタイリッシュなグラスを構築することになるなら、これは私がもう少し注意を払うべきことかもしれません。
その通りです。毎日同じものを着ていた私のバージョンを引退させなければなりませんね。しかし、グラスについても同じことが言えます。腕時計や携帯電話とは違って、人々は本当に皆同じように見えたくないのです。
だから、これは前に話したテーマに戻りますが、オープンなエコシステムに向かうプラットフォームだと思います。なぜなら、人々が求める形状とスタイルの多様性は膨大になると思うからです。
誰もが他の人がデザインした1種類のグラスを着けたいとは思わないでしょう。それは通用しないと思います。
そう思います。
マーク、コンピューティングスタックの全体が再発明されている時代に私たちが生きているのは、本当に信じられないことです。ソフトウェアについての考え方も変わっています。アンドレイが言うソフトウェア1、ソフトウェア2、そして今は基本的にソフトウェア3の時代です。
汎用コンピューティングから、これらの生成ニューラルネットワーク処理方式によるコンピューティングへと、コンピューティングの方法が変わっています。過去には考えられなかった能力やアプリケーションを今では開発できるようになりました。
そして、この生成AI技術は、消費者、企業、産業、科学にこれほど急速に影響を与えた技術を私は他に思い出せません。気候技術からバイオテクノロジー、物理科学まで、あらゆる科学分野において、生成AIがその根本的な移行の真っ只中にいます。
それに加えて、あなたが話していることは、生成AIが社会に深い影響を与えるということです。私たちが作っている製品も含めてです。そして、私が本当にワクワクしていることの1つ、誰かが先ほど私に尋ねたことですが、「ジェンセンAI」ができるのでしょうか?
それはまさにあなたが話していたクリエイティブAIですね。私たちは自分自身のAIを構築し、私が書いたすべてのものをロードし、質問に答える方法でファインチューニングします。そして、時間とともに、使用の蓄積により、本当に素晴らしいアシスタントと仲間になることを願っています。
多くの人々にとって、質問をしたり、アイデアを共有したりするのに、判断を恐れずに常に対話できる相手になるでしょう。先ほど言ったように、判断を下さないバージョンのジェンセンです。
私はそれらが本当に信じられないほどのものだと思います。私たちは常にたくさんのものを書いています。3つか4つのトピックを与えて、「これらが私が書きたいことの基本的なテーマです」と言い、私の声で書いて、それを出発点として使うことができるのは、どれほど素晴らしいことでしょうか。
私たちが今できることは本当にたくさんあります。あなたと一緒に仕事ができて本当に素晴らしいです。会社を築くのは簡単ではないことを知っています。あなたはデスクトップからモバイル、VR、AI、そしてこれらすべてのデバイスへとピボットしました。それを見るのは本当に、本当に、本当に驚異的です。
NVIDIAも何度もピボットしてきましたし、それがどれほど難しいかを正確に知っています。私たちの両方が長年にわたって多くの痛みを経験してきました。しかし、それが先駆者になり、イノベーションを起こしたいと思うために必要なことなのです。あなたを見ているのは本当に素晴らしいです。
そして同様に、私にとっても...以前やっていたことを続けながら、それに加えて新しいことをするのがピボットと言えるかどうかわかりませんが。しかし、これらすべてにはより多くの章があります。そして、あなたたちの歩んできた道のりを見るのも楽しかったです...
あなたたちが歩んできた道のりは、ちょうど私たちがこの期間を経て、みんながこう言っていた時期がありました。「いや、すべてがこれらのデバイスに移行し、非常に安価なコンピューティングになるだろう」と。しかし、あなたたちはこれを追求し続けました。「いや、実際には大規模なシステムが必要になり、並列化できるものが欲しくなるだろう」と。
あなたたちは逆の方向に進みました。
ええ。より小さなデバイスを作る代わりに、倉庫サイズのコンピューターを作りました。
少し流行に逆らっていましたね。
ええ、とても流行に逆らっていました。
そして今、それがクールになりました。グラフィックスチップ、GPUの構築から始めて、今ではGPUをデプロイするとき、まだHopperのH100と呼んでいますが、ザッカーバーグがH100と呼ぶときのデータセンターのH100は、60万台に近づいていると思います。
私たちは良い顧客です。
そうやってSIGGRAPHでジェンセンのQ&Aを得るんですね。
おや。待ってください。私はマーク・ザッカーバーグのQ&Aを得ていたんです。あなたが私のゲストでした。そして私は...
ある日電話をかけてきて、「ねえ、数週間後にSIGGRAPHでこういうことをやるんだ」と言いました。私は「ええ、その日は何もする予定がないと思います。デンバーに飛んでいきます。楽しそうです」と答えました。
その通りです。私はその午後何もしていませんでした。あなたは単に現れただけです。
しかし、本当に信じられないのは、あなたたちが構築するこれらのシステムです。それらは巨大なシステムで、調整するのが非常に難しく、運用するのも非常に難しいです。あなたは、GPUの旅に他の多くの人よりも遅れて参加したと言いましたが、ほとんどの人よりも大規模に運用していて、それを見るのは信じられないほどです。
あなたがやってきたすべてのことに対して、おめでとうございます。そして今や、あなたは本当にスタイルアイコンになりました。この人を見てください。
初期段階です。頑張っています。それは...
皆さん、マーク・ザッカーバーグです。
ありがとうございます。待ってください、待ってください。
ええと、前回一緒に会ったとき、夕食の後、マークと私は...
ジャージー交換をしました。
ジャージー交換をして、写真を撮りました。それがウイラルになって...
そして、彼は私のジャケットを着るのに何の問題もないと思いました。分かりません、これは私の雰囲気でしょうか?
そうあるべきです。そうですか?
ええ、実は、あなたのためにひとつ作りました。
本当ですか?
ええ。そちらはマークのです。ここに箱があります。黒くて、レザーで、シアリングです。
おや! これは私が作ったのではありません。オンラインで注文しただけです。
ちょっと待ってください。ここは少し寒いですね。これを着てみましょう。これは...
素晴らしい。あなたにはただ...
これは私にぴったりですか?
この人にはチェーンが必要です。次にお会いするときは金のチェーンを持ってきます。
公平を期すために、お知らせしますが。私は皆さんに、ロリが今年のSIGGRAPHを祝うために新しいジャケットを買ってくれたと言っていました。ご想像の通り、SIGGRAPHは私たちの会社にとって大きなものです。RTXがここで発表されました。素晴らしいものがここで発表されました。そして、このジャケットは新品です。文字通り2時間前のものです。
すごいですね。
そして、私たちはもう一度ジャージー交換をすべきだと思います。
そうですね。
これはあなたのです。これは使用済みなので、より価値があります。
どうでしょうか。
マークはかなりたくましいと思います。彼はかなり筋肉質です。
いいですよ。
あなたもですよ。
分かりました。分かりました。みなさん、ありがとうございます。マーク・ザッカーバーグ、素晴らしいSIGGRAPHをお過ごしください。

この記事が気に入ったらサポートをしてみませんか？