参考和訳 エヌビディア株式会社 (NASDAQ:NVDA) 株主・アナリスト向けカンファレンスコール 2023年3月21日

エヌビディア株式会社 (NASDAQ:NVDA) 株主・アナリスト向けカンファレンスコール 2023年3月21日 1:00 PM ET

会社参加者

Simona Jankowski - 投資家対応担当副社長

コレット・クレス - エグゼクティブ・バイスプレジデント兼チーフ・ファイナンシャル・オフィサー

Jensen Huang - 共同創設者、最高経営責任者、社長

電話会議参加者

針 俊哉 - ゴールドマン・サックス証券

C.J.ミューズ - エバーコア

ジョー・ムーア - モルガンスタンレー

ティム・アークリ - UBS

Vivek Arya - バンク・オブ・アメリカ

ラジ・ギル - ニーダム

Stacy Rasgon - バーンスタイン・リサーチ

アーロン・レイカーズ - ウェルズ・ファーゴ

マット・ラムジー - コーウェン

Blayne Curtis - バークレイズ

ウィリアム・スタイン - Truist

シモナ・ヤンコフスキー

皆さんこんにちは、そしてGTCへようこそ。こちらはNVIDIAのインベスターリレーションズ担当のシモナ・ヤンコウスキーです。皆さん、今朝は[indiscernible]をご覧いただけたでしょうか。また、本日の発表の詳細を記したプレスリリースとコールも公開しました。これからの1時間は、金融アナリストとの公開Q&Aセッションで、当社のCEOであるジェンセン・フアン、そしてCFOであるコレット・クレスが、今日の出来事について説明し、議論する機会を持つことになります。

その前に、セーフハーバーについて簡単に説明します。本日のディスカッションにおいて、私たちは現在の予想に基づく将来の見通しに関する記述を行うことがあります。これらは、多くの重要なリスクと不確実性を内包しており、当社の実際の結果は大きく異なる可能性があります。当社の将来の業績や事業に影響を与えうる要因については、当社の最新のForm 10-Kおよび10-Q、ならびに当社が証券取引委員会にForm 8-Kで提出する可能性のある報告書をご参照ください。当社のすべての記述は、現在入手可能な情報にもとづき、本日現在においてなされたものです。法律で義務づけられている場合を除き、私たちはそのような記述を更新する義務を負い ません。まず、ジェンセンから簡単なコメントをいただき、その後、ジェンセンおよびコレット・クレスへの質疑応答を行います。

それでは、ジェンセンにお願いします。

ジェンセン・ホアン(Jensen Huang

みなさん、こんにちは。GTCへようこそ。GTCは、アクセラレイテッド・コンピューティングの可能性を世界に伝え、それを利用する研究者や科学者の功績を称える、開発者のためのカンファレンスです。このカンファレンスで行われるいくつかのセッションをぜひご覧ください。本当に素晴らしいトピックを取り上げています。GTCの基調講演では、いくつかのことが強調されました。スライドに入る前に、コレットと私が最初のスライドと、参考のためにお渡しした残りのスライドについて説明します。

そして、しかし、最初に2、3のコメントをさせてください。今日のコンピューティングの中核をなす基本的なダイナミクスは、もちろん、あらゆる産業の歴史において最も重要なテクノロジードライバーの1つであるムーアの法則の影響を受けていますが、根本的には非常に大きな減速を迎えています。ムーアの法則は終わったと言えるかもしれません。歴史上初めて、汎用コンピューティングCPUを使用して、コストやパワーを増加させることなく必要なスループットを得ることができなくなったのです。そして、効率的な電力削減やコスト削減ができないため、コンピューティングの持続可能性を維持しながらワークロードの増加を維持し続けることは、世界にとって本当に難しいことなのです。

つまり、今日のコンピューティングにおける最も重要な要素、ダイナミクスの1つは持続可能性です。私たちは、できる限りすべてのワークロードを加速させ、パワーを取り戻し、取り戻したパワーを成長のために再投資することが必要です。ですから、まず最初にしなければならないのは、電力を無駄にしないこと、そして可能な限りすべてを加速させることで、持続可能性に焦点を当てました。私たちが使用したワークロードの例をいくつか紹介し、多くの場合、アプリケーションを40倍、50倍、60倍、70倍、100倍と高速化することができ、その過程で、コストを20分の1という桁違いの削減ができることを強調しました。このアプローチは簡単ではありません。アクセラレーテッド・コンピューティングは、フルスタックの挑戦です。NVIDIAのアクセラレーテッド・コンピューティングはフルスタックです。私は、過去に多くのセッションで、そのことについて話してきました。アーキテクチャから始まり、システム、システムソフトウェア、アクセラレーションライブラリ、そしてその上のアプリケーションまで。

私たちは、データセンター規模のコンピューティングアーキテクチャです。その理由は、一度アプリケーションをリファクタリングして高速化すると、アルゴリズムが高度に麻痺してしまうからです。そうすれば、スケールアウトも可能です。つまり、私たちの仕事では、加速コンピューティングの利点の1つは、スケールアップとスケールアウトが可能であることです。もちろん、非常に重要なものの1つは人工知能ですが、この組み合わせによって、多くのアプリケーションに100万倍の加速度をもたらすことができました。

NVIDIAのアクセラレーテッド・コンピューティング・プラットフォームは、マルチドメインでもあります。データセンターやコンピュータは1回きりの使用ではないので、これは本当に重要なことです。コンピュータがこれほど素晴らしい機器であるのは、複数の種類のアプリケーションを処理する能力があるからです。NVIDIAのアクセラレーション・コンピューティングは、素粒子物理学、流体力学、ロボット工学、人工知能、コンピュータ・グラフィックス、画像処理、映像処理など、マルチドメインに対応しています。これらのタイプのドメインはすべて、今日、膨大な量のCPUコア(ph)を消費し、膨大な量の電力を消費しています。私たちは、これらすべての領域を高速化し、消費電力とコストを削減する機会を得ました。

そして、もちろん、NVIDIAの加速コンピューティング・プラットフォームは、クラウド・トゥ・エッジです。これは、すべてのクラウドで利用可能な唯一のアーキテクチャです。そして、エッジでは推論システムや自律走行システム、ロボットの自動運転車などに利用できます。そして最後に、NVIDIAのアクセラレーション・コンピューティング・プラットフォームの最も重要な特徴の1つは、フルスタックでありながら、データセンター規模で設計・構築されていることです。クラウドからエッジまで利用可能です。完全にオープンなので、文字通り、世界中のどのコンピューティングメーカーのどのコンピューティングプラットフォームからでもアクセスすることができます。

これは、コンピューティング・プラットフォームの最も重要な特徴の1つです。そして、そのオープン性、リーチ性、加速能力によって、加速コンピューティングの好循環、好仮想循環が実現されたのです。アクセラレーテッド・コンピューティングと人工知能の登場です。私たちは3つのダイナミクスについて話をしました。そのうちの1つが「持続可能性」です。今お話した通りです。2つ目は、ジェネレーティブAIです。この10年間に行われた基礎研究は、当初、コンピュータビジョンと知覚における本当に大きなブレークスルーが、自律走行車やロボット工学などの産業革命につながりましたが、それは氷山の一角にすぎませんでした。

そして今、ジェネレーティブAIによって、私たちは知覚を超え、もはや世界を理解するだけでなく、大きな価値を持つレコメンデーションやコンテンツの生成を行うための情報の生成にまで到達しました。生成AIは人工知能の変曲点を引き起こし、世界中でAIの導入が一段と進み、非常に重要なのは、世界中のクラウドやデータセンターに展開される推論の量が一段と増加することです。

そして、基調講演で述べた3つ目のことは、デジタル化です。これは、人工知能を次の段階、つまりAIの次の波へと導くもので、AIはデジタル情報を操作し、テキストを生成し、画像を生成するだけではありません。しかし、AIは工場や物理的なプラントや自律システムやロボットを操作しています。この特定のケースでは、デジタル化は、世界最大の産業のいくつかを自動化する真の機会を持っています。そして私は、ある特定の産業のデジタル化について話しました。私は、オムニバースが産業のデジタル化のデジタル・フィジカル・オペレーティング・システムであることを例に挙げ、製品コンセプトの初期段階から、アーキテクチャ、製品デザインのスタイリング、デザインのコラボレーション、製品のシミュレーション、電子機器のエンジニアリング、バーチャル工場の立ち上げ、デジタルマーケティングや小売に至るまで、オムニバースがいかに使われているかを実演しました。

物理的な製品を扱う企業のあらゆる側面において、デジタル化には、物理的な世界をデジタルの世界に持ち込むためのコラボレーションを支援する自動化の機会がありますが、その結果どうなるかはよく分かっています。ひとたびデジタルの世界に入れば、ワークフローを加速させる能力、新製品のアイデアを発見する能力、新しいビジネスモデルを考案する能力、これらが途方もなく高まるのです。というわけで、デジタル化についてお話しました。基調講演でお話したのは、5つのテイクアウェイです。そして、今日もお話しします。もし、これらの分野でご質問があれば、ぜひお受けしたいと思います。

1つ目は、もちろん、生成的なAIがNVIDIAプラットフォームへの加速的な需要を牽引しているということです。私たちは、Hopperの発売で熱意に満ちて今年を迎えました。Hopperは、大規模な言語モデルや、今でいう基礎モデルのために設計されたトランスフォーマーエンジンを搭載していました。

このトランスフォーマーエンジンは、信じられないほど成功したことが証明されています。Hopperは、私が知る限り、ほぼすべてのクラウドサービスプロバイダーに採用され、OEMからも入手可能です。Hopperの需要が前世代に比べて増加していること、そしてHopperの需要が加速していることは、AIの変遷を物語っています。以前はAIの研究用でしたが、現在は生成AIによって世界中のあらゆる産業へのAIの導入が進んでいます。そして、非常に重要なのは、AIモデルの推論が非常に重要なステップを踏んでいることです。

つまり、ジェネレーティブAIが需要の加速を促しているのです。2つ目は、私たちが市場に投入する新しいチップについてお話しました。私たちは、できる限りあらゆるワークロードを高速化することに深く配慮しています。そして、最も重要なワークロードの1つは、もちろん人工知能です。また、データセンター全体のオペレーティングシステムも高速化する重要なワークロードです。巨大なデータセンターはコンピュータではなく、1つの巨大なシステムとしてオーケストレーションされ、運用されているコンピュータの艦隊であると想像してください。データセンターのオペレーティング・システムには、コンテナ化、仮想化、ネットワーク・ストレージ、そして非常に重要なセキュリティ、分離、将来的にはこれらすべてのアプリケーションの機密コンピューティングが含まれ、データセンターのファブリック全体で動作するソフトウェア層であるソフトウェア定義レイヤーを運用しています。このソフトウェア層は、多くのCPUコアを消費します。

率直に言って、運用されているデータセンターの種類にもよりますが、データセンターの電力の20%から30%がネットワークとファブリック、仮想化、ソフトウェア定義スタック、基本的にはオペレーティング・システム・スタックに費やされていても不思議ではありません。私たちは、最新のソフトウェア・デファインド・データセンターのオペレーティング・システムをオフロードし、加速させたいと考えています。このプロセッサはBlueFieldと呼ばれています。BlueFieldを採用した新しいパートナーやクラウドデータセンターを大量に発表しました。私はこの製品にとても興奮しています。この製品は、現代のデータセンターに貢献する最も重要なものの1つになると確信しています。

クラウドデータセンターはどこにでも存在するようになるでしょう。グレース・ホッパーを発表しましたが、これは主要な推論ワークロードの1つであるベクトルデータベース、データ処理、レコメンダーシステムに使用される予定です。レコメンダーシステムは、過去にお話ししたように、おそらく今日世界で最も価値があり、最も重要なアプリケーションの1つです。多くのデジタルコマースや多くのデジタルコンテンツは、洗練されたレコメンダーシステムがあるからこそ実現できています。レコメンダーシステムはディープラーニングに移行しつつあり、これは私たちにとって非常に重要な機会です。

Grace Hopperはそのために特別に設計され、大規模データベースのレコメンダーシステムを10倍高速化する機会を与えてくれました。Graceについてお話しました。Graceは現在、量産体制に入っています。Graceはサンプリングも行っています。Graceは、クラウドデータセンターのワークロードのうち、高速化が不可能な残りのワークロードのために設計されています。すべてを高速化すると、残るのは、非常に強力なシングルスレッド・パフォーマンスを求めるソフトウェアです。そして、シングルスレッド性能こそが、Graceのために設計されたものなのです。

また、Graceは、単に高速なコンピュータのCPUとしてではなく、非常にエネルギー効率の高いクラウドデータセンターのCPUとなるように設計しました。データセンター全体を1つのコンピュータとして考えたとき、データセンターがコンピュータであるとき、AIファースト、クラウドファーストのデータセンターを加速する文脈でCPUを設計する方法は、CPU設計が根本的に異なっています。私たちはGrace CPUを設計しました、失礼 -- ほんの少し手が届きませんね。グレイスCPUを設計しました。これはコンピュータモジュール全体です。これはCPUだけでなく、素晴らしいスーパーチップのコンピュータモジュール全体です。これはパッシブクールシステムに搭載され、クラウドデータセンターにGraceコンピュータを大量に積み上げることができます。私たちはGraceにとても期待していますし、現在サンプル出荷中です。

それでは。生成AIについては、推論作業量がステップ関数的に増加するという話をたくさんしました。そして、世界のデータセンターから発信される推論について本当に重要なことの1つは、一方では本当に加速されることを望んでいるということです。一方、推論はマルチモーダルです。つまり、推論したいワークロードは実にさまざまな種類に分かれるのです。例えば、ビデオに推論とAIを導入し、それを生成AIで補強することもあります。時には画像--美しい画像を生成し、共同制作者を支援することもあります。

また、テキストを生成することもあり、非常に長いテキストを生成することもあります。プロンプトが非常に長いので、非常に長い文脈を持つことができますし、非常に長いテキストを生成して、非常に長いプログラムを書くこともできます。このように、ビデオ、画像、テキスト、そしてもちろんベクターデータベースなど、それぞれのアプリケーションは異なる特性を持っています。クラウドデータセンターの課題として、一方では、これらのモダリティや多様な生成AIワークロードのそれぞれに特化したアクセラレータを用意したいと思うでしょう。

一方では、ワークロードが上下に移動するため、データセンターをカンジブルにしたいと思うでしょう。ワークロードは非常にダイナミックです。新しいサービスが登場し、新しいテナントが登場する。時間帯によって利用するサービスが異なるのに、データセンター全体を可能な限り活用したい。私たちのアーキテクチャの強みは、それが1つのアーキテクチャであることです。1つのアーキテクチャに4つの異なるコンフィギュレーションが用意されています。これらはすべて当社のソフトウェア・スタックを実行しています。つまり、時間帯によって、1つのアクセラレータのプロビジョニングが不足していたり、利用されていなかったりしても、そのクラスや構成を他のワークロードに提供することができるのです。

このようなデータセンターにおける融通性によって、私たちのアーキテクチャ、1つのアーキテクチャ、推論構成、推論プラットフォームは、さまざまなワークロードを最大限に高速化する能力を提供し、さらにデータセンター全体が柔軟で融通性があるのでワークロード量を完全に正確に予測する必要がありません。つまり、1つのアーキテクチャで4つのコンフィギュレーションが可能です。私たちが最も力を入れているコラボレーションとパートナーシップの1つが、Google Cloud、GCPです。

私たちは、Dataproc(ph)、Spark RAPIDSによるデータ処理の高速化など、非常に大きな分野でGCPと連携しています。データ処理は、クラウドデータセンターのワークロードの10%、20%、25%程度を占めており、CPUコアの負荷が最も高いワークロードの1つです。

私たちは、このデータ処理を高速化し、20倍のスピードアップを実現するとともに、多くのコスト削減を実現し、お客さまに喜んでいただく機会を得ました。また、非常に重要なことですが、それに伴って消費電力も大幅に削減されます。また、Tritonサーバーで推論を加速しています。また、生成AIモデルも加速しています。Googleは世界トップクラスの先駆的な大規模言語モデルを持っており、私たちはそれを加速して推論プラットフォーム「L4」に載せています。

そしてもちろん、ストリーミング・グラフィックスやストリーミング・ビデオも、私たちが加速させるチャンスがあります。私たちの2つのチームは、生成AIやその他のアクセラレーション・コンピューティングのワークロードを大量に取り込み、GCPで公開されたばかりのL4プラットフォームで加速させるために協力しています。ですから、私たちはこのコラボレーションにとても期待していますし、近々もっと多くのことをお伝えすることができます。3つ目は、アクセラレーション・ライブラリーについてです。先ほどもお話したように、アクセラレーション・コンピューティングはフルスタックの挑戦です。CPUとは異なり、ソフトウェアが書かれ、コンパイラを使ってコンパイルされ、汎用的なものなので、すべてのコードが実行されます。これがCPUの素晴らしい利点であり、ブレークスルーでもある汎用性です。

アクセラレーションの面では、ワークロードを高速化したい場合、アプリケーションを再設計し、アルゴリズムを全面的にリファクタリングする必要がありますが、私たちはそのアルゴリズムをアクセラレーションライブラリにコード化しました。加速度ライブラリとは、線形代数からFFT、流体力学や素粒子物理学、コンピュータグラフィックスなどに使うデータ処理、量子化学、画像再構成のための逆物理、などなど、あらゆるものを指します。

これらの領域には、それぞれ加速度ライブラリーが必要です。すべてのアクセラレーション・ライブラリには、ドメインを理解し、エコシステムと連携してアクセラレーション・ライブラリを作成し、エコシステムのアプリケーションに接続し、使用するドメインを強化し加速させることが必要です。私たちは常にアクセラレーション・ライブラリを改良し、インストール・ベースが、すでに投資した資本やインフラに対して、私たちが強化した最適化の恩恵を受けられるようにしています。ですから、NVIDIAのシステムを購入された方は、今後何年にもわたってアクセラレーションの恩恵を受けられるのです。同じプラットフォームであれば、導入後、その寿命が尽きるまで、4倍から10倍の性能向上を実現することも珍しくありません。

そのため、私たちはライブラリの改良を続け、新機能とさらなる最適化をもたらすことを嬉しく思っています。今年、私たちは100のライブラリと100のモデルを最適化し、リリースしました - 100のライブラリとモデルにより、より優れたパフォーマンスと機能を提供することができます。また、非常に重要な新ライブラリもいくつか発表しました。その中でも特に注目したいのは、cuLithoです。計算リソグラフィは、光学系を通過してマスク上のフォトレジストと相互作用する際に、[indiscernible]方程式を計算する逆物理の問題です。この逆物理と画像処理の能力によって、ウェハ上に形成したい最終的なパターンよりもずっとずっと大きな光の波長を使用することが可能になるのです。

これは、現代のマイクロチップ製造に目を向けると、実際に奇跡的なことです。最新世代では、13.5ナノメートルの光を使用しています。これはX線に近い光で、極端な紫外線です。しかし、13.5ナノメートルの光を使用すれば、数ナノメートル、3ナノメートル、5ナノメートルのパターンをウェハ上に作ることができます。つまり、ファジーライトやファジーペンを使って、紙の上に本当に細かいパターンを作るようなものなのです。そのためには、ASMLのような魔法のような装置、シノプシスの計算ライブラリ、TSMCが行う奇跡のような作業、そしてコンピュテーショナル・リソグラフィーと呼ばれるこの画像処理の分野などが必要です。私たちはここ数年、このパイプライン全体を高速化することに取り組んできました。このパイプラインは、今日のEDAの中で唯一最大のワークロードであり、計算量が多く、数百万、数千万のCPUコアが常に稼働して、さまざまなマスクを作成することを可能にしています。

将来のリソグラフィにもたらす魔法はますます高くなるため、製造プロセスのこのステップは、今後数年でより複雑になっていくでしょう。そして、機械学習や人工知能も必ず絡んでくるはずです。そのため、私たちにとって最初のステップは、このスタック全体を取り込んで加速させることです。そして、この4年間で、コンピュテーショナル・リソグラフィーを50倍に加速しました。もちろん、これにより、世界中の製造されるチップのサイクルタイム、パイプライン、スループット時間が短縮されます。もし、サイクルタイムを10%でも短縮できれば、世界にとっての価値は非常に大きなものになります。

しかし、本当に素晴らしいのは、膨大な電力を節約できることです。TSMCの場合、そして私たちがこれまでに行った仕事では、メガワットや数十メガワットの電力を5倍から10倍程度に削減することが可能です。このような電力削減は、もちろん製造の持続可能性を高めるものであり、当社にとって非常に重要な取り組みです。

ですから、cuLitho、とても楽しみです。最後に、私たちの歴史上、唯一最大のビジネスモデルの拡大についてお話します。私たちは、世界が激しくクラウドファーストになりつつあることを知っています。クラウドは、ウェブブラウザーを通じて、素早く、瞬時にコンピューティング・プラットフォームに関与する機会を与えてくれます。この10年間で、クラウドの機能は進化し続け、当初はCPUだけでHadoopやMapReduceを実行したり、クエリを実行したりしていたものが、今では高性能コンピューティング、科学計算システム、AIスーパーコンピューターをクラウドで利用できるまでになりました。

そこで、私たちは世界中のクラウドサービスプロバイダーと提携することになりました。そしてOCIを皮切りに、AzureやGCPとのクラウドパートナーシップも発表しています。私たちは、世界の主要なクラウドサービスプロバイダーと提携して、NVIDIA AI、NVIDIA Omniverse、NVIDIA DGX Cloudをクラウド上で実装--インストール、ホストしていくつもりです。その結果、NVIDIA AIとNVIDIA Omniverseの完全に最適化されたマルチクラウドスタックを手に入れることができるのです。そして、最も最適化された構成で世界のすべてのクラウドで楽しむことができます。そして、NVIDIAソフトウェアスタックのすべての利点を、最も最適な形で得ることができるのです。NVIDIAのコンピュータ科学者や専門家と直接仕事をすることができます。

ですから、非常に大規模なワークロードを持ち、アクセラレーションや最先端のAIの恩恵を受けたいと考えている企業にとって、私たちは世界の産業と関わることができる直接的なサービスを提供できるようになったのです。これは、NVIDIAがもたらす最高のものと、CSPがもたらす最高のものを組み合わせる素晴らしい方法です。NVIDIAは、クラウドのセキュリティ、セキュリティ、ストレージ、その他すべてのAPIサービスにおいて素晴らしいサービスを提供しており、あなたが選択したクラウドにすでに導入されている可能性も十分にあります。そして今、初めて両者の長所を組み合わせ、NVIDIAの長所をCSPの長所と組み合わせ、世界の産業界にその能力を提供することができるようになったのです。

今発表したサービスの1つは、NVIDIA AI、NVIDIA Omniverse、NVIDIA DGX Cloudというプラットフォーム・アズ・ア・サービスです。また、新しいレイヤーを提供--発表しました。私たちは、基礎的なモデルを構築するために、一緒に働く非常に多くのお客様、非常に多くの業界パートナーを持っています。もし、企業の顧客や業界が基礎的なモデルへのアクセスを望むなら、最も明白で最もアクセスしやすいのは、OpenAIやMicrosoft、Googleといった世界をリードするサービスプロバイダーと協力することです。これらはすべて、多くの産業で利用可能で、柔軟性が高く、役に立つように設計されたAIモデルの例です。

自社のデータに特化したカスタムモデルを構築したい企業もあるはずです。そして、NVIDIAはそれを実現するためのすべての機能を備えています。そして、自社独自のデータに基づくカスタムモデルを構築したいお客様には、実装したいガードレールであれ、実行したい命令チューニングの種類であれ、取得させたい独自のデータセットの種類であれ、その特有の方法で訓練し、開発し、推論します、 言語モデル、2D、3D、ビデオ、生物学における生成画像モデルなど、どのような特殊な要件であっても、NVIDIA DGXクラウド上でモデルを作成し、微調整し、展開することを支援するサービスを提供しています。DGXクラウドは、先ほど申し上げたように、世界の主要なCSPのすべてで稼働しています。ですから、もしあなたがすでにお好みのCSPをお持ちなら、その中でホストすることができると確信していますよ。

それで、NVIDIAクラウドサービスは私たちのビジネスモデルを拡大するもので、Infrastructure as a Service、DGX Cloud、Platform as a Service、NVIDIA AI、NVIDIA Omniverse、そして、カスタム設計の新しいAIサービスがあり、基本的には世界の産業で利用できるAIモデルの鋳造所で、すべて世界で--世界の主要CSPと連携して提供します。というわけで、以上です。以上が、私たちの発表です。まだまだ続きますので、よろしくお願いします。GTCにご参加いただきありがとうございました。

それでは、コレットと私で質問にお答えします。

質疑応答の様子

A - シモナ・ヤンコフスキー

イェンセン ありがとうございます。財務アナリストの皆様をQ&Aセッションにお迎えしましょう。Zoomで質問をお受けしています。[最初の質問は、ゴールドマン・サックスの針俊哉さんからです。

針 俊也

このフォローアップを開催していただき、どうもありがとうございました。Jensen、推論の機会について1つ質問させてください。トレーニングの分野では、明らかに貴社が圧倒的な強さを誇っており、もう何年もそうしてきました。しかし、推論分野では、CPUを中心とした既存の技術に押され、競争環境は少し複雑になっていると思います。しかし、この新しい推論プラットフォームを導入したことは、非常に心強いことです。LLMやGoogleとの協業など、推薦システムの重要性が叫ばれる中、市場は御社の方向へ動いているように思います。3~5年後の推論、いわゆる「推論」の機会について、現在の状況に対してどのように考えるべきでしょうか?また、今後2、3年の間に、Graceがそこで果たす役割についてどう考えるべきでしょうか?

ジェンセン・フアン

はい、トシさん、ありがとうございます まず、逆算してみます。3年から5年で、今作っているAIスーパーコンピューター、これは紛れもなく今世界が作っている最先端のコンピューターです。もちろん、巨大なスケールです。NVLinkのようなコンピューティング・ファブリック、コンピューティング -- InfiniBandのような大規模なコンピューティング・ファブリック、そしてそのすべてをつなぐ非常に高度なネットワーキングが含まれています。ソフトウェアスタック、オペレーティングシステム、分散コンピューティングソフトウェアは、まさにコンピュータサイエンスの限界に達しています。

なぜなら、人々が開発したAIモデルは、基本的に永遠に微調整され、改良されるからです。そして、すべての企業がインテリジェンス・メーカーになると私は信じています。すべての企業の中核にあるのは、インテリジェンスの生産です。そして、私たちが持つ最も価値のあるデータは、すべて独自のものです。この会社の壁の中にあるのです。そのため、私たちは今、AIシステムを構築し、データをキュレーションし、データをパッケージ化して、独自のモデルやカスタムモデルのトレーニングに使用することで、ビジネスを加速させることができる能力を備えています。このシステム、つまりAIトレーニングシステムは、継続的に利用することができます。次に、推論です。推論は、これまで大部分がCPU指向のワークロードでした。その理由は、現在世の中にある推論のほとんどはかなり軽量だからです。ショッピングや本、クエリなどに関するものを勧めることが多いかもしれません。そして、この種のレコメンデーションは、大部分がCPU上で行われている。

将来的には、現在、動画でさえもCPUで処理されているのには、いくつかの理由がある。将来、何が起こるかというと、現時点では避けられない2つの基本的な力学があります。そして、それはかなり長い間、避けられないものでした。今や避けられないのです。そのひとつは、持続可能性です。このようなビデオワークロードをCPUで処理し続けることはできません。ディープラーニングモデルをCPUで処理するのは、たとえサービス品質が多少劣っていたとしても、電力を消費しすぎてしまうのです。このように、すべてを高速化しなければならない第一の理由は、持続可能性のためです。ムーアの法則が終わったからこそ、すべてを加速させなければならないのです。そして、このような感覚は、今やあらゆるクラウドサービスプロバイダーに浸透しています。なぜなら、アクセラレーションを必要とするワークロードの量が非常に増えたからです。そのため、加速度に対する注目度や警戒度が高まっているのです。また、第二に、ほとんどの企業が電力不足に陥っています。ですから、将来的に成長するためには、加速によってパワーを取り戻し、それを成長に還元する必要があるのです。

そして、2つ目の理由は、ジェネレーティブAIが登場したことです。私たちが作成する技術、チャットボット、対話、使用するスプレッドシート、パワーポイント、フォトショップなど、私たちが行うすべてのことを加速させる、共同創造者や副操縦士から恩恵を受け、増強される、あらゆる産業が登場するでしょう。その結果、トレーニング用AIやAIスーパーコンピュータがAI工場になると思います。そして、すべての企業がオンプレミスかクラウドを持つようになるでしょう。そして第二に、将来、あなたがコンピューターと交わすほぼすべてのインタラクションに、何らかの生成AIが接続されるようになるでしょう。そのため、推論作業の負荷は非常に大きくなります。私の感覚では、推論はバランスよく、推論よりも訓練よりも大きくなると思っています。しかし、トレーニングはそれに匹敵するものになるでしょう。

シモナ・ヤンコウスキー

次の質問は、EvercoreのCJ Museさんです。

C.J.ミューズ

私の質問には、Graceに焦点を当てたいと思います。これまでは、GraceとHopperの組み合わせのメリットを説明されることがほとんどでした。今日は、私が予想していたよりも、Grace単体にも少し力を入れているようですね。サービスCPUのシェア拡大見通しについて、見解が変わったのかどうか、お聞かせください。また、Grace単体、Graceスーパーチップ、そしてGrace Hopperの組み合わせについて、長期的な収益貢献の可能性をどう考えるべきでしょうか。

ジェンセン・フアン(Jensen Huang

オチから逆算してみます。Graceは私たちにとって大きなビジネスになると思いますが、アクセラレーション・コンピューティングの規模には到底及ばないでしょう。その理由は、加速できるワークロードはすべて加速しなければならないと、私たちが純粋に思っているからです。データ処理はもちろん、コンピューターグラフィックス、ビデオ処理、ジェネレーティブAIまで、あらゆるものがそうです。加速できるワークロードはすべて加速させなければなりません。つまり、加速できないワークロードがあるということです。別の言い方をすれば、シングルスレッド・コードです。アムダールの法則がまだ有効なので、シングルスレッド・コードになります。残っているものはすべてボトルネックになる。シングルスレッド・コードは、データ処理、大量のデータの取得、大量のデータの移動に大きく関係しているため、2つのことに長けているCPUを設計しなければならないのです。まあ、2つのことプラス設計のポイントということにしておきましょう。

CPUに求める2つの特性とは、シングルスレッド性能が非常に優れていることです。コアの数ではなく、シングルスレッド・コアの性能がいかに優れているかが重要なのです。そして、ナンバーワン。2つ目は、移動させるデータの量が並外れていなければならないことです。このモジュールは、1秒間に1テラバイトのデータを移動させます。これが、データセンターの耐障害性を高めるために携帯電話のDRAMを使うという新しい方法を考案し、当社のサーバーに採用した理由です。

携帯電話の容量は非常に大きいので、費用対効果は抜群です。電力は1/8です。また、データの移動は、私たちにとって必要不可欠なワークロードであるため、それを削減することができました。そして最後に、超高速のCPUコア(CPU)だけを作るのではなく、超高速のCPUノードを設計し、システム全体を設計しました。そうすることで、電力に制限のあるデータセンターで、できるだけ多くのCPUを使えるようにすることができるのです。ムーアの法則が終わりを告げた今、アクセラレーション・コンピューティングが今後のコンピューティングの主流になるだろうということです。しかし、今後残るのは、重いデータ処理、重いデータ移動、シングルスレッド・コードです。そのため、CPUは今後も非常に重要な存在であり続けるでしょう。ただ、設計のポイントはこれまでとは異なるでしょう。

シモナ・ヤンコフスキー

次の質問は、モルガン・スタンレーのジョー・ムーア氏です。

ジョー・ムーア

推論に関する質問のフォローをしたかったのです。このクエリあたりのコストは、ジェネレーティブAIのお客様にとって大きな焦点になってきています。そして、彼らは、今後数四半期、数年で、かなり大幅な削減をすると話しています。NVIDIAにとってそれが何を意味するのか、話していただけますか?これは長期的にH-100ワークロードになるのでしょうか?また、そのコストを下げるために、あなた方はどのように顧客と協力しているのでしょうか?

ジェンセン・フアン(Jensen Huang

そう、いくつかの力学が同時に動いているのです。一方では、モデルの大型化が進んでいます。なぜ大型化するかというと、私たちがより優れたタスクを実行したいと思ったからです。そして、モデルの能力、品質、汎用性は、モデルのサイズやモデル、そのモデルを訓練するデータ量と相関があることを示すあらゆる証拠があるのです。そのため、一方では、より大きく、より多用途に使えるようにしたいと考えます。その一方で、ワークロードには実にさまざまな種類があります。すべてのワークロードを推論するために、最大のモデルが必要なわけではないことを忘れないでください。そのため、私たちは5300億のパラメータ・モデル(ph)を持っています。400億のパラメータ・モデルがあります。200億のパラメータ・モデルもあれば、80億のパラメータ・モデルもあるのです。なぜ大規模なモデルが必要かというと、最低限、小規模なモデルの品質を向上させるために大規模なモデルが使われるからです。学生の質を高め、他の学生の質を高めるために教授が必要なのと同じようなものです。

このように、さまざまなユースケースがあるため、モデルのサイズもさまざまになります。そのため、私たちはそれらすべてにわたって最適化を図っています。適切なサイズのアプリケーションには、適切なサイズのモデルを使用する必要があります。私たちの推論プラットフォームは、L4からL40までのすべての領域に対応しています。そして、今週発表したものの中に、このような素晴らしいものがあります。これはHopper H100 NVLinkで、私たちはH10 0NVLと呼んでいます。これは基本的に2台のホッパーをNVLinkでつないだものです。その結果、180ギガバイト、190ギガバイト、ほぼ190ギガバイトのHBM3メモリが搭載されています。この190ギガバイトのメモリによって、最新の大型推論言語モデルの推論から、非常に小さな構成の推論まで、このデュアルH100システムソリューションでは、18個までパーティションで分割することができます。18個ですか?16種類です。後で間違っていたら訂正してください。16個か18個か、私たちはマルチプルインスタンスGPU MIGと呼んでいます。

これらの小型GPU、あるいはGPUの端数は、異なる言語モデルを推論することもできますし、全体を接続することもできますし、4つのGPUをPCI Expressサーバー(コモディティサーバー)に入れ、そこに大きなモデルを分散させることも可能です。これは、性能が信じられないほど高いので、すでに削減されています。A100に比べれば、言語推論のコストは10分の1程度になりました。言語モデルをより良くし、小型モデルをより効果的にし、さらに各推論をより費用対効果の高いものにし、NVLのような新しい推論プラットフォームを使って、あらゆる次元で改善を続けていく予定です。

そして、非常に重要なのは、ソフトウェアスタックです。私たちは、常にソフトウェアスタックを改良しています。ここ2、3年の間に、非常に多くの改良を行いました。たった2、3年の間に、桁違いの進歩を遂げました。今後も、そのような取り組みを続けていく予定です。

シモナ・ヤンコフスキー

次の質問はUBSのティム・アークリさんです。

ティム・アークリ

ジェンセン、グーグルがあなたのシステムで大規模な言語モデルを推論しているという話を聞いたような気がするのですが。それが本当なのかどうか確認したかったのです。つまり、新しいL4プラットフォームを使っているということでしょうか?もしそうなら、それは新しいものなのでしょうか?つまり、以前はTPUを使っていたが、今は新しいL4プラットフォームを使っているということですか?その辺の詳細が知りたいのです。

ジェンセン・フアン(Jensen Huang

GCPとのパートナーシップは、とてもとても大きな出来事です。そして、AIの変曲点でもありますが、私たちのパートナーシップの変曲点でもあります。Googleが持つ最先端のモデルをクラウドで実現するために、多くのエンジニアが一緒になって取り組んでいます。そして、L4は多目的な推論プラットフォームです。ビデオ会議にも使えるし、生成モデル用の画像生成、大規模言語モデル用のテキスト生成も可能です。基調講演では、Googleと共同でL4プラットフォームに導入するモデルのいくつかを紹介しました。L4は、まさに驚異的な推論プラットフォームとなることでしょう。L4は非常にエネルギー効率が高いです。わずか75ワットです。性能は桁外れで、しかも導入が非常に簡単です。それで、この...一方の端のL4の間をお見せしますと、これがL4の間です。L4の間...これはL4です。これがL4で、これがH100です。これがL4です。この2つのプロセッサーの間には、約700ワットの電力があります。そしてこれが75ワットです。

これが我々のアーキテクチャのパワーです。1つのソフトウェア・スタックは、この上でもこの上でも動作させることができます。ですから、モデルのサイズやサービス品質に応じて、これらをインフラに導入することができますし、両者は混在可能です。GCPとのパートナーシップにとても期待していますし、GCP上の推論プラットフォームに持ち込むモデルは、基本的に全般的なものです。

シモナ・ヤンコフスキー

次の質問は、バンク・オブ・アメリカのヴィヴェック・アリヤさんです。

ビベック・アーリア

ヤンセン、コレット、とても有益なイベントをありがとうございました。そこで、短期的な質問と長期的な質問があります。短期的な質問としては、Hopperの在庫状況について、供給面でどうなっているかということです。そして、長期的には、ジェンセンから、さまざまなソフトウェアやサービスの革新について聞きました。その進捗状況をどのように把握すればいいのでしょうか?ソフトウェアの売上高については、最後に数億円という数字を聞いたと思うのですが。つまり、売上の1%程度ですね。今後数年間、何をもって成功とするのでしょうか?また、今後、ソフトウェアやサブスクリプションが売上に占める割合はどのくらいになるとお考えでしょうか?

コレット・クレス

まず、ヴィヴェックから、H100の供給についてお聞かせください。はい、当四半期の需要に対応するため、H100の増産を続けています。しかし、ハイパースケールのお客様がAIに注力する中で、当社のすべてのデータセンター・プラットフォームに対する需要が高まっていることも念頭に置いておいてください。ですから、決算の話をしたこの1ヶ月間でも、ますます需要が高まっているのです。ですから、私たちは供給を続けていく中で、この市場に貢献できると確信していますが、現時点では良い環境にあると感じています。

ジェンセン・フアン(Jensen Huang

ソフトウェアとサービスは、私たちのビジネスの中で非常に大きな割合を占めることになると思います。しかし、ご存知のように、私たちはあらゆる層で市場にサービスを提供しています。つまり、ある企業が、あるいはある顧客が、ハードウェアのインフラストラクチャー・レベルで私たちと仕事をすることを望むのであれば、私たちはそれを歓迎するのです。また、ハードウェアとライブラリの組み合わせで私たちと一緒に仕事をしたいとお考えであれば、喜んでお引き受けしますし、プラットフォームのレベルでも喜んでお引き受けします。

また、サービスレベルでも、どのレベルでも、包括的に私たちと一緒に仕事をしたいとお考えのお客様には、喜んでお引き受けします。このように、私たちは3つのレイヤーをすべて成長させるチャンスを持っています。ハードウェアのレイヤーは、もちろん、すでに非常に大きなビジネスです。そして、コレットが言ったように、私たちのビジネスの一部であるジェネレーティブAIは、そのビジネスの加速を促進しています。そしてプラットフォームレイヤーでは、この2つのレイヤーがちょうどクラウドサービスとして立ち上がっています。オンプレミスを希望される企業様には、サブスクリプションを基本としています。しかし、マルチクラウド化が進む今日、オンプレミスだけでなく、クラウド上にもソフトウェアが必要なことは周知の通りです。そのため、マルチクラウドやハイブリッドクラウドに対応できることは、私たちの2つのソフトウェアプラットフォームにとって、本当の意味でのメリットであり、恩恵であると言えます。そして、これはまだ始まったばかりです。

そして最後に、AI基盤サービスは発表されたばかりで、まだ始まったばかりです。前回発表したモデルには、今日お話ししているような私たちの感性が含まれていると言えると思います。私たちは、今日に向けて土台を作り、道筋をつけるということを話してきました。今日は私たちにとって非常に大きな日であり、おそらく当社の歴史上最大のビジネスモデル拡大イニシアチブの開始となります。それで、今日の3億ドルのプラットフォームとプラットフォーム・ソフトウェアとAIソフトウェア・サービスは、今、引っ張りだこだと思います。しかし、やはりそれは--その規模は、以前説明したものと一致すると思います。

シモナ・ヤンコウスキー

次の質問は、Needham社のRaji Gill氏からです。

ラジ・ギル

ただ、メモリとコンピュートの関係について、技術的な観点から質問させてください。おっしゃる通り、こうした生成型AIモデルは膨大な量のコンピュート(計算機)を作り出しています。しかし、メモリモデルについてはどのようにお考えでしょうか?また、メモリを潜在的なボトルネックとして捉えているのでしょうか?では、メモリの分解問題をどのように解決しているのでしょうか?それは理解するのに役立つと思います。

ジェンセン・フアン(Jensen Huang

そうですね。コンピューティングでは、すべてがボトルネックになることがわかったんです。コンピュータの限界に挑戦する、それが私たちの仕事ですが、私たちは普通のコンピュータを作りません。ご存知のように、私たちは極限のコンピュータを作ります。私たちが作るようなコンピュータでは、処理がボトルネックになります。つまり、実際の計算がボトルネックになり、メモリの帯域幅がボトルネックになり、メモリの容量がボトルネックになり、ネットワークやコンピュータファブリックがボトルネックになり、ネットワークがボトルネックになり、利用がボトルネックになります。すべてがボトルネックなのです。私たちはボトルネックの世界に住んでいるのです。私はボトルで囲まれていました。今お話にあったように、私たちが使用するメモリの量、つまりメモリ容量が非常に増えています。

その理由は、もちろん、モデルをトレーニングするための生成的なAI作業のほとんどは多くのメモリを必要としますが、推論には多くのメモリが必要なのです......言語モデルの実際の推論そのものは、必ずしも多くのメモリを必要としません。しかし、言語モデルを補強する検索可能なモデルに接続し、チャットボットを独自のデータで補強したい場合、それはあなたにとってカスタムで、あなたにとって独自で、あなたにとって非常に重要な、非常によくキュレーションされたデータです(医療記録、生物学の特定のタイプの領域、チップ設計に関連するものかもしれません。NVIDIAのドメイン知識、NVIDIAの特徴、NVIDIAの専有データがすべて社内に埋め込まれているデータベースは、大規模な言語モデルを使用して、言語モデルを補強するためのデータセットを作成することができるようになりました。そのため、大量のデータだけでなく、高速のデータも必要になってきています。大量のデータ、そのためのアイデアはたくさんあります。もちろん、SSDやCXL、手頃な価格の分割メモリなど、さまざまな研究が行われています。

しかし、これらはいずれも高速メモリではありません。手頃な価格のメモリです。これは手頃な価格のメモリで、大量のアクセス可能なホットメモリですが、高速なメモリではありません。必要なのは、グレース・ホッパーが行ったようなことです。0.5テラバイトのデータに対して、1秒間に1テラバイトのアクセスが必要なのです。もし、0.5テラバイトのデータに1秒間に1テラバイトのアクセスができれば、分散コンピューティングシステムで1ペタバイトのデータを扱う場合、どれだけの帯域幅を確保できるか想像してみてください。このように、非常に高速で非常に大容量のデータ処理というアプローチは、まさにグレース・ホッパーが目指していたものなのです。

シモナ・ヤンコフスキー

次の質問は、Bernstein ResearchのStacy Rasgon氏からです。

ステイシー・ラスゴン(Stacy Rasgon

DGX Cloudビジネスの経済性について、もう少し詳しく教えてください。クラウドベンダーがインフラを負担して、それをあなたがリースして運用するのでしょうか?また、その仕組みはどうなっているのでしょうか。また、お客さまはどのように支払うのでしょうか。顧客から利益を得るのは誰なのか?また、どのような価格設定をしているのでしょうか。このような仕組みやモデルへの影響について教えていただけると、とても助かります。

ジェンセン・フアン

はい、ステイシーさん、ありがとうございます。まず、流れとしてはこのようになります。私たちは、NVIDIA DGX CloudのパートナーシップをCSPパートナーに提示しました。そして、彼らは皆、それについて非常に興奮しています。その理由は、NVIDIA DGX Cloudは、非常に重要な顧客や、ストレージ、セキュリティ、その他多くのアプリケーションAPIを利用する大規模なパートナーのオンボーディングを担っているためです。そこで、NVIDIA DGXクラウドをレンタルし、そのインスタンス、いわゆるリザーブドインスタンスを自分たちで市場に投入して顧客を獲得するというアイデアを提示したところ、彼らは非常に喜んでくれました。もちろん、NVIDIAは、世界中の多くの大規模な垂直エコシステムと非常に深い関係を持っています。皆さんにお送りしたスライドデッキの中で、ヘルスケアと創薬の2つを取り上げましたが、そこでは多くの企業と非常に深い関係を持っています。

また、地球上のほぼすべての自動車会社と深い関係を築いています。この2つの業界は特に、最新世代のAI、つまりジェネレーティブAIやオムニバースのデジタル化を活用することが急務となっています。そこでまず、私たちは彼らにパートナーシップを提案するアイデアや企画書を提示します。そして、彼らが興味を持てば、これまでのところ、非常に熱心に取り組んでくれています。そして、DGXクラウドを立ち上げるためのシステムを購入することになるのですが、そのシステムには、他の人の機材も含まれていますが、私たちの機材も含まれています。そして、クラウドサービスプロバイダーは、インフラを立ち上げ、ホストし、管理するために、電力、ネットワーク、ストレージなど、あらゆるインフラを調達するわけですね。これがステップ2です。そして、ステップ3では、DGXクラウドサービスを市場に投入し、私たちが提供するすべての価値を組み合わせて、価格を設定し、お客さまと直接取引することになります。

シモナ・ヤンコフスキー

次の質問は、ウェルズ・ファーゴのアーロン・レイカーズさんです。

アーロン・レイカーズ

先ほどのTJの質問に戻りますが、Graceの広さ、Grace Supershipではなく、Grace CPUの戦略について教えてください。データセンターのクラウドワークロードは、シングルスレッドで処理されることが多いのですが、その進化を考える上で、どのようなことが考えられますか。その中で、サーバーパートナーがGrace CPUを導入しても、H-100やそれ以降のGPUが導入されないような状況は想定していますか?シングルCPUの導入は、御社にとって市場機会だとお考えでしょうか?

ジェンスン・フアン

そして、また逆算してみます。この質問はありがたいですね。答えは「イエス」です。しかし、Graceは本当にニッチな市場をターゲットにしています。その点だけははっきりさせておきましょう。x86は、私たちの会社ではすべてx86を使用しています。また、PCやワークステーションにもx86を使用しています。新しいワークステーションのラインには、Intel Sapphire Rapidsを使ったエキサイティングなゴー・トゥ・マーケットを用意しています。DGXにはSapphire Rapidsを使用しています。その理由は、Sapphire Rapidsのシングルスレッド性能は非常に優れているからです。実際、素晴らしいです。

先ほども申し上げたように、アプリケーションのすべての作業負荷を高速化すると、パラライズで高速化できる部分はすべて高速化され、残るのはシングルスレッド・コードだけです。そして、そのシングルスレッド・コードは、制御を行うか、あるいはしばしば、メモリの管理として、大量のメモリを移動させることになります。そして、その管理するデータ量は、非常に途方もなく大きくなっています。ですから、先ほど申し上げたように、Graceは、データセンターが大きく加速し、多くのデータを動かすようなタイプのアプリケーションのために設計されています。

とはいえ、x86を必要とするお客様にとっては、x86は世界の大部分を占め、現在も世界の大部分を占めていますし、今後もそうであり続けるものと思われます。ですから、私たちが注目しているのは、先ほど申し上げたようなアプリケーションだと考えています。しかし、CSPの中には、すでにARMに移行しようとしているところもあります。彼らのニーズや要件に合わせたオーダーメイドのCPUを作りたいからです。

Graceは本当に素晴らしいパートナーです。その理由は、Graceを設計する際の設計ポイントが、私が知っている他のCPUが設計する際の設計ポイントとはまったく異なるからです。ARMの方向に進んでいるクラウドデータセンターにとって、これはARMを加速させる素晴らしい方法だと思います。ARMがGraceにもたらしたソフトウェアの専門知識、システム・エコシステム、周辺機器エコシステムの恩恵を受けられますし、デザイン・ポイントも非常に特別で、エネルギー効率の高い極端なエネルギー効率の高いクラウドデータセンター向けに設計されています。ですから、これらの -- これらの特定の分野に関心のある人なら誰でも、それは世界中のすべての人というわけではありませんが、世界の非常に重要なセグメントでもあります。Graceは、独立したスタンドアロンCPUとしても、非常に成功すると思います。

シモナ・ヤンコフスキー

次の質問は、CowenのMatt Ramsayです。

マット・ラムジー

ジェンセン、2つ質問があります。そのうちの1つは、以前の通話でお聞きしたことのフォローアップのようなもので、データセンター事業において、アクセラレーターカードの販売からシステムの販売への移行が起こっていると思います。このことがデータセンター事業の経済性、つまり長期的なマージンにとってどのような意味を持つのか、とても興味があります。2つ目の質問は、DGXクラウドの機会について少し関連したものです。DGXの発表から1カ月半が経ちましたが、よく聞かれる質問のひとつに、マイクロソフトを例に挙げたいと思います。マイクロソフトとどのようなパートナーシップを結んでいるのですか?本当にパートナーシップなのでしょうか?誰が顧客との関係を所有したいのか、摩擦があるのではないか。それはどのように変化してきたのでしょうか。つまり、彼らはAIの顧客を所有したいと望んでいるように思えます。あなた方は、クラウドからスペースを借りて、直接彼らに会いに行くことになります。そして、そのようなビジネスを市場に投入していく中で、CSPの最大手顧客との関係はどのように変化していくのでしょうか。

ジェンセン・フアン(Jensen Huang

本当にありがたい質問です。最初の質問です。つまり--ソフトウェアを作ることはできない、ソフトウェアを開発することはできない。システム会社でなければ、純粋にソフトウェアを開発することはできないんです。その理由は、チップのためにソフトウェアを作ることはできないからです。チップはコンピュータになるためにそこにあるわけではありません。だから、システム会社でなければならないのです。特に、私たちが開発するソフトウエアは、誰かのソフトウエアを真似するのではなく、オーダーメイドの全く新しいソフトウエアを作っています。私たちは、オーダーメイドのまったく新しいソフトウェアを作っているのです。RTXやフルパストレーシングなど、現代のコンピューターグラフィックスで使われているAI生成も、私たちがソフトウェアを作るまでは不可能だったのです。つまり、ソフトウェアを作るためには、システムが必要なのです。システム会社として、NVIDIAのユニークな点は、データセンターから下に向かってシステム全体を構築することです。チップからではなく、文字通りデータセンターからスタートします。

データセンターから始めて、コンピュータ全体を構築するのです。将来的には、データセンターがコンピューターになります。データセンター全体がコンピュータなのです。このことは、私がもう10年近く前から話していることです。メラノックスとの合併が戦略的であり、重要であった理由の1つです。今日、人々はそれを実感しているのではないでしょうか。私たちがデータセンター全体のアーキテクトとして行った仕事は、実に基礎的なものです。私たちが世界について考えるとき、そして私が世界について考えるとき、データセンター全体は、率直に言って、惑星規模のものでさえもコンピュータです。ですから、そこから世界を考える必要があるのです。その中には、ネットワーク、ストレージ、コンピュート・ファブリック、CPUなどのシステムから、システム・ソフトウェア・スタック、そして非常に重要なアルゴリズムやライブラリに至るまで、コンピューティング・エレメントが含まれています。私たちはこれをデータセンターとして設計しています。そして、その設計方法は、データセンターを分解し、細分化することができるように、規律をもって設計しています。

ですから、もしお客様がHGX GPUだけを購入したい場合、これは右の写真です。これが現在のGPUの姿です。多くの人は、GPUはこのような形をしていると考えています。もちろん、これはNVIDIA GPUです。そしてこちらがNVIDIA GPUです。どちらも同じソフトウェアスタックを動かしています。これが奇跡のようなものです。こちらは同じソフトウェアが動くのですが、動作が遅いだけなのです。ただ、動作が遅いだけで、実行には長い時間がかかります。そこで、データセンター全体を設計し、それを分解して、お客様にとって最適なフォームファクター、最適な構成、最適な導入方法を決めていただくことができるようになりました。ある人はNPIを使い、ある人はKubernetesを使う。Kubernetesを使う人もいれば、VMwareを使う人もいる。VMwareを使う人もいれば、ベアメタルでコンテナを使う人もいる。そして、そのリストは続きます。それなのに、分散コンピューティングスタックはそのすべてに影響を受けてしまう。そして、システム、コンポーネント、システムソフトウェア、ライブラリを分解し、ワークステーションやPCからクラウドやスーパーコンピュータまで、好きな場所で実行できるようにします。

ネットワークも、スイッチも分解しています。文字通りすべてを分解し、お客様のためにすべてを組み立てることも可能です。30日以内にスーパーコンピュータを立ち上げ、気に入っていただければ、製品化することも可能です。私たちは、できる限り世界の業界標準に分解して統合しました。その結果、このコンピューティング・プラットフォームは文字通りあらゆる場所に存在し、バイナリ互換性を持っているのです。それがマジックなのです。これが、私たちがシステム会社としてソフトウェアを開発する一方で、どこでも利用できるコンピューティング・プラットフォームの会社になれた理由の1つだと思います。

ゴー・トゥ・マーケットに関しては、もし私たちが顧客を失ったとしても、CSPが直接顧客との関係を持ちたいと言ってくれるなら、私たちはそれを喜んでいます。その理由は、彼らのクラウドにはNVIDIAのGPUが大量に搭載されているからです。クラウドには、NVIDIAのコンピューティングがあります。

そして、私たちのソフトウェア・プラットフォームも、彼らのクラウドにあります。もしお客様がそのような使い方をしたいのであれば、NVIDIA AI enterpriseをダウンロードすることができます。スタックなどを実行することができます。すべてが現在とまったく同じように機能します。しかし、私たちがスタック全体をリファクタリングするので、私たちと一緒に仕事をしたい、あるいはする必要があるというお客様もたくさんいらっしゃいます。私たちはスタック全体を理解しているので専門知識があり、そうでなければほとんど不可能な問題、つまりマルチクラウド構成ではほとんど不可能な問題をどう解決するか、つまりクラウドでも実行したいのです。つまり、クラウドでも実行したいということです。オンプレミスだけでなく、AzureやOCI、GCPでも実行したいのです。私たちには、そのための専門知識があります。

そのような場合には、当社のエンジニアやコンピューターサイエンティストに直接アクセスする必要があります。また、私たちが多忙を極めている理由もそこにあります。私たちは、独自のプラットフォームに基づいて非常に特殊な、あるいは独自の何かを作りたいと考えている業界のリーダーたちと仕事をしていますが、彼らが望む規模で、望むマルチクラウドで、あるいは削減したいコストとパワーのレベルで、それを展開することを可能にするために、私たちのコンピューティング専門知識が必要なのです。そしてその場合、彼らは私たちにコンタクトしてきます。

もし、私たちが直接のカスタマー・インターフェイスになったとしても、私たちはCSPパートナーを招待することになるでしょう。なぜなら、私たちはストレージを提供しないし、その他のAPIも提供しないからです。また、セキュリティも提供しません。産業界の安全やプライバシー、データ管理に関する規制や標準に準拠する必要があります。そして、世界の主要なCSPは、それらの専門知識を持っています。そのため、多くのコラボレーションが行われることになります。私たちを経由してくるのであれば、素晴らしいことです。CSPを経由するのであれば、それはそれで素晴らしいことです。いずれにせよ、私たちは嬉しい限りです。

シモナ・ヤンコフスキー

次の質問はバークレイズのBlayne Curtisです。

ブレイン・カーティス

このページでは、小型モデルと大型モデルの2つに分かれているので、2つのパートに分けて質問したいと思います。そこで気になるのは、少し前にT4カードを持っていたことでしょうか。Ampereでは何もしていなかったと思います。L4はその新バージョンということですね。T4を開発した当時、推論は今と同じように大きな市場であり、トレーニングと同じくらい大きな市場であると話していたと思うのですが。そして、それがCPUになったのだと思います。今、何が変わったかというと、より小さなモデルはアクセラレータに移行する必要があると感じているのではないでしょうか。それから、NVLは700ワットということですが、これは大きなパワーですね。すべてのサーバーに追加するには、かなりの電力が必要なようですね。お客さまは、どのようにこれを導入しようと考えているのでしょうか。これは巨大なモデルです。多くの馬力が必要ですが、すべてのCPUに1対1で搭載するわけではありません。つまり、推論とマネタイズの2つの要素で成り立っているわけですが、どのようにマネタイズするのでしょうか?

ジェンスン・フアン

はい、ありがとうございます。T4は、私たちの歴史の中で最も成功した製品の一つです。数百万台のT4がクラウド上にあります。しかし、クラウドには何千万ものCPUが存在します。そのため、クラウドにはまだCPUで行われるワークロードがたくさんあります。そのため、クラウドにはCPUで処理されるワークロードがまだ多く存在します。このワークロードを高速化する必要がある理由は2つあります。1つは、もちろん持続可能性です。できる限りすべてのワークロードを高速化する必要があるのです。CPUのスループットを上げるために、これ以上電力を消費し続けるわけにはいきません。2つ目は、ジェネレーティブAIが変曲点であることです。これはもう疑う余地もありません。AIの能力、さまざまな産業における有用性。ジェネレイティブAIが今、何に繋がっているのか。ここ数カ月で何が起こったかを考えてみると、ジェネレイティブAIは地球上で最も人気のあるアプリケーション、Office、Teams、Google Docsに接続されました。これらは人類の歴史上、最も人気のある生産性アプリケーションです。そして、その中にジェネレーティブAIが接続されただけなのです。そして、そのすべてがどこかで推論されなければならないのです。NVIDIAプラットフォームは、ビデオ、テキスト、画像、3D、ビデオ、そしてそれらをうまく扱うことができるため、これらすべてを推論するための理想的なプラットフォームであると思います。

私たちは、あなたが投げかけたものすべてに対応することができるのです。ですから、これはまさに転換期だと思います。この点に関して、今日のクラウドデータセンターでは750ワットが何の役にも立たないというのがその理由です。この点に関して本当に素晴らしいのは、私たちの場合、何百ものCPUサーバーを交換することができることです。これが、加速する理由です。加速する理由は、70ワットの消費電力を、10倍節約できることです。つまり、700ワット、7キロワット、これが計算です。6.9キロワットを回収し、それを将来のワークロードに再投資できるわけですから、できる限り加速したいですよね。つまり、ワークロードを加速し、電力を回収し、新たな成長に投資する、1、2、3のステップを踏むというのが、世界のCSPが行っているエネルギー保存の動きと言えるかもしれません。そのためには、世界のCSPにGPUを導入する必要がありますが、これは今日、PC[ph]で簡単にできることです。

シモナ・ヤンコフスキー

最後に1問だけ、TruistのWill Steinさんからの質問を紹介します。

ウィリアム・スタイン

ジェンセン 数年前、あなたは加速された、あるいはオフロードされた並列処理コンピューティングを世界に紹介し、あるいは大昔に存在したものを再導入しました。しかし、この他にも、特にGrace CPUやBlueField DPUについてお話されています。3年後、5年後のモダンなデータセンターのビジョンと、典型的なアーキテクチャのイメージについて教えてください。DPUはGrace CPUとどちらが適しているのでしょうか、それとも従来のx86とどちらが適しているのでしょうか。従来のエンタープライズ・ソフトウェアのために、x86サーバーは企業で永続し続けると思いますか?それとも、消えていくのでしょうか?それについて、長期的な展望があれば教えてほしい。

ジェンセン・フアン(Jensen Huang

本当にありがたいことです。今後5年から10年のデータセンターは、10年から遡り、あるいは5年から遡ると、基本的にこのような形になると思います。内部にはAI工場があるでしょう。そして、そのAI工場は24時間365日働いています。そのAI工場は、データを入力し、データを洗練し、データをインテリジェンスに変換します。そのAI工場は、データセンターではありません。工場なのです。なぜ工場なのかというと、1つの仕事をするためです。その1つの仕事とは、大規模な言語モデルや基礎モデル、レコメンダーシステムを改良、改善、強化することです。そして、その工場は毎日同じ仕事をしているのです。エンジニアは常に改良し、強化し、新しいモデルや新しいデータを与えて、新しいインテリジェンスを作り出しています。

そして、すべてのデータセンターには、1番目にAI工場が設置されます。データセンターには推論艦隊があります。この推論フリートは、多様なワークロードをサポートする必要があります。その理由は、今日、世界のインターネットの約80%が動画であることが分かっているからです。そのため、動画は処理されなければなりません。テキストを生成する必要があります。画像も生成しなければならない。3Dグラフィックスも生成しなければなりません。画像や3Dグラフィックは、バーチャルワールドに登場することになります。そして、これらの仮想世界は、さまざまなタイプのコンピュータ上で動作します。そして、このオムニバースのコンピュータは、もちろん、内部のすべての物理をシミュレートします。自律的なエージェントもすべてシミュレートされます。そして、さまざまなアプリケーションやツールを接続し、工場の仮想統合、コンピュータ群のデジタルツイン、自動運転車などを実現することができるのです。そして、仮想世界のシミュレーション・コンピューターが登場することになります。これらのタイプの推論システムは、Omniverseの場合は3D推論、Omniverseの場合は物理推論と、私たちが行う生成AIのさまざまな領域のすべてにおいて、それぞれの構成がその領域にとって最適となるのですが、ほとんどの構成はファンジブルとなります。2つ目は推論ワークロードです。ノードの1つ1つにSmartNICが搭載され、DPU(データセンター・オペレーティング・システムの処理装置)のようなものです。そして、オフロードと分離を行うのです。

コンピュータのテナントは、基本的にすべて内部にいるので、分離することが本当に重要なのです。将来の世界はゼロ・トラストと考えなければなりません。そのため、すべてのアプリケーションとすべての通信は、互いに隔離されていなければならないのです。エンコーディングで分離するか、仮想化で分離するか、どちらかです。また、オペレーティングシステムは、コントロールプレーンとコンピュートプランから分離されています。データセンターのコントロールプレーンやオペレーティングシステムは、DPUやBlueField上で実行され、オフロードされ、加速されます。これがもう一つの特徴です。

そして最後に、残ったものについては、コードが究極的にシングルスレッドであるため、高速化することは不可能です。CPUレベルだけでなく、コンピュートノード全体で、可能な限りエネルギー効率の高いCPUで実行する必要があるのです。その理由は、人々はCPUを操作するのではなく、コンピュータを操作するからです。ですから、CPUがコアでエネルギー効率に優れているのはいいことです。しかし、残りのデータ処理、I/O、メモリが多くの電力を消費するのであれば、何の意味もありません。だから、コンピュート・ノード全体がエネルギー効率に優れていなければならないのです。CPUの多くは、x86とARMの2種類になるでしょう。そして、この2つのCPUアーキテクチャは、世界のデータセンターで成長し続けると思います。理想的には、アクセラレーションによって電力を取り戻し、世界にもっと多くの電力を提供することだからです。加速、再生、そして成長という3段階のプロセスが、データセンターの未来に不可欠なのです。

これは典型的なデータセンターを表していると思いますが、もちろん、さまざまなサイズやスケールがあります。この質問によって、データセンターが何をするところなのか、私たちの心象風景が明らかになりました。NVLinkとInfiniBandは、コンピューティング・ファブリックです。NVLinkやInfiniBandはコンピューティング・ファブリックで、分散コンピューティングを目的としており、大量のデータを移動させ、さまざまなコンピュータの計算をオーケストレーションすることができます。そして、もう1つのネットワーク層であるイーサネットは、例えば、制御、マルチテナンシー、オーケストレーション、ワークロード管理など、ユーザーへのサービス展開のためのものです。そして、それはイーサネット上で行われるのです。スイッチやNICは非常に高度で、一部は銅線、一部は直接駆動、一部は長大なファイバーで構成されています。このようなレイヤー、ファブリックが非常に重要なのです。さて、私たちがなぜこのような投資をするのか、おわかりいただけたでしょうか。

データセンターの規模を考えるとき、計算から始めて、それを加速していくと、ある時点ですべてがボトルネックになります。そして、何かがボトルネックになり、将来について非常に具体的な視点があり、誰もそのような方法で構築していない、あるいは誰もそのような方法で構築できない場合は、私たちはその努力に取り組み、コンピュータ業界のボトルネックを取り除くことを目指します。その重要なボトルネックのひとつが、もちろんNVLinkであり、もうひとつがInfiniBandであり、もうひとつがDPUであり、BlueFieldである。Graceについては、シングルスレッド・コードや超大規模データ処理コードのボトルネックを解消する方法についてお話ししたところです。このように、コンピューティングのメンタルモデル全体が、ある程度、世界のCSPで非常に早く実装されることになると思います。その理由は、非常に明確です。

近未来のコンピューティングには、2つの基本的な推進力があります。ひとつは持続可能性で、そのためにはアクセラレーションが不可欠です。GTCに参加してくれた皆さんに感謝します。また、たくさんのご質問をいただき、ありがとうございました。そして、非常に重要なことですが、私たちが構築しているプラットフォームに信頼を寄せ、リスクを取ってくれた研究者や科学者の皆さんに感謝します。この25年間、私たちは加速度コンピューティングを進化させ続けてきましたが、このテクノロジーを使い、このコンピューティングプラットフォームを使って、画期的な仕事をしてきました。その結果、世界中の人々がアクセラレイテッド・コンピューティングに飛びつくきっかけとなったのは、あなた方とあなた方の素晴らしい仕事のおかげです。

また、NVIDIAの素晴らしい従業員の皆さんには、皆さんが築き上げた素晴らしい会社とエコシステムに感謝したいと思います。皆さん、ありがとうございました。素晴らしい夜をお過ごしください。

この記事が気に入ったらサポートをしてみませんか?