見出し画像

【NVIDIA GTC 2022】新着情報ふりかえり

NVIDIA 社が主催している AI と HPC 分野のカンファレンス「NVIDIA GPU Technology Conference 2022 秋」が 9/20~9/22 開催され、その中で恒例となっている NVIDIA 代表 Jensen 氏の基調講演が公開されました(日本時間 9/21 00:00~)。

GTC 2022 秋の基調講演

基調講演の中ではエンジニアリングにおける最先端のブレイクスルーがたくさん紹介されていて、いつもながら とても多くの刺激や発見がありました。この記事ではゲーマー目線&ソフトウェアデベロッパー目線で、新製品の発表や注目のポイントを、スライドと共に振り返ります。
あまり興味が無いよ」という方も、Closing Summary の「01:34:29~ 未来感満載の AI・HPC 分野の事例集」を見るだけでも刺激になると思うので、ぜひチェックしてみてください。

動画↑は誰でも視聴可能になっています(9/23 現在)。トータルで 1hr 37min もありますが、日本語字幕に対応しており、プレゼンテーションもすばらしいので 内容を把握するのは難しくないです。
けれど、専門用語も多く、ボーっと聞き流していると、何の説明だったのか途端に分からなくなり、すぐに迷子になってしまいます。ちゃんと把握するには結構な集中力が必要でした。

途中、フレームワークやプラットフォームの能力をアピールするためのハイライト動画が、ふんだんに散りばめられています。この記事を読む時間が取れないなら、ピックアップしておいたハイライト動画をつまみ見てみるのも良いでしょう(目次にある数字6桁で示されています)。それぞれの凄いところが、少なからず感じられるはずです。

チャプター: GeForce Beyond

NVIDIA は、創立時はグラフィクスカードの会社でした。そこからの発展について振り返りながら、新製品の発表で締めくくっています。

「RacerX」というテックデモを開発し、これが新製品上の1つの GPU で動作していると明かされます。Jensen 氏が主張するように、ゲーム制作はプリレンダリングやベイクから解放されて、シミュレーションだけで表現できるようになるのでしょうか。

00:01:03~ 「RacerX」

RacerX のレンダリング画面。Omniverse 上に構築されたリアルタイムでインタラクティブなフル物理シミュレーション環境
車のサスペンションなども、すべてのパーツ単位でシミュレーションしていて、ドライビングダイナミクスを表現している
静的な置物やプリレンダリングされたものは存在しない。リジッドボディ(剛体)&クロス(布)&流体のシミュレーションと、スモーク&火&ホコリの Volumetric シミュレーションで構成された世界

余談
デモ途中の「PARK JHUANG」はクスッと笑うところです。NVIDIA 代表(Jensen Huang)の名を冠した「ジュラシックパーク(JURASSIC PARK)」のパロディでしょうね。

Ampare から Ada Lovelace アーキテクチャーへ

GPU アーキテクチャーの変遷を少々補足しながら、新アーキテクチャー Ada Lovelace(エイダ・ラブレス、数学者、世界初のプログラマーにちなむ)の改善点・効果の紹介がありました。

これが「ただのグラフィクスの進化」に止まらないのが、興味深いところです。GTX がアーティスト活動に可能性を与えたように、RTX はサイエンティスト活動に可能性を与える、そう実感させられます。

Ada Lovelace は3世代目の RTX プロセッサー。TSMC 製、4nm プロセス、7600 億個のトランジスタ、18000 個の Cuda コア(Ampare 世代の 1.7 倍)

補足情報
NVIDIA RTX シリーズは、SIGGRAPH 2018 で発表されたリアルタイムレイトレーシング対応のグラフィクスカードで、プログラマブルシェーダーに対応した NVIDIA GTX シリーズ(ShaderCore 搭載)から発展させた2つのテクノロジーを搭載している。
1つは RT Core(GPU に並列実装されたレイトレースのための演算ユニット)で、もう1つは TensorCore(GPU に並列実装された行列演算ユニット)。

Ada Lovelace における3つのイノベーションが示されました。

  • 新しい SMX(Streaming Multiprocessor)。90TFLOPs、SER(Shader Execution Re-Ordering)の導入によってレイトレース性能が 2~3 倍に

  • 新しい RT Core はレイと Triangle との Intersection 性能が 2 倍に。2つの新しいハードウェアユニットを搭載。Opacity Micromap Engine はαテストの性能を 2 倍に、Micro-mesh Engine は BVH 構築に頼らずに形状をリッチにする(ディスプレースメント対応とか)

  • 新しい TensorCore は 1400 テンソル TFLOPs

SER(Shader Execution Re-Ordering)。レイキャストの分岐先に応じて、演算順序を入れ替え、キャッシュヒット率を劇的に向上する。レンダリング効率を 25% 改善
RTX のレンダリング技術要素たち

DLSS2 から DLSS3 への進化

Ada Lovelace におけるレイトレーシング性能の向上に大きく寄与する DLSS3 の発表がありました。RT Core だけでなく、さまざまなハードウェアロジックによる支援機能を惜しみなく導入しており、性能向上に懸ける NVIDIA の情熱が伝わります。

トランジスタ数を増やしてプロセスを多数並列化することによる性能向上もありながら、一方で TensorCore や SER のような並列化以外のアプローチによって、ムーアの法則の限界を上回る成果につなげられているのって、すごいことだと思います。

補足情報
RT Core によるレイトレーシングは、これまで数時間かかるレンダリングをリアルタイム化することに貢献したが、ゲームに適用するにはまだフレームレートが不足していた(だいたい 23fps くらい)。
これを解消するアプローチとして DLSS(Convolutional AutoEncoder によるレンダリング結果の予測を活用したアップスケーリングの仕組み)を開発してきた。

DLSS2 は高解像度の直前フレームを使って、低解像度のカレントフレームから高解像度のカレントフレームをピクセルごとに推測する(これで 62fps くらいにはなった)。16K の解像度を持つフレームをトレーニング用に準備して、うまくアップスケーリングできるようになるまで、繰り返し学習していた。

DLSS3 は DLSS(DeepLearning Super Sampling)の進化版で Ada Lovelace からサポートされる。DLSS3 を達成する4つのコンポーネントに注目。Optical Flow Accelerator は直前フレームとカレントフレームとモーションベクターから、ピクセルの変化(補間フレーム)をニューラルネットワークで推測する。レンダリング効率を 4 倍に改善
Max Ray Tracing モードで動作している「Cyberpunk 2077」。DLSS3 ではフレームレートが上がっている(残念ながら、実機じゃないと違いが分からないかも)
4年前の 2018 年(「Battlefield V」)との比較で 約 16 倍の演算量が必要になっている(39 RT Ops / Pixel から 635 RT Ops / Pixel)。にもかかわらずトランジスタ数の増加は抑制されている(その多くはレイの実計算によるものではなく、推測によるものなので)

00:12:48~ 「Microsoft Flight Simulator」

「Microsoft Flight Simulator」は 40 周年!(発表とは無関係だけど、世界中の天候をリアルタイムでゲームに反映するのって、なんだかスゴい。夢がある)

RTX Remix による MOD 製作

やや唐突気味に、ゲームの MOD 製作のためのアプリケーション「RTX Remix」が発表されました。なんでグラフィクスの会社が MOD 製作を支援することになるのか。その秘密は、次のチャプターに関係があります。

RTX Remix を通じてゲームを起動するだけで、ゲーム上のアセット(モデル形状やテクスチャー)が次々と手に入る、という風に聞こえたけれど、日本在住で MOD 文化に疎い筆者としては、権利関係だとかいろいろ別次元で引っ掛かりを感じてしまいました。
いやでも、これはスゴいことです。

00:14:11~ 「Portal with RTX」

「Portal with RTX」は「Portal」をリマスターした MOD で、RTX Remix によって構築された。Ada リリース後に公開予定

00:15:36~ 「The Elder Scrolls III: Morrowind」の製作

RTX Remix はゲームの MOD 製作のための Omniverse アプリケーション。ゲームを起動すると、ゲームを USD 形式(Pixar が開発したユニバーサルなモデルデザインフォーマット)に取り込んで Omniverse へローディングする。Ada リリース後に公開予定
AI がアシストするツールによって、物体の形状はハイレゾ化でき、マテリアルは PBR(物理ベースレンダリング)っぽく変換される

GeForce RTX 4090 / 4080 の発表

GeForce RTX 4090。RTX 3090Ti とのレンダリング性能比で 2~4 倍。価格は $1599
鷲掴みで RTX 4090 どーん!(恒例w)10/12 発売!
GeForce RTX 4080 は 16GB 版と 12GB 版がある。RTX 3080 とのレンダリング性能比で 3 倍。価格は $899~。xx90/xx80 はハイエンドユーザー向けなので、まぁこれくらいの価格は仕方ないか

チャプター: NVIDIA Omniverse

現在のインターネットは HTML で記述された Web サイトを接続し、ブラウザーで表示するが、メタバースは USD で記述された仮想空間に接続し、シミュレーションエンジンで表示する、と NVIDIA は考えているようです。近年バズワード化しているメタバースですが、Jensen 氏はエンジニア的で現実的なメタバース像を提示しました。

そのために Omniverse を開発しており、インターネットが世界中のコンピューターをつなげて情報を流通させたように、Omniverse は社内の従業員が使う DCC ツール(Digital Content Creation ツール。具体的には Autodesk Maya、3dsMax 等)やゲームエンジンをつなげて 3D 空間を構築し、3D アセットパイプラインの構築を可能にするそうです。

Omniverse は現実世界で物を設計・構築・運用する目的で利用できるので、多くの世界的有名メーカーが Omniverse を純粋な事業活動(ブランディング目的でない)のプラットフォームとして試用し始めているようで、わくわくしました。

00:19:34~ Omniverse のダイジェスト

Omniverse の根本的な使い道はロボティクス分野。Omniverse はコンピューティングプラットフォームでもある。独自のアプリケーションを書いたら、Omniverse 上で実行できる。トレーニングデータを合成する Replicator、デジタルツインのための Issac Sim および DRIVE Sim など、たくさんの機能
Omniverse が Ada Lovelace のリリースに合わせてメジャーアップデート。GAN ベースのモデリングと Diffusion によるモデリングをサポートする Neural Graphics。手続き型のタスクをノードベースで編集する OmniGraph。複雑なキネマティクスを制御する Omniverse Physics。AR にレイトレーシング技術を導入する Omniverse XR。アセットライブラリの SimReady。JT Connector(JT は Siemens 社が開発した産業ロボットの標準言語であり、汎用的な CAD フォーマット)

00:30:15~ 世界中の Omniverse の採用事例

Omniverse を使って、主要都市の 4G/5G ネットワークのサーベイ結果を集約しつつ、「どこにアンテナ基地を設置するか」をシミュレーションしているところ(Heavy.AI 社の事例)。
補足: 左下にあるのは企業名・PJ 名。それぞれの企業がデジタルツインに取り組む意図については、ユーザーストーリーが NVIDIA Web サイトに掲載されている模様

Omniverse のエコシステム

Omniverse に対応したコネクタ。多数の企業参入アリ
Omniverse を支えるコンピューティングプラットフォーム。エッジとなる RTX、仮想空間の中核となる OVX システム、GDN(グラフィクスのための CDN)。NVIDIA Omniverse Cloud(IaaS)がマネージドサービスとして AWS で展開中。Replicator、Farm(レンダリングファーム)が利用可能
2世代目の OVX システムは量産投入可能

00:34:02~ Rimac 社の Nevera(スーパーカー)ワークフロー

さまざまなデザインツールをつなげるプラットフォーム Omniverse
エンジニアだけでなくマーケターもモバイル端末でアクセスできる。商談で潜在顧客にデモを見せる。モックではなく、エンジニアが目下開発しているナマでガチのモデルを提示することができる

チャプター: NVIDIA Robotics Platforms: Isaac、DRIVE、Clara Holoscan、Metropolis

ロボティクス分野の未来を担うディープラーニング技術、その実行基盤となる製品群の発表がありました。

DRIVE Sim のショーケース動画は必見です。出てくる技術1つ1つに感心させられます。産業界の注目が集まっている分、自動運転技術への投資と成果にはすさまじいものがあります。

Amazon の巨大倉庫で自律走行しているような AMR(Autonomous Mobile Robot)分野の発展も先行きが楽しみです。インテリジェントシステム構築のための End-to-end なソリューションが数多く公開されているので、Jetson 開発キットや JetBot を使った再現も比較的容易かもしれません。

NVIDIA DRIVE Thor

DRIVE Thor(ソー、もしくはトール)はロボティクスと車載向けのコンピューターシステム。ドメイン分離可能でありタイムクリティカル。駐車専用の SoC、スマートアシスト専用の SoC、テレメトリ、車載カメラ、インフォテイメント専用の SoC、といった独立していたシステムすべてを、ソフトウェアとして Thor のコアに配備できる能力がある。Linux、QNX、Android を1台で捌ける
DRIVE Thor はデータセンター側の AI ファクトリーと連携して、自動運転を実現する。AI ファクトリーはシミュレーションを担い、DRIVE はセンサー入力に応じて目の前の障害を回避しながら目的地に到着する

0042:00~ NVIDIA DRIVE Sim

「ニューラル再構築エンジン」によるシミュレーション環境構築事例。車載センサーから入ってくる周囲の物体を、AI が勝手に認識し、どんどんモデリングしながら走行。数分ですぐに DRIVE Sim に反映できる Video-to-3D-Geometry パイプライン
Omniverse 上の DRIVE Sim では、周囲の物体の動きも含めて記録されているドライブレコーダーのデータを、繰り返し再生したり、動的に物体を配置したり、テストシナリオに沿って改変したり。CI/CD(継続的インテグレーション・継続的デプロイメント)での End-to-end テストに使える

00:46:55~ DRIVE Sim を支える技術のショーケース

DRIVE Map(レーダーとカメラによる自動マップ生成)、歩行者検知、PredictNet(他車の運転予測)、Hardware-in-the-Loop(リアルタイムな各センサー入力の生成・シミュレーション)などなど見所満載。日本で実物を見たい

Jetson Orin Nano の発表

Jetson Orin Nano は、2世代目の産業ロボット用コンピューティングシステム Jetson Orin の改良版。Jetson Nano の 80 倍の性能。NVIDIA Isaac スタックを実行可能、ROS2 対応
Metropolis はエッジ AI にとってのインテリジェントシステムのためのプラットフォーム(Jetson Orin ベース)。カメラセンサー、LiDAR、その他 IoT センサーを接続可能。倉庫、工場、商店、都市をより安全に、より効率的にする
NVIDIA Holoscan は低レイテンシーな画像処理プラットフォーム。Orin IGX でも利用可能。ロボティクスに必要なセンサーからの入力に対するパイプライン処理や、周辺環境の構築、検知、セグメンテーションといったタスクをすぐに組み込むことができる。医療イメージングのシステムにも適用できる。Orin IGX によって、医療機器は software-defined になっていく
手術用ロボティクスシステムの一例(Moon Surgical 社)
Isaac は AMR(Autonomous Mobile Robot、自律走行搬送ロボット)のためのプラットフォーム。Sim-Ready アセットライブラリ、Replicator、ROS ブリッジなどなど

00:55:04~ Omniverse、Isaac Sim、cuOpt による AMR のシナリオトレーニング

Omniverse Cloud 上で AMR が配備される環境(建物の形状や棚のレイアウト)を無尽蔵に作り出し、Isaac Sim でトレーニングさせる
Isaac スタックの cuOpt はフリート対応のリアルタイムタスク割り当てとルート計画のためのエンジン。配備された AMR それぞれから環境に関する情報を動的に把握し、計画を調整させる。運用ニーズに応じて、予算最適にするか、納期優先にするか、といったバランスも指示できる

チャプター: NVIDIA AI

このチャプターでは、AI 分野の貢献についてたくさんの発表がありました。

NVIDIA による AI 分野の貢献の一覧

プロダクトとして見えるものは皆無なため、筆者のミーハー心を満たすものは さほど見つかりませんでした(RAPIDS と Triton は、データサイエンスを志すならチェックしておくべきでしょう。筆者も趣味で触り始めようかと思っています)。

RAPIDS 22.10 リリース

RAPIDS は NVIDIA 製 SDK の基礎となるオープンソースなソフトウェアスイート。1000 万人いる Windows 版 Python の開発者は、WSL 上の RAPIDS を今からアクセスできるようになった。NVIDIA RAPIDS-accelerated Spark は GCP Data Proc に統合済み
Triton はオープンソースのハイパースケールな推論ソフトウェア。どんな AI モデルにも対応。GPU、x86、Arm に対応。AWS Inferentia 対応。主要なフレームワークに対応。LLMs(Large Language Models)も
グラフニューラルネットワークフレームワークに貢献、Deep Graph Library と PyTorch Geometric
CV-CUDA はオープンソースの GPU 対応のイメージング&コンピュータービジョン API(Bytedance 社と共同開発)。主に対面コミュニケーションのための動画配信に起因した、インターネット通信量の爆発を抑制する技術としての特殊効果をサポート(ライト調整、ポーズ調整、ボカし、超解像、AI 推論、AR)。ゼロコピーな高性能ビジョンカーネルを提供する。End-to-end で 10 倍のスループットを実現。アーリーアクセス受付中
cuQuantum は量子回路シミュレーションのための SDK。AWS Bracket(量子コンピューティングサービス)に統合されている。900 倍の演算能力を 1/3.5 のコストで実現する。40 Qbit に相当
NVIDIA QODA(コーダ)。既存のアクセラレーテッドコンピューティングと量子コンピューティングをつなぐものらしい(ムズぃ)
JAX は機械学習に必要な微分関数の生成・合成をサポートするライブラリ。300 を超えるアプリケーション(エコシステム)で強化学習・創薬物理シミュレーションなどを実現。NVIDIA AI for JAX を NGC(NVIDIA のコンテナーレジストリ)にて提供中

チャプター: LLMs(Large Language Models)

Large Language Model は、昨年だけで 1 万を超える論文発表があり、AI リサーチの自然言語処理分野を震撼させています。NVIDIA からは、LLMs に関連したサービスの発表がありました。

自然言語処理の応用先としてバイオケミカル分野があるというのを、今回初めて知りました。

NVIDIA Nemo は、単一の学習済みモデルがたくさんのタスクをこなせるという LLMs の特性を活かした、LLMs を目的に沿ってトレーニングするプラットフォーム。アーリーアクセスは 10 月から受け付け予定
Bio NeMo LLMs。自然言語において Context(文脈)を解釈する能力を、化学・バイオ分野に応用したもの。創薬分野での貢献が期待される。アーリーアクセスは 11 月から受け付け予定。Cloud API の発表もあり、ESM-1、ProtT5、MegaMolBART というトレーニング済みモデル(?)を利用可能
タンパク質の折り畳みを学習中?
NVIDIA Clara ライブラリ(?)が MIT・ハーバード大の Broad Institute で利用可能になった

チャプター: Hopper and Grace Hopper

LLMs の隆盛の発端となった Transformer 技術と、機械学習における Embeddings(埋め込み表現)は、CNN(畳み込みニューラルネットワーク)と比べても桁違いの演算とメモリが必要になるようで、それらを支えるデータセンターグレードのサーバー製品 Hopper シリーズの紹介がありました。NVIDIA、隙が無いです。

Hopper Transformer エンジンは TensorCore と FP8/FP16 の導入によって、大幅な性能の飛躍を実現した。数か月かかる LLMs の学習を1週間に短縮している。ちょっとしたチューニングを行って Megatron 530B using H100 / Nemo LLM 環境で、A100(Ampare アーキテクチャーのデータセンター向け GPU)の性能の 5 倍
Hopper アーキテクチャー製品群(きっと1台で数千万円でしょうね)。ここで毎度お決まりのセリフが登場「The more you buy, the more you save.」
Grace Hopper はより RecSys(レコメンドシステム)に特化したアーキテクチャー。Grace Hopper Superchips と NVLink により とてもよくスケールするので、Billion(消費者)× Billion(商品)の学習に適している。120 ノード並列で 70TB の RecSys モデルを構築した事例アリ。Grace Hopper 採用サーバー製品はパートナーから 2023 年前半に登場予定

チャプター: AI & Omniverse Services to Enterprises

このチャプターでは、NVIDIA やそのパートナー企業などが提供する、さまざまな Domain-specific なアプリケーションフレームワークが紹介されています。

その中でも時間を割いて説明している「NVIDIA ACE」というクラウドネイティブな AI マイクロサービス群は、とても実用的に見えました。

01:26:58~ NVIDIA ACE のユースケース

モニター上部に表示されている Violet は、リグ有りのアバター。基本的な身振りに加えて、ユーザーの喋りを聞き取って、ユーザーに喋り掛ける(Riva ASR と TTS コンポーネントを利用)。Audio2Face を利用して、フェイシャルアニメーションをリアルタイム生成する
Food Ordering Dataset に接続することで、ユーザーの注文を代行可能にするところ。UCF(Unified Compute Framework)Studio によってノーコードでリアルタイムアバターを生成して、クラウドにデプロイする

チャプター: Closing Summary/まとめ

最後にプレゼンテーション全体を振り返っています。ここまで 90 分すべて寝ていたとしても、このサマリーを見るだけで ほぼすべてキャッチアップできますw

01:34:29~ 未来感満載の AI・HPC 分野の事例集

画面左下のクレジットにも注目しつつ、とくとご覧あれ!

最後に宣伝で締めさせてもらいます。

筆者が所属するサークル「すらりんラボ」は、9/25 まで開催中の 技術書典13オンラインマーケット に参加しています。
DXR(DirectX RayTracing)や Vulkan をはじめとしたグラフィクス API の入門書を中心に、物理本・電子書籍を取り扱っておりますので、よろしければお立ち寄りください。


この記事が気に入ったらサポートをしてみませんか?