NVIDIAのポストBlackwellアーキテクチャを予想

ai300lab

2024年6月10日 07:17

はじめに

生成AI時代の勝ち組 NVIDIA, Microsoft, OpenAIの中でもNVIDIAの快進撃が止まりません。いよいよ時価総額3兆ドルを達成したNVIDIAの次の進化を考えます。

GPUアーキテクチャの生成AI対応

Ada Lovelace アーキテクチャの生成AI対応（2世代前）

Tensor CoreにFP8が導入されました。

Hopperの生成AI対応（1世代前）

TensorコアにFP8/FP16の混合精度を導入しました。Googleが深層学習には10
ビットあればいいという発表をしましたが、8ビットだけではきつかったようです。
Transformerを直接実行する16ビット浮動小数点と8ビット浮動小数点を扱うTransformer Engineを導入しました。

Blackwellの生成AI対応（最新世代）

第二世代Transfromer Engineが導入され4ビット浮動小数点や6ビット浮動小数点がサポートされました。
単にチップ内部を高速化するだけでなく、72個のGPUを持つドメイン内での高速通信や、クラスタ間での高速通信を通じて、大規模言語モデルの学習を高速化させています。高速のネットワークスイッチによる柔軟な大規模化を指向しています。AIデータセンターソリューションを強化しています。チップ、ネットワーク、ソフトウェア開発環境のすべてを提供するフルスタック・ソリューションが強みです。

次世代アーキテクチャの予想

GoogleやOpenAIが本気で飛躍的精度向上をねらっているなら、人間の生成するデータによる学習の限界を見越して、AIが生成するデータで学習する方向に行くと思います。これをNVIDIAと共有して、NVIDIAがそれに対応するアーキテクチャを出すとしたら、チップ上にデータ生成する部分を埋め込むことになると思います。

考えられる方法は3つあります：

チップ上に生成ユニットと学習ユニットを混在
チップ上に生成データを蓄積するメモリを増設
生成用チップと学習用チップを高速結合

一番簡単なのは三番目ですが、どうでしょうか。
次の革新は、学習データ生成までの学習ライフサイクルまでをチップ化する、と予想してみました。

おわりに

NVIDIAの次世代生成AI用アーキテクチャを個人的に妄想していみました。COMPUTEX 2024でNVIDIAのJensen Huangは2025年にはBlackwell Ultra、2026年にはRubinをリリースすることを予告しました ([NVIDIAc]) 。Rubinにはどんなアーキテクチャ的革新が盛り込まれるのか楽しみです。

参考文献

[ai300lab_a] AI半導体はAI時代の総合格闘技: NVIDIAの三位一体の強み　https://note.com/ai300lab/n/n1ebafffd0903　2024年
[ai300lab_b] NVIDIAはAIデータセンタ・ソリューション・カンパニー　https://note.com/ai300lab/n/n15767d260259　2024年
[NVIDIAa] H100 Transformer Engine が AI トレーニングを加速、精度を損なわずに最大 6 倍のパフォーマンス向上を実現　https://blogs.nvidia.co.jp/2022/04/07/h100-transformer-engine/　2022年
[pcwatch] AI特化設計になったNVIDIA Blackwell、並列性を向上する仕組みが強化　https://pc.watch.impress.co.jp/docs/column/ubiq/1577897.html　2024年
[NBIDIAb] 広い地平線：NVIDIA の基調講演が指し示す AI のさらなる進化
https://blogs.nvidia.co.jp/2023/09/06/hot-chips-dally-research/ 2024年
[NVIDIAc] NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2024 https://www.youtube.com/watch?v=pKXDVsWZmUU NVIDIA 1h47m39s 2024年
[日テレnews] そのCEOは「もはや神」──エヌビディア、世界2位の時価総額 “アップル超え”470兆円圧倒的な「9割シェア」の理由 https://news.yahoo.co.jp/articles/bb8ccf805ed623956b8001f84bbbd7f877f9f9f4 2024年