NVIDIAが切り開いたAI半導体市場：裾野拡がる市場の細分化（4）ユニコーン編（その2）

2024年3月21日 19:09

　今回は、Part1に続き、AIアクセラレーターを開発・販売するユニコーン企業として2社、米国カリフォルニア州シリコンバレーに拠点を置くSambaNova Systems社と英国のGraphcore社を紹介します。
　これらの企業は、AIや機械学習のタスクを高速化するために設計された専用のAIハードウェアとコンピューティングプラットフォームの開発に、独自のアプローチで取り組んでいます。生成AIの社会実装が徐々に拡がる中、新たに顕在化する課題に対して、イノベーティブなテクノロジーを駆使して積極的に取り組んでいる企業です。

　尚、今週は NVIDIAがGTCで、最新のGPUベースのアクセラレータシステム「Blackwell GB200」と同製品の出荷を2024年後半に開始する旨の発表を行いました。推論性能は最大30倍、エネルギー効率は最大25倍と、新たなハイエンドGPUとそのエコシステムで他社を引き離すには十分なスペックと価格のようにも思えたりもします。
　前回や今回紹介するスタートアップ企業も、ユニコーン企業とはいえ、マーケットで存在感を増すには、まだまだ時間がかかりそうですが、スタートアップ企業には、別のイグジット（EXIT）の道もありますので、このテクノロジー領域の連ドラは、まだまだ長く続いていくように思います。

※ ユニコーン企業とは、設立から10年以内で未上場の企業であり、企業評価額が10億ドル以上のベンチャー企業を指します。

1. SambaNova Systems

（1）企業概要

　SambaNova Systems社は、2017年に設立されたカリフォルニア州パロアルトに本社を置く企業であり、自社開発のAI半導体を含むハードウェアとソフトウェアによる統合AI支援プラットフォームを開発・提供しています。
　このSambaNova Systems社の特徴は、データそのものがハードウェアロジックを構成するというコンセプトを持つ独自のデータフローアーキテクチャを採用した「DataScale」という統合システムにあり、この従来システムのパフォーマンスを大幅に上回るDataScaleを中核に周辺のハードウェアとソフトウェアによって構成される統合システムを提供しています。以下、同社のプロダクトとなるシステムの概要や特徴について紹介して行きます。

（2）プロダクト

　SambaNova社のプロダクトの中核を担うのが「DataScale」で、このDataScaleを中心に同社のプロダクトラインナップが構成されています。
　このハードウェアとソフトウェアが統合されたDataScaleは、生成AIモデルや基礎モデルを含むAIモデルの開発とモデルの実稼働環境を提供するプラットフォームであり、自社開発した高性能なAI半導体「Cardinal SN30 Reconfigurable Dataflowユニット」を搭載しています。
　このDataScaleの上には、モデルの学習やファインチューニング、インストラクションチューニングや推論のプロセスを実行・運用するためのMLOpsツールが提供され、さらにその上位に自然言語処理を行うGPT、自動音声認識ASR（Automatic Speech Recognition）、BloomなどのAIモデルを活用するAIアプリケーション開発を支援するための「SambaNova Suite」という開発フレームワークが提供されます。

SambaNova社ソリューションの俯瞰イメージ
（出典：SambaNova社　クリックで拡大）

（a）DataScaleシステム
　同社システムの中核をなすDataScaleは、AIモデルの学習や推論を高速に実現するハードウェアとソフトウェアの統合されたコンピューティングユニットです。このシステムの特長は、独自のデータフローアーキテクチャによって従来のGPUシステムを大幅に上回るパフォーマンスを実現し、単一ノードから数百ノードまでシームレスにスケールアップできる能力にあります。
　DataScaleは、単一プラットフォーム上でモデルの学習と推論を実行することが可能で、エンドツーエンドの機械学習パイプラインを管理するためのフレームワークを提供しています。このDataScaleシステムをいくつかのモジュールに分解して紹介します。

① RDU 「SN40L」
　Reconfigurable Dataflow Unit（RDU）は、データフロープロセッサとして設計・開発されたもので、データ処理をより効率的かつ柔軟に行うことができる革新的な技術を搭載しています。このハードウェアはリコンフィギュレーションが可能で、新しいニーズやアルゴリズムの変化に迅速に対応でき、同社の提供するSambaFlowソフトウェアスタックと組み合わせて使用することで、コンピューティング、メモリ、通信ネットワークを再構成して統合し、大規模なAIモデルのワークロードを高性能に処理することができます。
このRDUは、2020年に発表されたSN10を皮切りに、SN20（2021年）、SN30（2022年）、そして最新の2023年に発表されたSN40とSN40Lと各々に性能を向上させています。最新バージョンであるSN40Lは、特に生成AIモデルの学習と推論に特化して開発されており、1,040個のRDUと64GBのHBM3高帯域幅メモリを搭載しており、8つのSN40Lをクラスタ化することで、5兆のパラメータ（5テラ）を処理することができます。

② SambaFlow
　SambaFlowは、PyTorchやTensorFlowなどの標準フレームワークと完全に統合されており、モデルの最適なデータフローグラフを自動的に抽出、最適化、実行することで、学習と推論のパフォーマンスを迅速に最適化するソフトウェアスタックです。このソフトウェアは、ローコード／ノーコードAPIを提供し、AIモデルの開発と展開を大幅に簡素化できるだけでなく、ハードウェア環境とも密接に連携し、任意の数のデバイスや構成間でのスケーリング管理を可能とし、大規模なモデルと膨大なデータの取り扱いを容易にします。また、SambaFlowは、AIモデルの最適なデータフローグラフを自動的に最適化するため、開発者は低レイヤーのチューニングに注意を払うことなく、高いパフォーマンスの実現が可能となります。

SambaFlow：ソフトウェアスタックのイメージ
（出典：SambaNova社　クリックで拡大）

③ DataScaleハードウェア
　これは、データセンターに対応するラックレベルの統合システムで、1台以上のDataScaleノードと統合されたネットワーク、および管理インフラで構成されています。いくつかのラインナップがあり、DataScale SN30システムは、42Uサイズのデータセンターラックに内蔵されて販売されています。

DataScaleの主要な構成要素イメージ（出典：SambaNova社）
※イメージは、1世代前のSN30というモデル

（3）テクノロジー

　SambaNova社のテクノロジーの中でも、同社を特徴付けるデータフローアーキテクチャの概要について、紹介します。

① データフローについて
　従来のコアベースのコンピューティングアーキテクチャでは、演算処理と通信制御処理が分離されています。演算処理は必要に応じてプログラムされますが、データの移動を司る通信はハードウェアによって管理され、柔軟かつ緻密な制御が困難です。一方、SambaNovaの再設定可能なデータフローアーキテクチャは、演算処理の一連に対して、データがどのように通過すべきかを最適化し、通信処理のプログラミングを可能にします。

　SambaNova社のテクノロジーコンセプトの根底にあるのは、データフローとニューラルネットワークの関係に基づくアプローチです。これは、データ自体を用いてロジックのプログラミングを行うもので、ソフトウェア2.0とも称される、プログラミングの新しいパラダイムによるソフトウェアとハードウェアの統合的なアプローチです。
　従来のプログラミングモデルではアルゴリズムやロジックをコードに落とし込みますが、データフローではデータ自体がプログラムフローを定義します。機械学習モデルを大量のデータを用いて学習させるイメージにも似ています。ハードウェアとソフトウェアは、入力されるデータストリームからデータの畳み込みや重み付けなどの最適な計算パターンを自動で認識し、システムの処理ロジックを自ら構成します。この過程で、データストリーム自体が直接、演算処理を定義するため、そのロジック構成とプロセッサユニット間のデータ移動が最適化され、従来では困難だった高いレベルの並列処理と効率性を実現することができます。

　そして、このデータフローを具現化しているのがRDUです。この特定タスクやアルゴリズムに応じてその構成を動的に変更できるRDUの中身には、640個のプログラマブルなPCU（パターンコンピュートユニット）と640個のPMU（パターンメモリーユニット）がハードウェアに実装されています。RDUは、これらのプログラマブルなハードウェアと大容量のオンチップメモリを大規模に実装によって、高い演算効率を実現し、従来のGPUでは難しかった大規模モデルや複雑なアルゴリズムの実行を可能にしています。

② データフローアーキテクチャについて
　従来のコアベースのコンピューティングアーキテクチャでは、演算処理と通信制御の処理が分離されています。演算処理は必要に応じてプログラムされますが、データの移動を管理する通信はハードウェアによって制御され、その結果、柔軟で緻密な制御が困難とされています。

下図は、従来のコアベースアーキテクチャでの畳み込みグラフの実行シーケンスを示しています。この処理では、各カーネルがCPUやGPUにロードされた後、データと重みを読み出し、計算を実行し、そして結果をメモリに書き込むというステップが繰り返されています。つまり、データ移動量が増加し、大量のメモリ帯域幅を消費してしまうことになります。この場合、機械学習や高性能計算（HPC）では、データの移動を頻繁に引き起こし、結果としてプロセッサの利用率の低下や処理時間の増加につながってしまいます。

従来のコアベースアーキテクチャでの畳み込みグラフの実行シーケンス
（出典：SambaNova社　クリックで拡大）

　SambaNova社のデータフローにおけるRDUのプログラミングは、SambaFlowによって実現されます。RDU上での一連の演算処理やデータの取り込み方法について、RDUに配置された物理リソース（パターン演算ユニット（PCU）、パターンメモリユニット（PMU）、スイッチングファブリック）を活用し、SambaFlowが命令シーケンスを空間的にプログラムすることで、データフローグラフを最適化します。これにより、RDU全体でデータが効率的に並列処理され、高いハードウェアの利用率、高スループット、そして低遅延が実現されます。
　このSambaFlowとRDUの最適化によって、機械学習や科学計算などのデータ集約型アプリケーションが最適に構成され、新たなニーズやアルゴリズムに迅速に適応し、再利用が可能になります。

　RDUは、3次元に配置されたオンチップのスイッチングファブリックを介して、パターン演算ユニット（PCU）とパターンメモリユニット（PMU）がメッシュ接続されています。アプリケーションの起動時にSambaFlowがRDUを設定し、特定のアプリケーションに最適化されたデータフローグラフを実行できる環境を整えます。また、RDUはASICとは異なり、後からロジックを変更できる点や、複雑なプログラミングと長いコンパイル時間が必要なFPGAとは異なり、マイクロ秒単位で迅速に再構成が可能です。

RDU上のコンポーネントとアーキテクチャ
（出典：SambaNova社　クリックで拡大）

以下にRDU上に実装されているコンポーネントとその概要を紹介します。

［パターン演算ユニット（PCU）］
　並列演算を実行するために設計され、再構成可能な多段のSIMDパイプラインにより、高い演算密度とレーン間、ステージ間の並列性を実現

［パターンメモリユニット（PMU）］
　オンチップメモリであり、データ移動の最小化、レイテンシの低減、帯域幅の増加をもたらす

［スイッチングファブリック］
　PCUとPMUを結ぶ高速スイッチで、スカラー、ベクトル、制御の3種のネットワークからなる3次元ネットワークを形成している

［合体ユニット（CU）とアドレス生成ユニット（AGU）］
　AGUとCUは、RDUとオフチップDRAM、もしくは、他のRDUやホストプロセッサなどとの相互接続性を提供。また、RDU Connectは、複数のRDUによるクラスタを構成する際のRDU間の高速パスを提供

③ データフローアプローチの利点
　以下は、データフローによる利点となります。

データとコードの移動が少ないため、必要なメモリ帯域幅が削減される
テラバイト級の大容量のオンチップメモリで大規模モデルをサポートすることが可能
パイプライン方式でグラフ全体を並列処理することで、幅広いバッチサイズに対して高い利用率を実現
高いオンチップメモリ容量、ローカライズ、および内部ファブリックの高帯域幅による高いパフォーマンスの実現
RDU上のパイプライン処理により、予測可能で低レイテンシのパフォーマンスを実現
階層アーキテクチャによって、コンパイラのマッピングが簡素化され、実行効率が大幅に向上

（4）ユースケースと既存顧客

以下に、Sambanova Suiteの具体的なユースケースをいくつかご紹介しますが、主に、計算要求の高いAIアプリケーションに向いています。

（a）データ分析と機械学習
　　大量のデータを効率的に処理し、機械学習モデルの学習や推論に利用
　　（ビジネスインサイトの抽出や意思決定プロセスの支援など）

（b）自然言語処理
　　チャットボット、翻訳システム、文書要約、感情分析などで利用
　　（顧客サービスの自動化やコンテンツの自動生成など）

（c）コンピュータビジョン
　　画像認識、ビデオ分析、顔認証システムなど、視覚データの解析に利用
　　（セキュリティ、監視、医療診断などでの応用）

（d）レコメンデーションシステム
　　ユーザー嗜好や行動を分析した商品やサービスのレコメンデーション
　　（オンラインショップやコンテンツ配信サービスでのUX向上）

（e）医療・ヘルスケア
　　医療分野でのデータドリブン型アプローチに利用
　　（医療画像の解析、遺伝子データの処理、疾病の早期発見等）

（f）金融分析
　　金融業界でのデータ分析と意思決定支援に利用
　　（市場トレンドの予測、リスク管理、不正検出など）

以下は、SambaNova社の既存顧客として企業名を確認できた企業や研究所、団体です。

アクセンチュア
OTP銀行（ハンガリー）
理化学研究所計算科学研究センター
米ローレンス・リバモア国立研究所
米アルゴンヌ国立研究所