見出し画像

「イーサネットの新境地:Alibaba CloudによるAIデータセンター革命」、マーケット

「イーサネットの新境地:Alibaba CloudによるAIデータセンター革命」

要約 Alibaba Cloudは、NVIDIAのNVLinkではなくイーサネットを使用して、1万5000個のGPUを接続するデータセンターネットワークを発表。この技術は、AIモデルトレーニングの効率を大幅に向上させます。

Alibaba Cloudの研究者たちは、AIデータセンター内の1万5000個のGPUをイーサネットで相互接続する新技術を発表しました。この技術は、NVIDIAのNVLinkプロトコルではなく、イーサネットを使用しています。これにより、データセンターは、8個のGPUと9個のネットワークインターフェイスカード(NIC)を搭載した1875台のホストを通じて、各400Gbps、合計3.2Tbpsの帯域幅で通信が可能になります
この技術の目立った特徴は、以下の2点です:
ベンダーロックインを避けるため、そしてEthernet Allianceの力を活用してより速い進化を遂げるために、イーサネットを採用しています。これは、NVIDIAからの独立を目指す他のベンダーの動きを支持するものであり、AMDなどの競合他社にとっても有利な選択とされています
スイッチには、不安定さと故障率が高いマルチチップスイッチではなく、51.2Tbpsのシングルチップスイッチを採用しています。ただし、シングルチップスイッチは高温になりやすいため、Alibabaは独自の冷却システムである「ベーパーチャンバー(VC)ヒートシンク」を開発し、チップが105度を超えないようにしています
このHPN技術は、既に8カ月間運用されており、2024年8月にシドニーで開催されるSIGCOMMカンファレンスで発表される予定です。この技術は、AIワークロードのデータバーストに対応し、ECMP(Equal-Cost Multi-Path)によるハッシュ分極化を回避するために開発されました。これにより、エレファントフロー(巨大なデータトラフィック)を保持できるネットワークパスを正確に選択することが可能になります
Alibaba Cloudのこの進歩は、データセンター技術の新たな方向性を示しており、今後のAIとクラウドコンピューティングの発展に大きな影響を与える可能性があります。この技術により、AIモデルのトレーニングに必要な大規模な計算リソースをより効率的に活用できるようになるでしょう。

補足)
イーサネットは、コンピュータや他のデバイスを有線で接続するための通信規格です。これにより、異なるメーカーの機器同士でも互いに通信が可能になります。イーサネットは主に室内や建物内のネットワークで使用され、最も普及している規格の一つです12。
イーサネットにはいくつかの種類があり、それぞれ特徴や用途が異なります。主な種類には以下のものがあります:
同軸ケーブル:映像などを伝達するために使用され、テレビのアンテナ線やCATVのインターネット接続などに使われます。
光ファイバー:大容量のデータを高速で送受信することができ、長距離通信に適しています。
LANケーブル:一般的なイーサネットケーブルで、インターネット接続に広く使用されています。
通信速度によってもイーサネットは分類され、10Mbpsの基本的なイーサネットから、100Mbpsのファストイーサネット、1Gbpsのギガビットイーサネット、さらに高速な10Gbpsの10ギガビットイーサネットなどがあります2。このように、イーサネットは多様な通信ニーズに対応するために進化し続けています。

ベンダーロックインとは、特定のベンダーの製品やサービスに依存することで、他社の製品やサービスへの切り替えが困難になる状況を指します。この状態になると、ベンダー側が価格を上げても、顧客はその製品やサービスを継続して購入せざるを得なくなります。また、他社製品への移行を検討する場合、高額なコストがかかるため、容易に切り替えることができなくなります。
ベンダーロックインを避けるためには、オープンアーキテクチャや標準化された技術を採用することが有効です。これにより、複数のベンダーから製品やサービスを選択できるようになり、より柔軟なシステム構築が可能になります。ベンダーロックインの問題を理解し、対策を講じることは、企業のIT戦略において重要な考慮事項です。

NVIDIAのNVLinkの特徴
NVIDIAのNVLinkは、GPU間の通信を強化するために設計された高速なデータ転送プロトコルです。以下はNVLinkの主な特徴です:
高帯域幅: NVLinkは、PCIe Gen5レーンと比較して、1レーンあたり112Gbpsという大幅に高い帯域幅を提供し、3倍の速度でデータを転送できます
低レイテンシ: NVLinkは、従来のPCIe接続よりもレイテンシが低く、GPU間の通信の待機時間を短縮します。
スケーラビリティ: 複数のGPUを1つのシステムとして機能させ、シームレスな通信を可能にする設計がされています。
NVSwitch: 複数のNVLinkを接続し、サーバー内でマルチGPUの入出力を拡張するためのスイッチングデバイスです。
これらの特徴により、NVLinkはディープラーニング、科学的シミュレーション、その他のデータ集約型アプリケーションにおいて、GPUによるワークフローの最適化と計算効率の向上を実現します

この技術は、AIワークロードのデータバーストに対応し、ECMP(Equal-Cost Multi-Path)によるハッシュ分極化を回避するために開発されました。これにより、エレファントフロー(巨大なデータトラフィック)を保持できるネットワークパスを正確に選択することが可能になります(38行目から) わかりやすく説明すると
AIワークロードでは、短時間に大量のデータが送信される「データバースト」という現象が起こります。これは、AIが学習や推論を行う際に、多くのデータを一度に処理する必要があるためです。しかし、通常のデータセンターのネットワークでは、このような大量のデータフローを効率的に扱うことが難しいです。
ECMP(Equal-Cost Multi-Path)は、データを複数のパスに分散して送る技術ですが、データバーストが起こると、一部のパスにデータが集中してしまい、ネットワークの帯域幅が十分に活用されない「ハッシュ分極化」という問題が発生します。これにより、ネットワークの性能が低下し、データの送信に遅延が生じる可能性があります。
Alibabaの研究者たちは、この問題を解決するために、新しいネットワーク技術を開発しました。この技術では、エレファントフロー(非常に大きなデータトラフィック)を効率的に処理できるように、ネットワーク内で最適なパスを選択します。つまり、データバーストが発生しても、ネットワークが混雑せずに、大量のデータを迅速かつ確実に送ることができるのです。
このようにして、AlibabaのAIデータセンターは、AIモデルのトレーニングに必要な大規模なデータ処理を、より効率的に行うことができるようになりました。これは、AI技術の発展にとって大きな進歩です。

AIワークロードとは、AI(人工知能)が実行するタスクやプロセスの総量を指します。これには、データの収集、処理、分析、学習、推論など、AIシステムが行う一連の作業が含まれます。AIワークロードは、機械学習モデルのトレーニングやディープラーニング、画像認識、自然言語処理など、AIが関与するあらゆる活動をカバーしています
AIワークロードは、通常、大量のデータと高度な計算能力を必要とし、これらを効率的に処理するためには高性能なハードウェアと最適化されたネットワークインフラが求められます。AIのタスクは、単純なデータ分析から複雑な予測モデリングまで多岐にわたり、それぞれ異なるリソースと処理能力を必要とします34。AIワークロードの管理と最適化は、AIシステムのパフォーマンスと効率を向上させるために重要です。

この質問をAIにしてみました。
アリババがInfiniBandではなくイーサネットを使用して1.5万基のGPUクラスターを構築したという情報はありますが、具体的にBroadcomのTomahawk 5スイッチが使用されているかどうかについての詳細は見つかりませんでした。

InfiniBandとイーサネットは、それぞれ異なる特性と用途があり、高性能コンピューティング環境では、帯域幅、レイテンシ、信頼性などの要因に基づいて選択されます
InfiniBandは、その高い信頼性、低レイテンシ、広帯域幅により、スーパーコンピューターやHPC(高性能コンピューティング)のクラスターで広く使われています。一方、イーサネットは、より一般的な用途に適しており、特に分散性と互換性を考慮して設計されています
もしアリババがTomahawk 5を使用しているとしたら、それはイーサネットベースのネットワークであり、高速で大容量のデータ転送が可能であることを意味します。しかし、この情報は公式な発表や文書を通じて確認する必要があります

BroadcomのTomahawk 5
BroadcomのTomahawk 5スイッチは、現在市場に出ているスイッチの中で最も高い帯域幅を誇るチップ
です。以下はTomahawk 5スイッチの主な特徴です:
帯域幅: Tomahawk 5は、単一のチップで51.2 Tbpsのイーサネットスイッチング容量を提供します。これは他のどのスイッチシリコンよりも倍の帯域幅です
AI/MLワークロードの加速: AI/MLトレーニングクラスターは、高帯域幅の接続性、高いラディックス、低いジョブ完了時間を必要としており、Tomahawk 5はこれらの要求に応える設計になっています
エネルギー効率: Tomahawk 5は、以前のTomahawk 1スイッチ48台分の性能を持ちながら、95%以上の電力削減を実現しています

ネットワークの統合: イーサネットは、一般的なコンピューティングとストレージのネットワーキングインフラとAI/MLコンピューティングのインフラを統合するための最適な解決策を提供します
仮想化とCognitive Routing: Tomahawk 5は、VxLANルーティングとブリッジングなどの機能を備え、大規模なデータセンターでの共有インフラの効率的な使用を可能にします。また、Cognitive Routingにより、システム内の最も負荷の低いリンクを自動的に動的に選択し、スイッチを通過するすべてのフローのネットワークリンク利用率を向上させます
これらの特徴により、Tomahawk 5は、次世代のデータセンターやAI/MLクラスターアプリケーションに最適なスイッチと言えるでしょう。

マーケット

ダウ、ナスダック、S&P500の指数はわずかながらも上昇しており、特にナスダックは最高値を更新したようですね。フランスの選挙結果が市場の過度な懸念を和らげた一方で、トランプ氏に関連する金利上昇が投資家の間で警戒されているようです
テスラ($TSLA)の株価は6%の大幅な上昇を見せています。これは、人員削減計画が当初予想されていたほど大規模ではないというイーロン・マスクCEOの発言が安心感を与えたためと考えられます4。また、アップル($AAPL)、マイクロソフト($MSFT)、アマゾン($AMZN)も堅調な動きを見せており、これらの企業の株価はそれぞれ安定しているようです。
さらに、ISM製造業指数は予想に反して悪化し、48.5という数値で3カ月連続で50を下回っています。これは、製造業の活動が縮小していることを示しており、経済全体の減速の兆候として市場に警戒感を与えているようです

この記事が気に入ったらサポートをしてみませんか?