OpenAIの変換動画ツール「Sora」の大規模導入で、216億ドル相当、720,000個のNVIDIA H100 GPUが必要となる

2024年3月30日 20:05

Factorial Fundsの記事より、
OpenAIが開発した革新的なテキスト変換動画ツール「Sora」は、動画生成の品質と機能面で大きな飛躍を遂げました。しかしその一方で、膨大なGPUリソースを必要とすることも明らかになりました。

Soraが生成する動画は、細部描写や時間的な整合性においてこれまでとは一線を画すクオリティを実現しています。例えば、一時的に隠れた物体の存在を認識し、正確に再現したり、水面の反射をリアルに表現することができます。このような高品質な動画生成は、今後ストックフォトの一部を置き換える可能性も秘めています。

しかし、課題も残されています。現時点では、生成された動画の編集が容易ではなく、モデルが出力するピクセル単位での調整は難航します。また、直感的に操作できるユーザーインターフェースやワークフローの構築が求められます。Runway、Genmo、Pikaなどの企業はすでにこれらの課題に取り組んでいます。

もう一つの重要な発見は、Soraのようなモデルは、追加の計算リソースを投入することで性能が向上するという点です。これは、近年急速な進歩を遂げた「生成系AI言語モデル（LLM）」と同様のスケーリング法則が当てはまることを示唆しています。OpenAIをはじめとする開発者たちは、今後さらなるコンピューティングパワーを活用し、動画生成モデルの品質向上に注力していくでしょう。

さらに、Soraのようなモデルは、ロボット工学や自動運転などデータの集積が困難な分野においても活用が期待されます。実世界でのデータ収集はコストがかかり、稀なイベントのデータを集めるのは特に難題です。Soraは、完全に合成されたデータの生成や、既存の動画を異なる外観に変換するデータ拡張に利用できる可能性があります。

OpenAIは技術報告書で「Sora」を「世界シミュレーター」と表現しており、動画データから現実世界の基本的なシミュレーションを暗黙のうちに学習していることを示唆しています。これは、将来的に動画から大規模に世界モデルを構築できる可能性を秘めています。

しかし、Soraのようなモデルはピクセル空間で学習するため、実際のタスクとは無関係な風の動きなど細部まで学習してしまいます。また、ピクセルへの変換が可能なように潜在空間にも多くの情報が残されているため、この空間での効率的な計画立案はまだ不透明です。

最後に、Soraの開発には莫大な計算リソースが必要と推定されます。正確な数値は不明ですが、DiTと呼ばれる画像生成モデルの研究論文をもとに推測しています。DiTの最大モデルは、6.75億のパラメータを持ち、約0.4台のNVIDIA H100 GPUを1ヶ月間使用して学習しました。Soraはより大きな200億パラメータのモデルであると考えられ、さらに大規模な計算リソースが必要だったと推察されます。

また、Soraの学習にはDiTよりもはるかに大きなデータセットが用いられてきたとみられます。推測では、静止画と動画が半々程度の割合で含まれ、DiTの10倍から100倍の規模である可能性があります。

Soraのピーク時には72万個のNVIDIA H100 AI GPUが必要と見積もられています。これは総額216億ドル（約3兆円）相当の莫大な投資額となります。これは総額216億ドル（約3兆円）相当の莫大な投資額となります。

72万個のNVIDIA H100 AI GPUは、AIコンピューティングパワーとしては非常に膨大な量です。1基あたりの価格は約3万ドル（約420万円）とされており、総額は前述の通り216億ドルにも達します。さらに、1基あたりの消費電力は700Wとされており、合計消費電力は5億4千万ワットにもなります。

Soraが1ヶ月の間に4,200～10,500個のNVIDIA H100 AI GPUを使用し、1基のGPUで12分で1分間の動画を生成できるとしています。これは1時間あたり約5本の動画を生成できる計算です。

NVIDIAはAI GPU市場で90％以上のシェアを占めており、2024年現在、時価総額は2兆1千億ドル（約294兆円）を超えています。OpenAIのSoraのようなツールが世界的な企業や個人によって利用されるようになれば、AI GPUの需要はさらに急増していくことが予想されます。

詳細内容は、Factorial Fundsが提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7

この記事が気に入ったらサポートをしてみませんか？