【SV3D】たった1枚の写真から3Dモデルを作る最新技術 - Stable Video 3Dのしくみ
👋皆さん、こんにちは!今回はStability AIから発表された最新のAI技術「Stable Video 3D (以下、SV3D)」をご紹介します✨️
SV3Dは、たった1枚の画像から高品質な3Dモデル動画を作成できる画期的なツールです!
これまでも、生成AIを利用して画像から3Dモデルを作成するツールはリリースされていましたが、テキストから3Dモデルを生成する場合と比べて、画像からの3D生成はうまくいかないことが多いという印象がありました🤔
テキストから生成する際は3Dモデル全体を作るのに対し、画像から生成する場合は見えていない部分の補完が難しいためだと思います。
そこでSV3Dは、この補完の問題に独自のアプローチで取り組んでいます。この記事では、SV3Dがどのような仕組みで画像から3Dモデルを生成しているのかを、基礎知識のない方にもわかりやすく説明していきます📖
論文を噛み砕きながら、SV3Dの画期的な技術についてご紹介しますので、ぜひ最後までお付き合いください!
👇️参照元はStability AIの公式記事です
🤔どうやって画像を3D化してるの?
SV3Dが1枚の画像から3Dモデルを生成するプロセスは、大きく分けて3つのステップからなります。
🖼️ 入力画像から、その物体を様々な角度から撮影したかのような複数の画像を生成
📷 生成された画像を手がかりに、物体の大まかな3D形状を推定
🛠️ 細部を調整しながら、高品質な3Dモデルに仕上げる
Stability AIは、画像生成AIの分野で広く知られる「Stable Diffusion」を開発した企業なので、参照する画像を「一般化」していろんなアングルから撮影した画像を作る部分において非常に高い技術力を持っています。
(一般化とは、画像のある側面を見たときに、見えていない部分をよくある形状に当てはめて補完することを指します)
SV3Dが1枚の写真からさまざまな角度の画像を生み出せるのは、「ビデオ拡散モデル」と呼ばれる動画生成AIを応用しているからです。
ビデオ拡散モデルは、動画が持つ「時間的な一貫性」を学習しています。つまり、連続するフレーム間では、物体の見え方に大きな変化はないはずだということを理解しているんですね。
この性質を巧みに利用し、与えられた1枚の写真から、3D空間での一貫性を保ちながら物体のあらゆる角度からの見え方を想像します。
SV3Dは、この画像生成と動画生成のナレッジを活かしながら、1枚の画像から複数の画像を生成するプロセスを実現しています。
こうして生み出された複数の画像を、3Dモデルを構築するための手がかりとして活用。徐々に形を整えながら、最終的には精巧な3Dモデルへと昇華させていきます。
🌓二つのモデル
SV3Dにはカメラ制御の有無で2つのモデルがあります。
SV3D_u
入力画像をもとに自動的にカメラが動き、3Dモデルを生成するSV3D_p
入力画像に加えてカメラの動きを指定でき、より自由度の高い3Dモデル生成が可能
どちらを選ぶかは、用途やニーズによって異なります。手軽に3Dモデルを生成したい場合はSV3D_u、より細かな制御が必要な場合はSV3D_pが適していそうです。
🪄利用方法と制限
このモデルにアクセスするには、公式記事からHugging Faceにアクセスし、連絡先情報の共有に同意する必要があります。(ソースコードはHugging FaceからアクセスできるGithubにあります)
Stable Video 3D は、Stability AI メンバーシップに加入することで、商用利用が可能になります。
私も利用してみたいと思いますので、使ってみた感想などもまた記事にしたいと思います!