見出し画像

テキストから3D生成AI「DreamFusion」とは?仕組みをわかりやすく解説

DreamFusionとは

DreamFusionは米Google Researchと米UC Berkeleyの研究チームが発表したAIを用いてテキストから3Dオブジェクトを生成するシステムです。

これまでテキストから3Dオブジェクトを生成する手法はいくつか提案されましたが、生成される3Dのクリオリティの高さから注目を浴びました。

さっそく、DremmFusionで生成された3Dオブジェクトをいくつか見てみましょう。

入力テキスト:a classic Packard car(パッカードのクラシックカー)
入力テキスト:a group of dogs playing poker(ポーカーを遊ぶ犬の集団)
入力テキスト:
an astronaut chopping vegetables in a sunlit kitchen
(太陽の光が差し込むキッチンで野菜を切る宇宙飛行士)

テキストから生成された3Dとは思えないほどのクオリティに驚くとともに、複雑なテキストにも対応できるていることがわかります。

また、DreamFusionで生成された3Dは、汎用的な3Dフォーマットで書き出すことができるため、AR/VR、ゲーム、映像コンテンツにも活用することができます。

DreamFusionの特徴・強み

DreamFusionがこれまでの類似の手法と比べてどのような特徴があるのかを解説します。

生成される3Dのクオリティ

これまでの手法と比較した図

図の画像からわかるとおりDreamFusionから生成される3Dモデルはこれまでの手法と比べて、飛躍的にクオリティの向上に成功しました。

これまでテキストから生成された3Dは大きく2つの課題がありました。
それは、テクスチャーがぼやけてしまうことと、形状がいびつになってしまうことです。

DreamFusionはこれまでの手法を踏襲しながらも、生成プロセスを工夫することで、これらの課題を大きく改善しました。

生成される3Dを修正することができる

生成された3Dに対してテキストを入力により修正・編集することが可能です。

生成された3Dをベースに理想に近い3Dに近づけることができます。

ざっくり仕組みを解説

DreamFusionは、NeRF、Imagen、とDiffusion Modelを組み合わせることで3Dの生成を行います。

NeRFとは、さまざまな角度から撮影した複数の画像から、3Dシーンを生成する技術です。すべての角度からの画像がなくても、予測し復元することができるのが特徴です。

Imagenは、グーグルが開発したテキストから画像を生成するAIシステムです。

NeRFで生成した3Dシーンをテキストから生成された画像にDiffusion Modelを用いて近づけていきます。このサイクルを何度も繰り返すことで、3Dシーンを最適化していきます。

これからの発展に期待したいこと

AR/VR、ゲーム、映像コンテンツなどに活用する上でこれからの発展に期待したいポイントを紹介します。

生成スピード

DreamFusionは1つの3Dの生成に約1.5時間(TPUv4 × 15,000iterの場合)がかかると言われています。

もう少し、生成時間が短縮されていくと気軽に活用できる技術になっていくと思います。

まとめ

これからXR技術が発展し、あらゆるものが3D情報に変換する需要が高まっている中で、専門知識がなくても3Dを生成する技術の需要はとても高いです。

テキストから3Dを生成する分野もまだまだ発展途上の分野です。これからどんどん研究が進み、実用性が高まっていることが予想されます。

XRを発展する上でとても重要な役割を担う分野なので、これからのアップデートにも注目です。

お問い合わせ

弊社では、AR開発に特化したサービス提供を行なっています。ARの提供のみで終えず、どうすればファンとのコミュニケーションにARが有効活用できるか?という視点から、他社事例も踏まえた企画からAR開発までワンストップでサービスご提供します。

まずはお気軽にお問い合わせください


この記事が気に入ったらサポートをしてみませんか?