3Dモデルが作れる生成AIサービスの紹介と実際に使ってみて比較した結果
3D描画の品質はハードウェアの性能に依存します。
私はファミコン世代なので、スーパーファミコンの F-ZERO や Star Fox に始まり、中学生時代はゲームセンターに入り浸りバーチャファイターや鉄拳をプレイし、初代プレイステーションのポリゴンゲームに感動してきました。
今はポリゴンという言葉すら死語に感じ、信じられないほど簡単に3Dモデルを作れる時代です。私はクリエイターではないのでこの手の創作は苦手ですが、創造魔法ゾルトラーク (Zoltraak) で生成AIによるデジタルコンテンツ生成の可能性をどこまで引き上げることができるか試行錯誤しています。
この記事では私が試した3Dモデル生成AIまたはサービスについて紹介し、実際に触ってみた結果からおすすめの使い方を解説します。ここではキャラモデル生成に特化してお話します。
AIの進化は日進月歩なのでこの結果はすぐに変わるかもしれませんが参考情報として残せればと思います。
各サービスを簡単に紹介
この記事では Meshy, Tripo, Stable Fast 3D, Trace Generator の4つを紹介します。
参考までに比較表も共有します。英語なのは業務で Stable Fast 3D を使ったので上司への報告用に作ったためです。すべて公開情報であり機密性はないのでシェアさせていただきます。
各ツールの主な特徴を比較します:
テキストや2D画像から3Dモデルを生成
多様なアートスタイル(リアル、アニメ風、彫刻、ボクセルなど)に対応
PBRマップの自動生成機能あり
FBX, OBJ, STL, BLEND, USDZ など複数のフォーマットでエクスポート可能
APIを提供し、開発者が自身のアプリケーションに統合可能
無料プランあり、有料プランも複数選択可能
OBJ ファイルは3Dプリントで印刷できるフォーマットです。生成したOBJファイルをスライサーというアプリで印刷情報に変換すると3Dプリンターで形を作ることができます。スライサーは無料アプリがあります。
つまり生成AIで自分だけの一点ものフィギュアを作れる世界線がほぼ実現しつつあります。課題は3Dプリンタの価格と利用機会でしょうか。
テキストや2D画像から3Dモデルを生成
リアルタイムでの3Dモデル編集機能あり
歩いたり、ダイブする動きをつけることができる
ゲーム開発やメタバース向けのアセット作成に適している
無料プランあり、有料プランはMeshyほど柔軟ではない
テキストや画像から3Dモデルが作れるという機能はMeshyと同じです。後ほど比較します。
驚いたのは、生成した3Dモデルから関節の場所を特定して動かせることです。上記の私のポストでは実際にブルマ風の女の子を生成して歩かせた様子です。Blenderのレンダリング設定を間違えましたが色もついているはずです。
クリエイターさんにおすすめかもしれません。
Stable Diffusion をベースにした3Dモデル生成ツール
画像から3Dモデルを高速生成
主に研究目的で開発され、一般向けの商用サービスとして提供されていない
オープンソースプロジェクトとしてGitHubに公開されている
実行は Python のみ、GPU(CUDA/MPS)推奨だがCPUオプションも提供
すでに紹介したサービスは一部無料でも使えますが有料課金することでさらに多くのクレジットと機能を使うことができます。
Stable Fast 3D は画像から3Dモデルを作るライブラリです。テキストからモデル生成する機能はありません。
GitHubで公開されているので誰でも無料で使えます。ただしかなりのPython知識が必要です。手順通りに環境構築しましたがエラーが出て手こずりました。
Blenderのアドオンで無料で使える
Blender Marketからzipファイルをダウンロードしてインポートすると使える
Blender上で画像を読み込んで3D化する
ここまで紹介した3つと比べて、Trace Generatorは使ってみて明らかに生成精度がよくありませんでした。ロゴの立体化など限られた用途では問題なさそうですが、キャラクター生成には不向きのようです。
そのためこの先 Trace Generator のレビューは含みません。
実際に使って比較した結果
先に結論:状況に応じた使い分けがベスト
上図は同じプロンプトからMeshyとTripoでブルマ風女の子のモデル生成をした結果です。個人的な感想ではこのような使い方が現時点でお勧めです。
テキストからモデルを作るならTripo
画像からモデルを作るならMeshy
Tripoでキャラに動きをつけるにはTripoで生成したモデルに限る、他のサービスで作ったモデルをインポートすることはできない
詳細を解説します。
テキストから3Dモデルを作る場合はTripo
現状、テキストからモデルを作る場合はTripoのほうが良いです。
先に示した図の左下で比較すると、Meshyは目が鋭く、体に丸みはあるものの、言い方は良くないですが「こけし」のような感じです。一方Tripoはツインテールや服の細かさまで細かく描かれています。
私は主にAPI経由で使いますが、ウェブアプリからだと1リクエストに対して4つモデルを生成し、どれも精度が高い。
そこからさらに動きをつけたり、レゴ風に変換したりすることができます。注意していただきたいのはダウンロードは複数モデル対応で無料ですが、追加処理はいずれも有料(クレジット消費)となります。
Meshyについては最新モデルが出ました。モデル4になると「こけし」感がなくなりリアルさが改善されています。気になるのはやはり目の部分と、足先まで生成しなかったことでしょうか。
画像から3Dモデルを作る場合はMeshy
テキストからの生成とは逆に、画像から3Dモデルを作る場合はMeshyに軍配が上がりました。
前例と同じプロンプトからまずFlux.1でイメージを作り、そこから3Dモデル生成を各AIにやらせてみました。
先の画像ではやや暗くて見にくいですが、細かい部分まで作り込まれたのはMeshyの方です。Tripoの方は足が一部欠けています。Meshyはやはり目がやや鋭くなっているのが気になります。
次の例ではもっとはっきり差が出ます。
この例は別のキャラクター画像(エルフ女子)からモデル変換した結果です。違いは一目瞭然です。
Tripoは杖と下半身を中心に欠けがあり人の形状を十分再現していません。お金を払ってこの結果は正直納得いかないレベルです。
Meshyは見事に再現しています。杖と髪を画像からうまく切り分けてキャラクター化しています。足もあり、このまま3Dキャラクターとして使えるレベルです。お金を払って満足です。
そして今回の比較では Stable Fast 3D もやりました。結果はぼてっとしたモデルができ、キャラクターとしての立体感は不十分でした。
Tripo も Stable Fast 3D もこのような結果になった原因ははっきりわかっています。「元画像が複雑すぎる」のが原因です。長い髪の毛がノイズになって再現性を阻害しているのです。
もっとシンプルな画像では Tripo も Stable Fast 3D もモデル生成できました。例えば私自身の写真(作業着にデニム)であれば立体感のあるモデルになりました。業務の都合でお見せできませんが、工場の仮想空間を作る例ではオープンソースのサービスで使えそうです。Tripoではイスのような例ではきれいに生成できます。
3Dモデル生成サービスでこれだけの性能の違いがあることがわかりました。
クレジットは有限です。生成してみてから「こんなはずじゃなかった」とならないように、この記事を参考にして良いモデルを作ることができれば嬉しいです!
少しだけ宣伝:開発者様ならLLMMasterで一括生成
クリエイターさんであればウェブアプリを使ってモデルを生成して、他のアプリで作品化する方法で十分でしょう。
私は技術者としてプログラムレベルでこれらのサービスを使っています。LLMMasterというPythonライブラリにMeshy, Tripoのサービスを実装済みです。
バックグラウンドでモデル生成される開発者様がいらっしゃればこちらの活用はいかがでしょうか。
私が開発しているゾルトラークウェブではリクエストから「絵本」を生成します。10ページ前後のイラストをStable Diffusionで生成、本文はGPT-4、読み上げ音声をVoicevoxで生成し、読み上げ動画まで一気に合成することができます。
この先にある世界として「キャラ生成」と「仮想空間」もあります。絵本は2次元ですが仮想空間は3次元です。実際現バージョンでもキャラ生成するのですが一貫性のない世界になっています。LLMMasterを使ってもっとバーチャルな世界を作る予定です。
この記事が気に入ったらサポートをしてみませんか?