見出し画像

気になる生成AI備忘録-vol.21-Google「CAT3D」

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

今回は、Google(Google AI)の「CAT3D」について、CAT3Dのプロジェクトページをざっと解説。

はじめに簡潔にいうと、CAT3Dとは、複数の画像から3Dシーンを自動的に生成する画期的な技術です。

↑CAT3Dのプロジェクトページのはじめに「TL;DR: Create 3D scenes from any number of real or generated images.(実際の画像や生成された画像から3Dシーンを作成できます)」という説明とともに掲載されている動画です。

続いて、CAT3Dの仕組みについて記されています。

(翻訳)
仕組み
CAT3Dは、入力された複数の画像をもとに、シーンの新しい視点を生成する「マルチビュー拡散モデル」を使用します。生成された画像は堅牢な3D再構築パイプラインに入力され、インタラクティブにレンダリングできる3D表現が得られます。この処理全体の時間 (画像生成と3D再構築を含む) は、わずか1分で完了します。

従来の3Dモデリングでは、3Dモデルを作成するために、3D CADソフトを使用したり、スキャンデータを使用したりする必要がありました。しかし、これらの方法は時間と労力がかかるだけでなく、高度な技術が必要でした。

CAT3Dは、これらの課題を克服し、誰でも簡単に3Dシーンを作成できるようにします。

CAT3Dを使用するには、複数の画像を用意するだけです。

そして前述したようにCAT3Dは、複数の画像からシーンの構造を自動的に推測し、3Dモデルを生成します。

次に、他手法との比較動画が掲載されています。

(翻訳)
他手法との比較
CAT3D (右側) のレンダリングと深度マップを、従来の手法 (左側) と比較してみましょう。異なる手法やシーンを選択してみてください。

これは動画を観てもらったほうが早いかと思います。右側がCAT3Dとのことで、他手法との差が如実にわかる感じですね。

そしてCAT3Dのプロジェクトページ最後には

(翻訳)
手法の概要
CAT3Dは、マルチビュー潜拡散モデルを使用して、シーンの新しい視点を生成します。このモデルは、任意の数の観測画像 (対応するカメラ位置情報がレイ座標として埋め込まれた入力画像) を条件として生成でき、指定されたターゲット視点からの一貫性のある新しい画像を複数生成するように訓練されています。このアーキテクチャはビデオ拡散モデルに似ていますが、時間埋め込みではなく、各画像にカメラ位置情報を埋め込んでいます。生成された画像は、堅牢な3D再構築パイプライン (Zip-NeRF または 3DGS) に渡され、3D表現が作成されます。

↑やや専門的な概要説明となっていますが、簡単に言うと、CAT3Dは複数の画像から3Dシーンの構造を理解し、新しい視点からの画像を生成→それらを組み合わせて3D表現を作成する技術だということです。

CAT3DはGoogle AIによって開発されているCAT3D、画期的なAI技術でまだ開発段階ですが、活用例を思うと以下のように考えられるでしょうか。

・ゲーム開発→リアルなゲーム環境を簡単作成
・建築設計→スケッチや設計図から3Dモデルを作成
・映画製作→特殊効果、CGシーンの効率的な政策
・教育分野→3Dモデルを用いた教材等

と、CAT3Dは3Dモデリングの未来を変えるモデルであると言えるかと思います。

ただ、これは個人的な思いですが、Googleは2024年に入ってから、様々なAIモデル・ツールを開発中だという発表をしています。

2024年5月21日現在、直近でも、毎年開催する開発者向けカンファレンスGoogle I/O」でも、複数の発表もありました。

が、一般利用までには時間がかかりそうという印象は否めません。(特に日本での)

せっかくの革新的な技術が日の目を見ないのはもったいないので、ぜひ開発を継続し、早期のローンチを期待したいですね。

この記事が気に入ったらサポートをしてみませんか?