〈伝視頭脳-3〉の映像制作過程

2024年8月11日 20:14

先月末ごろ、生成AIを活用して睡眠中に見た夢を再現するイベントの第3回、〈伝視頭脳-3〉を開催しました。
イベントの様子などはレポートの記事にまとめておりますので、そちらもぜひご確認ください。

本記事では、イベント用に作った夢の再現映像の制作過程をまとめたいと思います（完成物は記事下部のリンクからご確認頂けます）。

〈伝視頭脳-3〉では以前に開催した2回よりも長めに準備期間を設け、「なるべく破綻の少ない360°パノラマVR動画空間」として夢を再現するよう努めました。

先に断っておきますと、〈伝視頭脳〉には会費などはなく、最新のVR機器向けのような本格的な動画の制作や視聴に必要な機材・ソフトウェア等を揃えるための充分な資金があるとは言えません。
夢に強い関心を持つ主催が、他人と夢を共有して語り合うための場をなんとか作りたいという思いから、完全に趣味ではじめた会です。
そのため、使用しているツール等は、無料で利用可能なものにほぼ限定しています。
また、主催は3DCGに関する知識も全くないため、ここに書かれているものよりも自然でスマートな方法は無数にあるかと思いますが、「VR制作の知識や経験がゼロの状態から、無料のツールを使ってできること」を示す一例として参考になりましたら幸いに思います。

前置きが長くなってしまいましたが、以下、制作過程を各ステップごとにまとめます。

①夢の画像をそろえる

AI画像生成ツールを使って、夢に見た場面、風景を再現します。
画像の枚数は3～5枚が基本で、360°画像の制作においては4枚の場合が最も前後左右にバランスよく配置できます。

〈伝視頭脳-3〉では、主催は以下の夢を再現することにしました。

近未来的な宿泊施設。
就寝時間になったので、私は服を脱いで全裸になり、自分に割り当てられた寝室の自動ドアをくぐる。寝室は大小ふたつの部屋に分かれていて、大部屋は先にチェックインした大家族が使っているらしい。家族の空間に水を差したくはないので、小部屋の方で寝ることにした。

小部屋にはベッドが二台。
左側には若い女性、右側には人間の男とザリガニが一体になったような生きものが寝ている。どちらかに寄り添って寝るしかないのだが、知らない裸の女性に接近するのはやはり気が引ける。
ザリガニ男のベッドにもぐりこむと、彼はいきなりハサミを振りかざしながら、理解できない言語で話しかけてきた。怒っているわけではなさそうだが、身の危険を感じるので、結局女性の方に移った。

翌朝。
目が覚めるとザリガニ男は消えていて、女性が浴室から出てきたところだった。
それまで気が付かなかったのだが、女性は身の丈2メートルほどもある長身だ。彼女の顔立ちは不自然なまでに整った印象を与える。人間ではなく、ロボットなのだ。顔から首まわりにかけて、小さな宝石のようなものが散りばめられているのが見える。
宝石の中にはボタンになっているものがあり、1時間ごとにそれを特定の順に沿って押し込み、記憶のバックアップを送信しなければ、おかしくなってしまうのだと彼女は言った。そして、そのボタンを探す役目は、彼女が選んだ相手、つまり私にしかできないのだ。
最後にバックアップを送信したのは30分前。あと少しで次の送信時間がまわってくる。

大家族と一緒に朝食をとっていると、彼女が声をかけてきたので、そっとその場を抜け出した。時間になったようだ。
外の殺風景な渡り廊下で彼女の顔に触れ、顎のあたりにある宝石をひとつ押し込む。すると彼女は水紋のように響き渡る声で歌い、両手の人差し指で顔を指さしながら、手をひらひらと動かした。「もっと押して」という意味らしい。

私が宝石を押し、彼女が歌う。
その様子が近くにいた人々の目に留まると、彼らは物珍しさからスマホを手に集まってきた。
まずいと思い、いったん中に戻って物置部屋に身を隠すが、いずれ見つかってしまうので長くはいられない。
私は彼女の手を引いて群衆から逃げまわりつつ、宝石を押す作業を続ける。
バックアップは、あとどのくらいで終わるのだろうか……

画像生成に使用するツールは何でもいいのですが、
・無料で利用可能
・日本語入力に対応
・生成可能な枚数制限が厳しくない
・プロンプトに（比較的）忠実
という理由から「Image Creator from Microsoft Designer」（旧「Bing Image Creator」）を使うことが多いです。

〈伝視頭脳〉では、各参加者に事前に自分の見た夢を再現した画像を生成して、主催まで送って頂くようお願いしています。
②以降のステップでは、送っていただいた画像に主催が加工・編集を加えてパノラマ化していきます。

②それぞれの画像を生成拡張する

①でそろえた画像を、AIによる生成拡張（アウトペインティング）機能にかけることで「画角」を広げ、よりパノラマ化に適した画像にします。

以前はClipDropの「Uncrop」機能を使用していたのですが、無料版では使えなくなってしまったため、〈伝視頭脳-3〉ではUniDreamの「AI拡大」機能を使用しました。

拡張することによって再現元の夢には含まれていなかった要素が背景等に入り込んでくることもあるのですが、そうした細分のランダム性も生成AIならではの「夢らしさ」と肯定的に捉え、（元画像を雰囲気を壊さない範囲内で）許容しています。

③生成拡張した画像を並べて、横長の画像にまとめる

②で拡張した画像を並べて、1枚の横長の画像として書き出します。
本来、360°パノラマ画像は2:1の比率とすべきなのですが、ここでは16:9の比率にしています（理由は後述します）。

画像編集には「GIMP」を使用しています。
360°表示した際に可能な限りシームレスにつながるようにするため、拡張した画像のうちの1枚を中心から二分割し、左側を右端に、右側を左端に移動させています（こちらも理由は後述します）。

④画像の接点、外側の部分を「生成塗りつぶし」でシームレスにつなげる

③では画像同士の境界線が目立っていますので、隣り合う画像の間を画像生成で再度埋めることでシームレスにつながるようにします（後述の理由から、左右の端はそのまま残します）。
同じような機能はClipDropやAdobe Fireflyにもありますが、今回はUniDreamアプリの「画像修正」機能を使用しました。

このように青く塗りつぶした部分が、塗りつぶされていない部分とスムーズにつながるような形で、部分的な画像生成（修正）が行われます。

なお、「生成塗りつぶし」でも一般的な画像生成と同様に「塗りつぶし」の内容をプロンプト（指示文）で指定できますので、できるだけ360°パノラマ画像らしくなるように、以下のプロンプトを入力しました。

Equirectangular 360-degree panorama view photo

ただ、このようにプロンプトを入力しても実際にAIが破綻なくきれいに360°見渡せる画像を出力することは基本的になく、特に画像の右端と左端の境界部分には破綻が生じてしまいます。
そのため、③で予め画像を二分割して左右に配置するという工程を挟んでいます。こうすることによって、画像の左右がきれいにつながらないという問題が解消されます。
（Adobe Photoshopではより高度な編集・塗りつぶし機能がありますので、この工程は不要になります。）

⑤画像から動画を生成する

動画生成AIを使って、④の画像を動画化します。
〈伝視頭脳-3〉では「Luma Dream Machine」を使用しました。

画像生成の場合と同様にプロンプトを入力して生成するのですが、元の画像が複数の画像を結合した複雑なものであるせいか、プロンプトの内容が正確に反映されにくいという問題があります。
さらに、カメラのズームやパンなどの動きが加わると、パノラマとして破綻してしまいます。
「なるべく破綻のない360°パノラマ動画」として成立させるためには、「カメラ、そして画像の左右の端に動きが少ない動画」を生成する必要があります。
いろいろ試した結果、下記のプロンプトでこの条件を満たす動画が生成されやすいことがわかりました。

A video of a panoramic landscape shot from a fixed point of view, little movement, still background

ただ、上記の条件を満たしてはいるものの、全体的な動きが少なく面白みに欠ける動画になってしまっているように感じます。
主催は今回はじめて動画生成AIを触ったのですが、プロンプトについては大いに改善の余地があるように思います。

生成にあたっては、Loop機能で5秒のループ動画を作成しました（Extend機能で10秒、15秒の動画も生成したのですが、やはりプロンプトの問題なのか、あまり良い結果は得られませんでした）。

また、2024年8月現在、「Luma Dream Machine」が出力に対応している動画の比率は16:9のみとなっています（今後、他の比率にも対応する予定があるようです）。
2:1の画像を動画にしようとすると左右がクロップされて出力されてしまうため、③で16:9の比率で画像を作成しました。

⑥動画から音声を生成する

動画から音声を生成するElevenLabsの「Video to Sound Effects Generator」に⑤の動画を読み込ませ、音を付けます。

⑦天頂、天底に画像を挿入する

ここまでのステップで左右（ヨー軸）方向に破綻のない動画が作れましたが、上下（ピッチ軸）はパノラマ仕様になっておらず、360°表示すると違和感が目立ちます。
上下については、④でやったようにUniDreamの「画像修正」でカバーすることも難しいため、（焼け石に水ではありますが）少しでも見栄えをよくするため動画の天頂と天底部分に画像（〈伝視頭脳〉のロゴ）を入れました。

なおロゴの挿入は、360°イラスト作成アプリ「PanoPainter」の無料版に画像をインポートして書き出すという方法をとりました。

⑧編集で動画に音声を入れて書き出す

⑤で生成した動画、⑥で生成した音声、⑦で書き出したロゴの画像などをすべて動画編集ソフト上で組み合わせ、編集した動画を書き出します。
編集にはフリー動画編集ソフトでお馴染みの「AviUtl」を使用しました。

⑨動画をアップロードする

最後に、YouTubeなど360°動画に対応したプラットフォームに動画をアップロードして、「夢のVR動画化」作業は完了です。
下記リンクから完成物（主催の見た夢の再現）をご覧いただけます。
（※スマホの方は、YouTubeアプリから視聴することで自由に視点を動かすことができます。）

余談：「誰もが夢を表現できる場」を目指して

Blockade Labsの「Skybox AI」というAIでは、プロンプトを入力するだけで破綻のない完全な360°パノラマ画像の生成が可能です。

以前から〈伝視頭脳〉で活用できないか検討しているのですが、
・（リリース当初より改善しているとはいえ）プロンプトにあまり忠実ではない
・日本語に対応していない
・無料版では利用回数の制限が厳しい
といった問題があり、現状では厳しいと思われます。

〈伝視頭脳〉は主催が個人で制作したものを発表するイベントではなく、参加者も制作の一部に携わる、ワークショップ的な側面を持ったイベントです。
主催のようにAI／VRの知識があまりない人でも気軽に参加できるオープンなイベントにするため、夢の再現に利用するツールを決めるにあたっては、できるだけ制限なく簡単に利用できることが第一の条件となります。

夢は基本的に誰もが見るものですが、それを図像として精密に再現する能力を待つ人は多くありません。
言い換えれば、「夢を見る能力」を持つ人の数と「夢を表現する能力」を持つ人の数に、大きな隔たりがあるのです。

「UniDream」「Luma Dream Machine」「WOMBO Dream」「DreamStudio」など、生成AIツール／アプリにはDreamという単語が含まれる名前が多いことに気付かされます（上記の「Skybox AI」も、プロンプト入力欄に「Dream up your world」と表示されます）。
この事実は、これらの生成AIが、前述の隔たりを埋めてくれることへの期待を反映しているように思われてなりません。

夢は誰もが見るものであるからこそ、〈伝視頭脳〉はこれからも「VR空間としてのクオリティ」と「イベントとしての敷居の低さ」のバランスを常に意識し、「誰もが夢を表現できる場」になることを目指します。

この記事が気に入ったらサポートをしてみませんか？