見出し画像

[2] 動画生成AIでミュージックビデオをつくる Live - 2023/11/05 Runway Gen-2

「動画生成AIでミュージックビデオをつくる Live」の2日目です。
1分40秒のMVプロトタイプを、週末の2日間(実際はトータル20時間くらい)で作るという無謀なチャレンジです…

昨日の記録:




昨日(土曜)の内容:

  1. MVで使用する曲の選定

  2. 曲の世界観を歌詞から創造する

  3. 曲の世界観を視覚化する

  4. MVに登場するキャラクターの設定

  5. ChatGPTを活用したMVのストーリー構築


11月5日(日)のアートワーク

6. ビデオ生成チェック

昨日、ストーリーボード用に生成した画像を使って、ビデオ生成のチェックをします。Runway Gen-2で破綻のないビデオが生成可能か確認するプロセスです。

以下がRunway Gen-2の画面です。

Runway Gen-2

Midjourney 5.2で生成した画像ファイルをドラッグしてアップロードします。

Runway Gen-2 のUI

「Generate 4s」をクリックすると4秒のビデオ生成がスタートします。処理時間は1分弱くらい。最大18秒まで生成することができます。
※4秒を超えると生成されるビデオの解像度が下がります(詳細)。

ビデオ生成中の画面

モーション値(1〜10)を設定できます。デフォルトは「5」です。数値が高いほどダイナミックな動きになります(破綻も大きくなるので注意)。

モーション値の設定

カメラモーションを設定できます。ズームイン・アウトや左右のロール、水平方向/垂直方向のパンニングおよび各々の速度を設定することができます。カメラモーションについては以下のVlogで検証しています。

カメラモーションの設定

環境設定では、シード値やフレーム補間、アップスケール、ウォーターマークの非表示などを設定できます。

環境設定

アップスケールをチェックすると、2816 x 1536ピクセルのビデオが生成されます(処理時間が少し長くなります)。4秒を超えると、2304 x 1280ピクセルになります。
以下はアップスケールをONにして生成したビデオです。凄いです…
ただ、GPU消費が大きい…

「IMAGE + DESCRIPTION」に切り替えると、プロンプトを入力できます。

プロンプトで動きを指示できる

設定されているモーション値によって結果が大きく異なりますので、試行錯誤が必要になります。以下は「Smile」と入力したので、笑みを浮かべています。

プロンプトの内容が生成されたビデオに反映されている

昨日、Midjourneyで生成した画像をRunway Gen-2でビデオ生成しながら、意図した映像表現が可能かどうかチェックしていきます。
これを事前にやっておかないと、(何度生成しても破綻するビデオが出てくるので)シーンが欠けてしまうことがあります。

ストーリーボード用の生成画像でビデオ生成チェック


7. MVタイムライン設計

Premiere Proで曲を分解していきます。
曲を聴きながら、シーンが切り替わるごとにブルーとオレンジのダミー画像を交互に配置します。

Premiere Pro

視覚化されたタイムライン

Premiere Proのタイムライン

イントロダクション、第1幕〜第3幕、最後のクレジットまでタイムラインに割り振っていきます。

シーン構成の視覚化

以下は、イントロダクションのパートです。
Gen-2の画質が向上したので、MVのプロトタイプとしては十分。

  • 再生時間:26秒(音楽が流れます)

もし、Premiere Proに動画生成AIが実装されたら「撮影素材のない」実写映像作品を創り出せることになりますね…
Gen-2がリリースされたのが6月だから、まだ4か月しか経っていないのに、このレベルまで進化しました。プロフェッショナル仕様の動画生成AIは「2年後」と予想していますが、もしかしたら1年くらいでいけるかもしれませんね。


8. ストーリーに沿ったシーンの生成

シーン生成の大半の時間は、ChatGPTとの壁打ちに費やされます。
プロンプトを書くには語彙力が必須です。専門用語や流行語なども必要になります。ぼんやりとしたイメージなどを文章だけで的確に表現するのはとても難易度の高いワークですが、この人間の限界を補ってくれるのがChatGPTです。

まず、ChatGPTに叩き台となるプロンプトを生成させ、Midjorneyで画像を生成して、すぐにダメ出しをします。
ChatGPTには完璧なプロンプトを期待せず、何度も叩き台を作らせて、こちらから検証結果をぶつけるという作業の繰り返しになります。特に、Midjorneyは繰り返しの数が多くなります。

Midjourneyに対する不満点は、入力したプロンプトを期待どおりに解釈してくれないことです。以下のプロンプトと生成結果をご覧ください。

film still, an intense close-up of Meg as she peers through her camera on the beach, sunlight casting a glow on her determined face, the ocean breeze tousling her hair --style raw

左がMidjourney、右がDALL·E 3です。
DALL·E 3は、プロンプトの中の「浜辺でカメラを覗き込むメグ」を表現できていますが、Midjourneyは単なる被写体のズームアップになっています。
プロンプトの解釈レベルは、DALL·E 3やAdobe Fireflyの方が上です。写実的な表現は圧倒的にMidjourneyが優っているのですが、プロンプトの調整には大変苦労します。

Midjourney(左)とDALL·E 3(右)の比較
Adobe Fireflyの生成結果

週末で生成した画像は200枚ほど。
短時間で大量にイメージを生成できるのが大きな利点ですが、瞬時に選別していかないと後で大変なことになります。多量のイメージを素早くグルーピングしていく審美眼的な能力が鍛えられますね。

Midjourneyで生成した画像

Premiere Proの作業は楽しいので、試行錯誤も苦ではない。
それにしても、実写の撮影素材がひとつも無いというのが信じられない!
全て生成AIによるイメージ&ビデオです。

1、2年後には、音楽も生成AIで作っているかもしれない…

  • 再生時間:38秒(音楽が流れます)

時間切れ! やはり週末(トータル18時間くらい?)では無理でした
今週も空き時間を使って、完成するまで更新します!



11月6日(月)のアートワーク

週末の土日で、イントロダクションと第1幕のシーンを作成しました。今週も引き続き、作業を進めていきますが、空き時間を利用したワークになるので随時更新というスローペースです。

第2幕が最も難しいパートで、どう表現してよいのか悩みます。

メグの写真がメディアに注目され、奨学金を提供されたことで、2人の関係に変化が訪れます。メグは街を離れ、名門の美術学校に行くことを決心します。
彼女の出発日が近づくにつれて、2人の感情が友情以上のものであることに気づき始めます。離ればなれになることに苦しみながらも、互いに相手を縛り付けたくない気持ちに苦悩します。

ChatGPTとの壁打ちはかなり有効ですが、第2幕は説明的でもダメ、抽象的すぎても微妙…ということで、不毛なやり取りになりがちです。
シナリオライターと映像クリエーターが切磋琢磨しながら時間をかけて、創造していくプロセスですから、慌てずゆっくりやっていきましょう。

MVタイムライン設計シート(第1版)

第2幕まで編集完了。
このパートは、15秒しかないので以下の部分は表現できませんでした。
第3幕の難易度が高くなってしまいましたが、最後のパートは40秒あるので大丈夫でしょう。

彼女の出発日が近づくにつれて、2人の感情が友情以上のものであることに気づき始めます。離ればなれになることに苦しみながらも、互いに相手を縛り付けたくない気持ちに苦悩します。

昨日、「実写の撮影素材がひとつも無いというのが信じられない!」と書きましたが、Adobe Stockなどの素材集を使ってもここまで表現できなかったと思います。
そもそも、似たような人物が笑ったり、泣いたり、遊園地で遊んだり、電車に乗ったり…. なんて、素材集には無いですよね…

実際に撮影するか、3DCGで表現するか、AIで生成するか、という選択しかない。

  • 再生時間:1分10秒(音楽が流れます)


アップデート情報:

Runwayの生成画像も品質改善されていました(6日に確認)。
以下は、Midjourneyの生成画像ではありません。プロンプトからビデオを生成した画像です。品質が大幅に改善しています。

center view profile , center view profile photography, crying with a sad expression on her face, film still, Meg super cute 18 year old Russian girl. Her name is Meg. She has brown ring hair and a plain white jacket. She's sitting on a train seat. shiny/glossy

テキストプロンプトでビデオ生成

film still, Bare face without makeup, thick-lipped, Skin Details, Super cute thick-lipped Russian girl, She has brown Braid hair, She is a hip-hop R&B dancer, Ultra-high definition film images, Detail-oriented photography, Her eyes are as beautiful as sapphires, shiny/glossy, kawaii

テキストプロンプトでビデオ生成

Runwayは生成画像の品質に難点があったので、Midjourneyの生成画像を使ってビデオ生成していたのですが、数か月後にはRunwayだけで全ての作業が完結するかもしれません。
現時点ではまだMidjourneyに追いついていませんが、今後どこまで品質改善されるのか注視していきたいと思います。


今日はここまで!
続きのページを作成しました。


更新日:2023年11月7日(火)/公開日:2023年11月4日(土)

この記事が気に入ったらサポートをしてみませんか?