見出し画像

[1] 動画生成AIでミュージックビデオをつくる Live - 2023/11/04 Runway Gen-2

今週末(土日)は、動画生成AIを使用してミュージックビデオのプロトタイプを作成します。いつものライブ配信(Vimeo)とnoteでリアルタイム進捗報告をしていきます。

昨日、Runway Gen-2のアップデートがあり、生成されるビデオの品質が大幅に改善しました。以下の短い動画をご覧ください。
絶妙のタイミングでアップデートがきましたので、品質が向上したRunwayでビデオ生成します。

  • 再生時間:33秒

今回のライブで使用する生成AI:

  • Runway Gen-2(ビデオ生成)

  • Midjourney 5.2(ビデオの元になる画像の生成)

  • ChatGPT(ミュージックビデオのストーリー及びシーン構成等)




11月4日(土)のアートワーク

1. MVで使用する曲の選定

本来であれば、音楽もAIで作曲したいのですが、自分の条件を満たしたサービスはありませんでした(音楽の生成はまだ時間がかかるかな…という印象)。今回は、Adobe Stockで公開されている曲のライセンスを取得しています。以前、一度使用したことのある「Never Your Friend」でいきます。

「Never Your Friend」は3分08秒の曲ですが、週末で制作するには長すぎるので「1分40秒」に短縮します。これだけ縮めても週末で完成するか微妙ですが….


2. 曲の世界観を歌詞から創造する

歌詞が欲しいのですが… ありません。
曲を聴きながら取り出します。今回は、曲を1分40秒に短縮しているので前半パートのみ。

Wanna break it off and go your own way
Need some time to think and baby that's okay
Sure you fell for me after too
But that don't mean we will make it through
Wanna stay in touch but I don't feel the same
'Cause we were always, chin to chin, so close I can't even think
Skin to skin up against the kitchen sink
Our friendship ended where are bodies begin
You know that I was never your friend
Never your friend
We were two lovers not meant to pretend
I was never your friend
Never your friend
Now that it's over you won't see me again
I was never your friend
Never your friend

ChatGPTにこの歌詞の内容を分析させます。
以下のとおり、恋愛と友情の間で生じる複雑な感情と関係の変遷についての曲だと解釈できます。

  1. 感情の変化:
    歌の初めでは、「Wanna break it off and go your own way」や「Need some time to think and baby that's okay」といったフレーズで、関係が終わりを迎えつつあることが示唆されています。これは、二人の間の感情や状況が変わってきていることを示しています。

  2. 曖昧な境界:
    「'Cause we were always, chin to chin, so close I can't even think」や「Skin to skin up against the kitchen sink」といった歌詞から、二人の関係が友情以上、恋愛未満のような曖昧なものであったことが示されています。彼らの関係は非常に密接で、どこで友情が終わり恋愛が始まるのか区別がつかないほどであった可能性が考えられます。

  3. 感情の真実:
    「You know that I was never your friend」や「We were two lovers not meant to pretend」といった部分で、歌の主人公が実際の感情を明かしています。彼らはただの友達ではなく、本当の恋人同士だったのかもしれません。しかし、何らかの理由で彼らはその感情を隠していたか、認めたくなかった可能性があります。

  4. 終わりの受け入れ:
    「Now that it's over you won't see me again」という部分で、関係が終わりを迎えたことが明確に示されています。このフレーズは、彼らの関係がもはや修復不可能であることを示しており、歌の主人公がその事実を受け入れ、前に進もうとしていることが感じられます。

総じて、この歌は愛と友情の間で生じる複雑な感情、誤解、そしてその関係の終焉についての深い感情を表現しています。
恋愛が終わった後、どのようにして前に進むか、そしてその過去の関係をどのように受け止めるかというテーマが歌詞全体に散りばめられています。


3. 曲の世界観を視覚化する

ChatGPT (DALL·E 3) に、歌詞を分析した情報を与えて、イメージを生成させます。ChatGPTの活用方法については以下のマガジンにまとめています。

大半は「可もなく不可もなし」というイメージになりそうですが、少しでもインスピレーションが得られたら良しとしましょう。

DALL·E 3 の生成結果
DALL·E 3 の生成結果

ChatGPTが生成したプロンプトをMidjourneyの「Shorten Command」で解析して、カスタマイズしやすいプロンプトに変更します。
「Shorten Command」については以下をご覧ください。

Shorten Commandでプロンプトを解析

Photo of two American teenagers, an 18-year-old boy and an 18-year-old girl, depicted in the throes of an emotional conversation in a dimly lit garage. The garage is cluttered, chaos of their feelings, with tools and boxes --ar 16:9 --style raw

Midjourneyで生成
Midjourneyで生成

もう少し、映画のシーンに寄せたいので、昨日のライブで作成した自分のカスタムスタイル(Style Tunerを使用)を使ってみます。
新機能 Midjourney Style Tunerについては以下にまとめています。

自分のカスタムスタイルで生成

かなり良いですね!
とりあえず、ミュージックビデオの画風は自分のカスタムスタイルで表現していきます。

自分のカスタムスタイルで生成

試しに、Runway Gen-2でビデオ生成してみます。
数秒のクリップで構成することになると思いますので、品質を維持したまま素材として使えそうです。Runway Gen-2は最大18秒まで生成できますが、今回はMVなので大半は2〜4秒で十分。
※以下はRunwayで生成したビデオを640 x 480 のGIFアニメに変換しています

Runway Gen-2でビデオ生成


4. MVに登場するキャラクターの設定

ストーリーを構築する前に、キャラクターイメージだけ決めておきます。
Midjourneyで(ラフスケッチの感覚で生成しながら)自分のイメージに近づけていきます。

Midjourneyによるラフイメージの生成
Midjourneyによるラフイメージの生成

カスタムスタイルなしのベースイメージ:

film still, Her name is Meg. 18 year old Russian girl. She has brown ring hair and a plain white jacket. --ar 16:9 --s 250 --style raw

カスタムスタイルなし

自分のカスタムスタイルを付加したプロンプト:

film still, Her name is Meg. 18 year old Russian girl. She has brown ring hair and a plain white jacket. --ar 16:9 --s 250 --style raw-1GHkYhao8o0ahpp7q3XolAkYaAgUrwMTVXXPtML4

カスタムスタイルによる生成結果

stylizeパラメータを調整していないので顔が変わっていますが、概ね同じテイストでシーン描写はできそうです。

  • 例:スマホを見るシーン
    追加プロンプト:Meg is interacting with a smart phone

  • 例:フルーツを食べるシーン
    追加プロンプト:Meg is overjoyed and eating an apple

  • 例:階段を降りるシーン
    追加プロンプト:Meg running up the stairs

シーンテストの生成画像
シーンテストの生成画像

とりあえず、ここまでにして、次はストーリー構築に進みます。

恋愛と友情の間で生じる複雑な感情を表現するなら、男女2人登場させるより、どちらかに絞り、心理描写を巧みに入れていく方がうまくいきそう。
絵的には女性を描写して、恋人は後ろ姿とかシルエットなどで曖昧にしておく等。


Runway Gen-2 について

Runway Gen-2についてのメモ書きです。

まず、生成されるビデオのサイズですが、今まで「1152 x 640」だったのですが「1408 x 768」で生成されるようになってきました。まだ「1152 x 640」になることもあるので注意しないといけません。
Midjourneyで生成した画像をアップスケールして解像度を上げても、結果は変わりませんでした。
今の技術進化のスピードなら、あと数ヶ月で「1920 x 1080」まで解像度が上がる可能性があります。環境設定のアップスケールをチェックすると、2816 x 1536ピクセルのビデオが生成されます。

追記(PM21:00):
2種類の解像度で生成される原因が分かりました。
4秒以内の生成なら「1408 x 768」になります。4秒を超えると、今までどおりの「1152 x 640」で生成されます。

追記(5日 PM13:00):
環境設定のアップスケールをチェックすると、2816 x 1536ピクセルのビデオが生成されます(処理時間が少し長くなります)。4秒を超えると、2304 x 1280ピクセルになります。

Runway Gen-2の生成ビデオのサイズ

いずれにしても解像度は高くないので、Premiere Proのシーケンスは、1365 x 768にしておきます。ミュージックビデオのプロトタイプなので、編集しやすや優先でいきます。

Premiere Pro


5. ChatGPTを活用したMVのストーリー構築

ChatGPTに、歌詞の解析結果を情報として提供して、叩き台となる初期ストーリー案を考えさせます。「ハリウッド映画のヒット作を手がけた脚本家」という役割を与えます。

ハリウッド映画のヒット作を手がけた脚本家として、以下の「歌詞」と「歌詞の分析」、「条件」を理解して、この曲を元にした映画のストーリーを考えてください。

#歌詞
Wanna break it off and go your own way
Need some time to think and baby that's okay
Sure you fell for me after too
But that don't mean we will make it through
Wanna stay in touch but I don't feel the same
'Cause we were always, chin to chin, so close I can't even think
Skin to skin up against the kitchen sink
Our friendship ended where are bodies begin
You know that I was never your friend
Never your friend
We were two lovers not meant to pretend
I was never your friend
Never your friend
Now that it's over you won't see me again
I was never your friend
Never your friend

#歌詞の分析
感情の変化:
歌の初めでは、「Wanna break it off and go your own way」や「Need some time to think and baby that's okay」といったフレーズで、関係が終わりを迎えつつあることが示唆されています。これは、二人の間の感情や状況が変わってきていることを示しています。

曖昧な境界:
「'Cause we were always, chin to chin, so close I can't even think」や「Skin to skin up against the kitchen sink」といった歌詞から、二人の関係が友情以上、恋愛未満のような曖昧なものであったことが示されています。彼らの関係は非常に密接で、どこで友情が終わり恋愛が始まるのか区別がつかないほどであった可能性が考えられます。

感情の真実:
「You know that I was never your friend」や「We were two lovers not meant to pretend」といった部分で、歌の主人公が実際の感情を明かしています。彼らはただの友達ではなく、本当の恋人同士だったのかもしれません。しかし、何らかの理由で彼らはその感情を隠していたか、認めたくなかった可能性があります。
終わりの受け入れ:
「Now that it's over you won't see me again」という部分で、関係が終わりを迎えたことが明確に示されています。このフレーズは、彼らの関係がもはや修復不可能であることを示しており、歌の主人公がその事実を受け入れ、前に進もうとしていることが感じられます。

#条件
・主人公の女性の名前は「Meg」にしてください
・「Meg」は18歳のアメリカの女の子です。彼女は茶色のロングヘアーで真っ白なジャケットを着ています
・恋愛と友情の間で生じる複雑な感情を表現してください
・難解な言葉や表現は使わないでください。高校生でもわかる書き方をしてください。
・ストーリーは英語で考えて、英語と日本語で書いてください。

生成されたストーリー案を2人の専門家に評価させ、何度も再考してもらいます。私はファシリテーターとして、3人のやり取りをコントロールします。

  • ハリウッドの大ヒット映画を製作したプロデューサー

  • 校正のプロフェッショナル


MV「Never Your Friend (仮)」のストーリー案:

第1幕:子供時代の絆

風光明媚な海岸の町。
写真が趣味の18歳のメグは、故郷の日常をカメラに収める日々を送っています。隣に住む幼なじみのジェイクは、プロのサーファーになることを夢見ています。2人の友情は強く、夢を共有する日々を過ごします。

第2幕:言葉にできない感情

メグの写真がメディアに注目され、奨学金を提供されたことで、2人の関係に変化が訪れます。メグは街を離れ、名門の美術学校に行くことを決心します。
彼女の出発日が近づくにつれて、2人の感情が友情以上のものであることに気づき始めます。離ればなれになることに苦しみながらも、互いに相手を縛り付けたくない気持ちに苦悩します。

第3幕:明日への飛躍

秋の金色の葉が時代の終わりを告げる中、メグは人生をスーツケースに詰め込みます。メグの古い部屋の静けさの中で、2人は別れを交わします。
列車が発車して、ジェイクは一人、厳かな姿で立っています。
車内のメグは突然、泣き出します。スマホを取り出しメッセージを彼に送ります。
ジェイクのスマホにメッセージが表示されます。しかし、彼は中身を見ないで削除し、背を向けて歩き去ります。
車の汽笛が悲しげな音を響かせます。

ストーリーボードの作成

MV「Never Your Friend (仮)」のストーリー案に沿って、最初のストーリーボードを作成します。
ChatGPT (DALL·E 3)に情報を与えて、画像を生成させます。プロンプトから展開するイメージの忠実度は、MidjourneyよりDALL·E 3 の方が高いので、以下のように意図したイメージにかなり近いものになっています。

ChatGPT (DALL·E 3) が生成した第1幕のイメージ
ChatGPT (DALL·E 3) が生成した第2幕のイメージ
ChatGPT (DALL·E 3) が生成した第3幕のイメージ

Midjourneyは、DALL·E 3 のようにプロンプトを忠実に解釈してくれませんので、改良しなければいけません。

第1幕のイメージは、「風光明媚な海岸の町。写真が趣味の18歳のメグは故郷の日常をカメラに収める日々を送っています」の部分を表現します。
DALL·E 3 だと、幼なじみのジェイクまで表現されていますが、Midjourneyでは無理です(一から作り直しになります)。以下が、Midjourney用のプロンプトです。

film still, Meg super cute 18 year old Russian girl looks through the viewfinder of a camera. Her name is Meg. She has brown ring hair and a plain white jacket. scenic coastal town. shiny/glossy --ar 16:9 --s 250 --style raw

Midjourneyの生成結果
Midjourneyの生成結果

念のため、Runway Gen-2でビデオ生成しておきます。
まったく動かない(もしくは絵が破綻していく)こともありますので、随時、確認していきます。

  • 再生時間:30秒(10秒の3回ループ)

第1幕のイメージ:

写真が趣味の18歳のメグは、故郷の日常をカメラに収める日々を送っています。

ミュージックビデオのシーンなので、複数の印象的なイメージをテンポ良くオーバーラップさせながら見せていく方法が有効です。

knolling Polaroid photos of scenic coastal town. top down view, very detailed, matte colored background. detailed photo in high quality, very detailed, 8k --ar 16:9 --style raw

Midjourneyの生成結果

以下は若干トリッキーなプロンプトなので、ガチャをまわすことになりますが、より印象的なビジュアルを生成できます。

film still, Meg super cute 18 year old Russian girl. Her name is Meg. She has brown ring hair and a plain white jacket. shiny/glossy. knolling Polaroid photos of scenic coastal town. top down view, very detailed, matte colored background. detailed photo in high quality, very detailed, 8k --ar 16:9 --style raw

Midjourneyの生成結果

プロサーファーを目指している幼なじみのジェイクは、こんな感じでいきますか…

Cool surfboards. film still, 18 year old super cool Russian pro surfer. His name is Jake. long white hair. He wears a shiny black hoodie. --ar 16:9 --style raw

Midjourneyの生成結果
Midjourneyの生成結果

メグとジェイクを1つの画面に入れるのはかなり難易度が高くなります。
ChatGPT (DALL·E 3) でも難しく、以下のようにイラスト表現でやっと意図したイメージになります。

An 18-year-old Russian girl, Meg, and an 18-year-old Russian boy, Jake, are conversing. Meg has long brown hair. Jake has long white hair.

ChatGPT (DALL·E 3) の生成結果

Midjourneyだと、同化するので(プロンプトの指定が混ざるので)白髪のジェイクがブラウンヘアーになったり、メグの髪の毛が白くなったり。
別々に生成して、Photoshopで合成するしかないでしょうね…

Midjourneyの生成結果

Photoshopの生成AIで、髪の毛を白くするという方法もありますが、タスクが増えると時間がかかってしまうので、Midjourneyで人物ごとの画像を生成する方法で進めます。

Midjourneyの生成画像をPhotoshopの生成AIで修正


ストーリーボード用の生成画像

愛と友情の間で生じる複雑な感情、誤解、そしてその関係の終焉についての深い感情を表現しています。

Midjourneyによるストーリーボード用の生成画像(第2幕)
Midjourneyによるストーリーボード用の生成画像(第3幕)
Midjourneyによるストーリーボード用の生成画像(第2幕)
Midjourneyによるストーリーボード用の生成画像(第2幕)
Midjourneyによるストーリーボード用の生成画像(第1幕)
Midjourneyによるストーリーボード用の生成画像(第2幕)
Midjourneyによるストーリーボード用の生成画像(第3幕)
Midjourneyによるストーリーボード用の生成画像(第1幕)

心理描写は、Midjourneyじゃないと無理かな…
DALL·E 3 でも表現できないですね。プロンプトの解釈はMidjourneyより優れているのですが…


今日はここまで!
日曜日のページを作成しました。



更新日:2023年11月4日(土)/公開日:2023年11月3日(金)

この記事が気に入ったらサポートをしてみませんか?