Music Videoで使用するフォトリアル生成画像の効率的な作成手順

Evita Rene G（エビータ・レネ・G）

2024年3月23日 19:20

今日は、オリジナル楽曲でMusicVideoを作成するために必要なフォトリアル生成画像の効率的な作成手順をご紹介します。
※画像生成AIのツールはStable Diffusion Web UIを使用しています。

まずは、下記のMusic Videoをご覧ください。このMVの作り方の手順を通して紹介していきます。

必要な写真枚数を把握する

まずは、音楽に合わせて何枚の写真を用意すればよいかを計算します。

もちろん、適当な枚数を作成してから楽曲に合わせて写真を配置してもいいのですが、楽曲の小節の区切りで写真を切り替えると音と映像が一致してしっくりきますので、今回は4小節ごとに1枚の写真を用意することにしました。

１．楽曲情報を整理して1枚あたりの表示時間を計算する
楽曲の「テンポ」は、1分間に何拍とるかを示していますので、例えばテンポ120であれば、1分間に120拍打つという事になります。

今回の楽曲「穏やかな風景」は、テンポが105で、小節数が106、４/４拍子です。これを、4小節ごとに写真を切り替えるためには、4小節×4拍子で16拍子の長さの時間を計算すれば、それが一枚当たりの写真の表示時間になります。

＜計算方法＞
1分間に105拍ですから、60÷105で1拍あたりの時間を出し、それに16拍を掛ければ良いわけなので、60÷105×16＝9.14秒になります。
ちなみにこの楽曲は、全体で424拍（1小節4拍が106小節ある：4*106）あるので、424拍÷105（1分間の拍数：テンポ）×60秒で、トータル242秒の楽曲です。

２．必要枚数を計算する
242÷9.14＝26.5枚　必要と言うことになります。
これに楽曲の前後に追加で画像を配置することを考慮して、28枚用意して作成しました。

楽曲に合った画像を生成する

必要な枚数がわかったので、次は、楽曲のイメージに合う画像を28枚生成します。

加藤香織画像を生成するいつものPROMPTの後に、楽曲のキーワードとなる「青い海」や「砂浜」「風」などを入れて、生成します。

ポイントは小さい画像で大量に出力すること

女性の顔を美しく生成するためには、1820*1024サイズくらいの大きな画像を作る必要がありますが、いきなりそれを作ろうとしても、時間ばかりかかってしまう割に良い構図のものが出ないという結果になりますので、まずは、910*512の小さい画像を大量に生成します（100枚くらい）。

このサイズの画像ですと、どうしても顔がきれいに生成できませんが、ここで重要なのは、構図です。
大量に生成した後、人物と背景の構図だけで写真を選び50枚くらいに絞ります。そのうちの1枚がこれです。

＜生成データ＞
Steps: 19
Sampler: DPM2
CFG scale: 7
Size: 910x512
Model: yayoiMix_v131

顔が少し変ですが、髪型、服、景色は、曲のイメージにとても合っています。
コチラの写真も、顔が険しい感じになっていますが、オリーブの葉がバランスよく配置されていて、曲のイメージに合っています。

img2imgで画像を拡大して再生成する。

さっきの910*512の画像をimg2imgに移動して、PROMPTをそのまま変えずに、下記の設定で1820*1024の画像を再生成します。
ここで重要なのは「Denoising Strength」の値で、数字が小さいほど元の画像に忠実に、大きいほど元の画像から違う画像が生成されます。
ここでは0.5に設定しました。

再生成した画像がこれです。

きれいに仕上がりました。

Batch機能で一括変換

上記のように1枚ずつ生成してもいいのですが、50枚もの画像を再生成するには、Batch機能を使うと便利です。
下記の赤い空欄部分に元の画像フォルダと生成後の画像を保存するフォルダのパスを入れて生成をすれば、後は自動で変換してくれます。

ざっくりと説明しましたが、ご質問等あればコメントに書いてください。わかる範囲でお返事します。

この記事が気に入ったらサポートをしてみませんか？