小説家が自作の予告編動画を動画生成AIで作ってみた

安野貴博

2024年4月4日 16:02

２年前に発売した自作「サーキット・スイッチャー」がこの度文庫化されることになった。そこで、動画生成AIの力を借りて予告編を作ることにした。出来上がった映像はこちら。

小説家が自作小説📚の予告編動画🎬を作ってみた（AIで）
『サーキット・スイッチャー』　文庫版、明日発売です！ pic.twitter.com/KvI3qRok5Y
— 安野貴博 (@takahiroanno) April 4, 2024

ウィル・スミスが素手でスパゲッティを食っていた時代と比べると、動画生成AIもかなり使い勝手が上がっていた。画像生成AIがControlNetで飼い慣らせはじめた１年前を思い出す感じがする。

AIで生成されたスパゲッティを食べるウィル・スミスhttps://t.co/ZmYAHtWH2p pic.twitter.com/mN6rz39O2i
— やまかず (@Yamkaz) March 28, 2023

備忘として何のAIをどう使って作ったかの現時点のワークフローを紹介する。動画生成の分野はOpenAIがSoraを発表して以降、加速した感があり、この数ヶ月だけでもかなりいろいろな技術が発表されている。

1) Suno AIでBGM作り

曲作りは3月22日にリリースされたばかりのSuno v3を使った。Sunoはケンブリッジにあるエンジニアとミュージシャンのチームで開発された楽曲生成AIで、驚異的なクオリティの音楽をプロンプトで指示するだけで仕上げてくれる。サイトにアクセスしてアカウントを作ったら無料で何個か作ることができた。かかる時間も数分程度だ。

movie trailer style, thriller, action, sci-fiなどのプロンプトでいくつか作ってみる。今回は歌詞はいらないのでインストゥルメンタルで生成した。それっぽい楽曲が色々出てくるが、中でも下記が良さそうだった。

１分１０秒の長さの中に、盛り上がりポイントがいくつかある。音が途切れるところ、再開するところなど、”””予告編っぽい”””感じがした。

2) Style-Bert-VITS2でナレーション作り

BGMが出来たら次は音声である。ここで使えるのはStyle-Bert-VITS2である。文字を読み上げてくれるアルゴリズムだ。平坦な読み上げではなく、感情を込めた表現ができるのが特徴だ。

例えば、「爆弾だ」と「爆弾だ！」と「爆弾だ……」でそれぞれ違う音声を出してくれる。一定の感情に沿って読んだ音源データがあれば「楽しく」とか「悲しく」とか「怒って」とかそういう読み上げのスタイルを指定したり、どれほど強くスタイルを適用するか調整できる。

ただ、イントネーションでは多少苦戦した。例えば「首都高」という文字は「しゅとだか」と発音されてしまった。カタカナで入力するとアクセントがうまくいかない。そこで、１文字ずつ音の高低を指定できるアクセント調整機能を使って調整した。

3) RVCで台詞づくり

ナレーションはStyle-Bert-VITS2で良かったのだが、台詞はもう少し細かい演技をしたくなった。そこで、声質変換のRVCを使って自分で台詞を読み上げて声質変換をかけることにした。

……が、結果的にそんなに良いのは取れなかった（おい）。純粋に自分の演技力不足と時間不足である。ここはもう少し時間があれば改善できたかもしれない。

とにかく、ここまででBGM、ナレーション、台詞の音声セットが手に入ったことになる。ここから絵作りをしていく。

4) Stable Diffusionでキーフレームづくり

ナレーションに合わせて印象的なシーンの元になるキーフレーム、原画部分をたくさん作ってゆく。AUTOMATIC1111でとにかく大量に作ってから、選択をしていった。

自分はstable diffusionで出していたが、midjourneyでも何でもいい。これらの画像素材を先ほどつくった音声素材にハメていき、ビデオコンテ的なものを作成した。

5) Runway Gen2で動画化

次にキーフレームを動画化してゆく。使ったのはRunwayのGen2である。これはImage To Video（画像を動画に）変換してくれるものである。

Gen2は思ったよりも細かい制御ができて驚いた。例えば生成動画のカメラをどう動かすか指定できる。めちゃくちゃ精緻に指示に従ってくれるわけではないが、圧倒的にありがたい。

画像の指定した箇所を指定した方向に動かすMotion Brush
（ピンク部分を右下に、緑部分を左上に動かして、という指示をしている）

とはいえ、Gen2の動画は動画生成AIの弱点を克服できているわけではない。生成される動画はキーフレームから離れれば離れるほどドロドロに溶けていってしまう。色はドリフトし、形は崩壊し、顔は別人になってゆく。

人物ドリフトの例

だが、今作っているのは予告編ムービーである。一つ一つのショットは短くても良く、使える瞬間を細かく切り取ってつなげていけば良い。使えるかもしれない一瞬のキラメキみてえな瞬間を拾い集めてつなげていく……！

6) Aniportraitでリップシンク

Aniportraitというモデルが最近公開された。これは顔の表情を作ることができるモデルである。

人物の静止画と音声をいれると、その人物がその音声を発声している動画に変換ができる。開発者が公開している動画はなんかすごく良さそうだった。これを使えば予告編で人が喋っている部分に演技をつけられるのではないかと考えた。

Very nice effect, using the mediapipe as face catcherhttps://t.co/eIiMXhVye2 https://t.co/6jaMyPmcv3 pic.twitter.com/YTYzIeCZZF
— 青龍聖者 (@bdsqlsz) March 27, 2024

が、今回はバチッとハマる生成結果は出てこなかった。自分が飼い馴らせていないだけなのか、まだ今後に期待というフェーズなのか。今回は冒頭で一瞬だけ入れるに留める。

動画生成AI、Aniportraitで人物喋ってるところいけるかなと思ったけどまだ自分にはあんまり飼い慣らせなかったんだよな。 Audioと静止画から顔演技をつけるモデルを試してみたんだけど、結果はこんな感じだった。 pic.twitter.com/LrGV3PUsaT
— 安野貴博 (@takahiroanno) April 4, 2024

感想

60点の動画の制作はかなり楽にできるようになって来た感触はある。自分の動画制作能力は正直まだまだだけれど、ちゃんとした人が使えば70点ぐらいは取れるかも知れない。一方で、現時点では70点より上に改善していこうとすると途端に難しくなるだろうなとも思う。（点数は適当）

今回は使えなかったが、動画生成まわりではいくつも気になる技術が出てきている。Animatediff、Champ、Gaussian Splatting、Line2Normalmap、BasicPBC、VIDIM、etc…到底触りきれないが、たぶん１年もすればAIによる動画生成はすっかり当たり前になるだろうなと思う。映像制作のハードルが下がれば、今回みたいに小説の予告編みたいなニッチな動画も色々出てくるはずだ。

クリエイター個人が脳内の映像を形にしやすくなってきた。我々は粛々と作り続けなければならない。