［最新版］動画生成AIでミュージックビデオを制作する方法〜Runway Gen-3 AlphaだけでMVを制作する試み - Blog 2024/07/05

2024年7月5日 13:17

昨日の意見交換会（音楽業界向け）で、Runway Gen-3 Alphaを使ったミュージックビデオ制作の検証結果を報告しました。
Runway Gen-3 Alphaはまだアルファ版で、最低限の機能しか実装されていないため、今までの動画制作のノウハウは適用できず、プロンプト入力だけの暫定的な試みになります。

まず、制作したミュージックビデオ（プロトタイプ）をご覧ください。
意見交換会までの限られた時間で制作しているため、ラフな「動く動画
コンテ」というレベルです。

再生時間：1分30分
音楽はSuno AIを使用
実は動画生成より音楽の方が時間かかっています（Suno AIが生成した音楽で著作権が発生するのか微妙なため、Adobe Auditionでマッシュアップしています）

十分な制作時間を確保できなかったので、ハルシネーションが目立つ失敗した生成ビデオもそのまま使用しています。

プロンプト入力のみで高忠実度のビデオが生成されていることに驚いています。しかも、リリース前に公開されていたデモ動画と遜色のない品質です。

このレベルに到達するのは来年（2025年）半ばと予想していましたので、1年早まったということです。来年どこまで進化しているのでしょう…

プロンプトのトークンの扱いはかなり難易度が高いです。いろいろ試してみましたが、映像業界の専門用語、映像演出の名称などを組み合わせないと意図した映像になりません。映像や撮影の知識が必要になります。

ただ、Gen-3に特化したものではなく、Dream Machineなどの他の動画生成AIと共通していますので、公式サイトで公開されているドキュメントで十分でしょう。現在のアルファ版ではパラメータもないので、プロンプトテクニックのような高レベルの使い方はありません。

Gen-3 Alpha Prompting Guide
今のところ「プロンプトの書き方」は、このドキュメントで十分です
Getting Started with Gen-3 Alpha

以下の映像は、Gen-3 Alphaがリリースされた日に作成したものですが、リップシンク機能が素晴らしい。Gen-2から大幅に精度が向上しています。
横顔でも、顔が隠れていてもリップシンクできます（ただ、映像の不安定な明度変化やフリッカー現象、予期せぬオブジェクトの動きがあるとエラーが出ます。つまりリップシンクできません）。

再生時間：70秒
音楽はSuno AIを使用

ごっそり機能を削ったミニマムのGen-3で唯一、先行実装されたのがリップシンク機能です。

どのくらいプロンプトに忠実なのか、以下の生成ビデオで確認できます。

Gen-3 Alpha Prompt:

Visual: A large room on the space station with no windows, only glossy white walls. A Super cute Japanese young lady with long hair in a shiny silver costume sits on a white leather sofa.
Camera motion: She is taking a selfie with a Camcorder.

再生時間：42秒

プロンプト入力でここまで表現できるのは凄いのですが、やはりText to Videoでは限界があります。「生成してみないとわからない」というガチャでは連続性のあるシーンの集合体であるドラマ映像は難しいですね…
Image to Videoの実装を待ちましょう。

Gen-3 Alphaはまだ「アルファ版」なので、本格的に活用するにはGen-2に搭載されているカメラコントロールやモーションブラシ、アップスケーラー、そして何といっても「Image to Video」は絶対に必要なので、しばらく待った方が良さそうです。

以下の動画は、Runway Gen-2とDream Machineで作成したMVのプロトタイプです。Gen-3がリリースされる前の「古い（といっても数日前）」作品になります。

再生時間：1分16秒
音楽はSuno AIを使用

Gen-2のモーションブラシを使って動的表現を徹底的に追求。
偶然生成されるのを「待つ」のではなく、意図的にビデオ生成していますので、絵コンテに沿ったシーンづくりが可能です。

仕様変更や新機能搭載が早すぎる

技術進化が速すぎて、ドキュメントにしてもすぐ陳腐化してしまうので、4月からライブ配信で最新動向をお伝えしています。

Runway Gen-2が一般公開されてから、やっと1年経ちました。動画生成はまだ1年なんです…
OpenAI Soraの発表が引き金となり（2月）、Luma Dream Machineがパンドラの箱を開け（6月）、Runway Gen-3 Alphaが動画生成を次のレベルに引き上げようとしています（7月）。

動画生成は大量のクレジットを消費する（お金がかかる）ので、誰でも気軽に利用できるサービスになっていませんが、今後間違いなく映像制作に大きな影響を与え、撮影、VFX、3DCG等と並ぶ1つの手法として取り入れられていくはず。

動画生成のビジネスは、LLMとは異なりコンシューマでは儲からないので、エンタープライズ向けのカスタムモデルに注力（Runwayもエンタープライズ向けの開発を進めている）。一般開放してSNSでバズらせるより、ハリウッドの有名な映画監督にショートムービーを制作してもらった方が良いわけです。
コンシューマーでは性能を落として（悪用を防ぎ）、企業向け・業界向けに高性能の高額モデルを販売する戦略が現実的。
プロ仕様の動画生成AIは、まずコマーシャルやウェブのキャンペーン動画などで使用され、高性能のカスタムモデルが映画制作などに導入されると予想しています。

一方で、いま私がやっている自主映画制作のようなインディーズ界隈では、一般ユーザー向けの動画生成モデルで「不可能を可能に」していくでしょう。

Gen-3にImage to Videoが実装されたら、実制作プロジェクトの「映画制作」を再開する予定です。

次回のライブ配信は、11日（木）の夜です。
今週末、突発ライブあるかもしれません…

「動画生成AIの可能性」マガジンをフォローしておくと、最近記事・最新情報の通知が届きます。

「動画生成AIの可能性」

更新日：2024年7月5日（金）／公開日：2024年7月5日（金）

この記事が気に入ったらサポートをしてみませんか？