［速報ライブ］Runway Gen-3がリリースされたので試してみた！

CreativeEdge Vlog

2024年7月2日 04:07

ご注意：この記事ページは、Gen-3 Alphaのリリース直後から公開し、検証しながら気づいたことを追記していますので、時系列が前後しています。

1日（月）深夜3時頃（日本時間）、Gen-3 Alphaが使えるようになったので、早速試しています。
突発ライブを配信中していますが、こちらのページも随時更新します。

Text to Video のみでUIはとてもシンプルです。
モーションブラシやカメラコントはまだ実装されていません。
5秒と10秒を選択できます（10秒生成がデフォルトになっていました）。

かなり混雑しているようで、Gen-2より生成に時間がかかります。
Luma Dream Machine よりは速いですが。
生成されるビデオは、720p (1280x768) のみ。

生成されるビデオの品質は良好

試行錯誤する必要がありますが、なかなか良いです。
以下の生成ビデオをご覧ください。破綻なく、10秒間走っています。

prompt:

A young woman is running with a tense look on her face along a deserted road in a devastated future city. Behind her, smoke from an explosion is rising.

再生時間：38秒

今のところ、好印象です。生成されるビデオの品質も良い。
ただ、Image to Video のように意図した映像を生成することはできないので（どんな映像が生成されるのかわからないので）、ガチャです。
クレジット消費は避けられませんね。

これは凄いかも...
手の表現、目立った破綻もなく生成できています。
※最初の映像はハルシネーションで手の指が足りませんが、このあと生成したものは問題ありませんでした（半年前はもっとひどかったので… かなり改善されています）。

prompt:

A beautiful woman's hands slowly clasp together in front of her chest. The background is dark, with only her hands illuminated by a soft light. The camera focuses on her hands, following their movement until they are firmly clasped. Finally, it tilts up to reveal the woman's face, wearing an expression of prayer.

再生時間：48秒

ハルシネーションは至る所に発生してますが、たった1年でここまで動画生成AIが進化するとは思いませんでした。

手の表現とライブコンサートのシーンをまとめてみました。

prompt:

Cute vocalist of a girl band sings enthusiastically on stage at a midsummer rock festival. The temperature and humidity are high and sweat is pouring down.

再生時間：48秒

Text to Videoしかないのは厳しい

Gen-2では、Image to Video (Midjourneyで生成した画像を動かす方法)でやっていたので、Text to Videoしかないのはちょっと厳しい。あと、プロンプトはMidjourneyで使用したものを使っていますが、やはりRunwayのプロンプト検証が必要。

Gen-2と同等のモーションブラシとカメラコントロールが実装されたら、かなり制御しやすくなりますので、今後のアップデートに期待したいと思います。
もしかしたら、モデレーションシステムがまだ開発中なのかもしれませんね。不適切な動画生成を阻止するためには、Text to Videoの方が都合がよいので。

検証のカテゴリの1つ「日本のアイドル歌手」も試してみます。
以下のプロンプトで歌唱シーンが生成されますが、アジアのどこかの歌番組というイメージ（J-POPではない）。

film still, Y2K Aesthetic, A very pretty short hair idol singer of J-POP sings, Singing on stage with a super cute set.

再生時間：43秒

破綻がない高品質の映像が生成されている
※ハルシネーションは発生している（特に手や腕、肩など）これは避けられない

Gen-2のモデレーションシステムを継承

2回ほどブロックされましたが多分、童顔のアイドル歌手を「幼い子ども」と誤認識したのだと思います。Runwayは子どもの生成を（どんなに健全な内容でも）ブロックしますので、よくあることです。
Gen-2では、何の問題もない「家族団らんのシーン」でも、子どもの顔がアップになるだけでブロックされていましたので…（児童ポルノの生成は絶対に許さないという厳しいガイドラインがあります）

アクションシーンはDream Machineと同等

「走り」については、Luma Dream Machineで検証済みですが、Gen-3は同等のレベルで10秒間生成でき、生成される動画も安定しています。
プロンプトの内容もほぼ反映されていますが、Text to Videoでは詳細な制御が効かないので、(Image to Videoを実装している) Dream Machineと併用することになりそうです。

prompt:

緊迫した表情で歩いている若い女性

A young woman walks with a tense expression on her face through the deserted streets of a devastated future city. Behind her, smoke from an explosion is rising.

男性と女性が手を繋いで走っているシーン

In a nighttime cityscape, a man and a woman are running hand in hand through a foggy, dark street. The woman is wearing a striped shirt and a brown jacket, and the man is wearing glasses and a dark jacket. In the background, old buildings can be seen faintly, with streetlights and building lights glowing through the fog.

ピンクのフード付きパーカーを着たメガネをかけた若い女性が走っている

In a narrow alley surrounded by brick walls, a young woman wearing a pink hoodie and glasses is running. The alley is dark, with a light visible in the distance. The woman has a surprised expression, and the brick walls create an aged atmosphere.

再生時間：54秒

映像の表現力は素晴らしいので、Gen-3にImage to Videoと制御機能（カメラコントロールやモーションブラシ）が搭載されたら、動画生成AIでは「最強」ということになりそう。

フェイク動画対策で必須となるモデレーションシステムやコンテンツ認証／来歴情報の埋め込み（C2PA）についても対処されているようですね。
Open AIのSoraが未だ一般ユーザーに開放できないのはこの部分です。不適切な動画生成を阻止する仕組みに関しては、Gen-2からの積み重ねで一歩リードしていると言ってよいでしょう。

リップシンク機能は素晴らしい！

Gen-3 AlphaでもLip Syncを使用できますが、Gen-2より精度が向上しています。横向きの顔でも違和感なくリップシンクします。
ただ、少々コツがあって（Gen-2と同じ）、映像の内容によっては顔がひどく変形します。つまり、リップシンクに適さないものがあるということです。ガチャの生成AIなので、マニュアル化できませんが概ね西洋人の方が成功率が高くなります。

再生時間：44秒
音楽はSuno AIを使用

今夜のライブ配信は（予定を変更して）Runway Gen-3 の徹底検証にします。夜11時頃から

［2日(火)夜11時からライブ配信］半年経って「動画生成AIで自主映画制作は可能か？」に答える時がきた／Creative.Edge Live - 26

更新日：2024年7月1日（月）／公開日：2024年7月1日（月）

この記事が気に入ったらサポートをしてみませんか？