見出し画像

【動画生成AI】AI映像生成の最前線:Runway Gen-3が持つ可能性と課題

Runway Gen-3は、AIによる動画生成の新時代を切り拓く革新的なツールとして注目を集めています。2024年に登場したこの最新モデルは、その驚異的な映像生成能力で、クリエイターたちの想像力に新たな翼を与えています。高度な時間的一貫性、フォトリアリスティックな人物表現、そして直感的な操作性を兼ね備えたGen-3は、単なる技術的進歩を超えて、創造の概念そのものを再定義しようとしています。
本記事では、この次世代AIツールの機能と可能性、そして私たちの創造プロセスに与える影響について詳しく見ていきましょう。


1. Gen-3はGen-1/Gen-2と比較してどう変わったのか?

Runwayは、今までにGen-1、Gen-2という動画生成AIを公開しています。Gen-1とGen-2、そしてGen-3の性能を比較すると、以下のような進化が見られます。

Gen-1の性能

Gen-1は、既存の動画を入力として使用し、テキストや画像のプロンプトに基づいて新しい動画を生成する「video-to-video」モデルでした。これにより、既存の映像を基に新しい表現や変更を加えることが可能になりました。

Gen-2の性能

Gen-2では大きな進歩が見られ、テキストのみから4秒間の動画を生成する「text-to-video」機能が導入されました。また、静止画から動画を生成する「image-to-video」機能も追加され、クリエイティブな可能性が大きく広がりました。Gen-2ではさらに、生成された動画を最大18秒まで延長する機能や、カメラの動きをシミュレートする「Director Mode」など、より高度な制御が可能になりました。

Gen-3 alphaの性能

Gen-3 alphaは、これらの前世代モデルと比較して、さらに大きな進化を遂げています。

  1. 一貫性の改善:動画全体を通じて、キャラクターや要素の一貫性が大幅に向上しています。

  2. 精巧さの増加:細かいディテールの表現が改善されました。

  3. 動きの改善:複雑な動作(走る、歩くなど)の生成にもある程度対応できるように改善されました。

これらの改善により、Gen-3はより高品質で一貫性のある動画生成を実現し、クリエイティブな表現の可能性を大きく広げています。
ただし、AIによる生成特有の不自然さが完全になくなったわけではなく、顔の回転時の不自然さや物体の配置などに一部課題が残っています。

総じて、Gen-3はGen-1とGen-2の基盤の上に、より高度で洗練された動画生成能力を築き上げたモデルと言えるでしょう。

2. Gen-3の機能

text-to-video

現在のRunway Gen-3は、テキストから動画を生成する機能(text-to-video)に特化しています。ユーザーは詳細なテキストプロンプトを入力することで、5秒または10秒の動画を生成することができます

Gen-3の能力を最大限に引き出すためには、Runwayが提供する公式のプロンプティングガイドに従ってプロンプトを作成することが重要です。このガイドでは、効果的なプロンプト構造や有用なキーワードが詳しく説明されています。

プロンプトの基本構造は以下のようになっています:

[camera movement]: [establishing scene]. [additional details].

例えば、以下のようなプロンプトが考えられます。

Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray.

日本語訳:低角度の静止ショット:カメラは、熱帯雨林の中でオレンジ色の服を着た女性を下から見上げている。劇的な空は曇っていて灰色。

Gen-3 Alpha Prompting Guide

さらに、カメラスタイル、照明スタイル、動きの速度や種類、全体的な雰囲気など、様々なキーワードを使用することで、より具体的で高品質な動画を生成できます。例えば、「ダイナミックな動き」「シネマティック」「ネオン」といったキーワードを適切に組み合わせることで、望む映像効果を得やすくなります。

このPrompting Guideに従いプロンプトを生成してくれるGPTsを作成しました。このGPTsを使えば、簡単にGen-3用のプロンプトを生成できるので、ぜひご活用ください。

Lip Sync

生成した動画に音声を付与することで、動画内の人物がその音声に合わせて口を動かすLip Syncが利用できます。

Gen-3でのLip Sync機能は、以下の3つの方法で利用できます。

  • サンプル音声を用いて入力した文章を話させる

  • 音声ファイルをアップロードして、その音声を話させる

  • Gen-3上で音声を録音し、その録音した音声を話させる

以上の全ての方法で、日本語を話させることができます
以下は、Lip SyncのUIの説明です。

Lip Sync機能の説明

3. Gen-3で生成できる動画

それでは、Gen-3では、どのような動画を生成できるのか確認してみました。Prompting Guideに載っていたサンプルや、X上で有志による生成結果、Gen-3上での試行錯誤の結果から分かったことを記載していきます(ところどころでハルシネーションが起きています)。

スタイル変換

既存の物質に通常とは異なるスタイルを適用することで、現実世界にない表現をすることができます。例えば、以下のポストでは、カラスにガラス素材を適用し、ガラスのカラスの動画を生成しています。このように、様々なスタイルを融合することで、面白い動画を作成できます。

以下がガラスのカラスを生成したプロンプトです。

Slow pan: A glass raven rummaging through a garbage dump. The scene is dimly lit with moonlight reflecting off the glass feathers, creating a sparkling effect as the raven moves. Broken bottles and discarded items are scattered around, with the sound of rustling trash and distant city noises in the background.

抽象的な表現

ファンタジーの世界や宇宙などの抽象的な表現は、Gen-3で綺麗に表現できます。以下のポストでは、ファンタジーの世界を表現してもらいました。

以下がプロンプトになります。

Dynamic sweeping shot: The camera moves through an enchanted forest filled with glowing flora and floating magical orbs. A mysterious figure in a flowing robe casts spells, causing sparks and shimmering trails of light to dance in the air. The background features ancient, twisted trees and ethereal light beams filtering through the canopy. The lighting is mystical, with soft, diffused glows and vibrant, colorful highlights, creating a magical and otherworldly atmosphere.

ゲーム画面

FPSや横スクロールアクション、格闘ゲームなど、様々なゲーム画面を生成できます。

以下は3DのFPSを生成したプロンプトになります。

Style: 3D First Person Shooter game. Quality: best quality, masterpiece, 8k. Situation: a player encounters enemies and shoots them.

HD-2D

今年発売予定のリメイク版ドラクエ3で使われている技術「HD-2D」のような動画を生成しました。このスタイルは、上手く生成できることが少なかったです。

以下がこの動画を生成したプロンプトです。

In HD-2D style, a fantasy world comes to life with lush forests, towering mountains, and a sparkling river. A medieval castle with intricate details stands beside a vibrant village with charming cottages. The background features a colorful sky with floating islands. The lighting is warm and magical, casting soft glows and shadows. The camera glides dynamically over the scene, capturing the depth and richness of the landscape and enhancing the enchanting, immersive atmosphere.

2Dアニメ

2Dアニメーションも生成できます。しかし、感触としては、写実的や3D動画に比べると苦手な印象を受けました。以下のポストは、魔法少女を生成した動画になります。

以下が魔法少女を生成したプロンプトになります。

Smooth pan: Magical girl transforms in a burst of light. Sparkling ribbons and glowing symbols surround her as her outfit changes into a dazzling costume. Her eyes shine with determination, and the background shimmers with vibrant colors, styled in Japanese anime art.

3Dアニメ

Pixerのような3Dアニメーションを生成しました。これは特に問題なく生成できることが多かったので、得意なスタイルなのかもしれないです。

以下、プロンプトになります。

Dynamic tracking shot: The scene captures a child running through a vibrant, sunny park in a Pixar-like 3D animation style. The child, full of energy and joy, is dressed in colorful clothes. The background features lush greenery, blooming flowers, and other children playing. The camera smoothly follows the child's movements, capturing the excitement and liveliness of the scene. The lighting is bright and cheerful, enhancing the playful and dynamic atmosphere.

クレイアニメーション

粘土のアニメーションも生成できました。タイプラプスのようにはできませんでしたが、質感が粘土のアニメーションは生成できました。

以下がプロンプトになりますが、日本語で適当に入力しただけで生成できました。

動物をテーマにしたクレイアニメーション

ホワイトボードアニメーション

ホワイトボードに絵や文字を描いていく「ホワイトボードアニメーション」の動画生成に成功しました。ホワイトボードアニメーションも学習されているようです。

以下、プロンプトになります。

Steady zoom in: A whiteboard animation showing a boar. The scene begins with an outline of a boar being drawn in black marker. As the animation progresses, the details of the boar's features, like its tusks and fur texture, are added. The boar is depicted in a natural forest setting with simple trees and bushes sketched around it. The animation includes hand movements drawing each element with occasional erasing and redrawing for corrections.

ロゴアニメーション

これは結構実用的だと思うのですが、ロゴタイプをアニメーションで表現できます。以下のポストでは、自社名+ハワイをテーマにロゴアニメーションを作成しました。しっかり文字が描画されるので、ブランドロゴのアニメーション化に使えそうです。

以下がプロンプトになります。

smooth zoom in: Tropical Hawaiian beach at sunrise, "PONOTECH" appears in the sand as waves gently wash over. Bright and vibrant colors.

古い映像

技術が発展していない昔に撮影されたような動画も生成できます。以下のポストでは、馬車が闊歩する昔の映像を生成しています。白黒で画質が悪くノイズが入っているような感じが昔の映像のように見えますね。

以下がプロンプトになります。

Static wide angle shot: A gentleman in 1900s attire rides an ornate horse-drawn carriage on a cobblestone street. The scene is in black and white, mimicking early silent cinema. The footage has a grainy, jittery quality with visible film noise and scratches. Passersby in period clothing walk along sidewalks. High-contrast lighting creates dramatic shadows. A subtle vignette effect darkens the frame corners.

4. Gen-3の課題

高性能なGen-3ですが、やはりまだまだ課題の多いサービスになります。以下に課題に感じたことをまとめました。

手の生成が苦手

これは画像生成AIにもある課題ですが、やはり手の描写が崩れやすいです。頻繁に手が動くような動画だと、まず間違いなく手がおかしなことになります。画像生成AIだと、生成後に手だけ修正することも可能ですが、動画だと難しいです。この課題は、直ぐに解決できなさそうだと感じています。

人間のダイナミックな動き

ダイナミックな動きをさせると、形を崩しやすいです。ChatGPT研究所の石川さん曰く、体操の動画を生成させるのが動画生成AIのチューリングテストになっているそうです。

人種の偏り

以下はアジア人を描写するようにプロンプトを入力したのですが、途中で黒人のような顔つきに変わってしまっています。人種の描写には、得意・不得意があるようです。

5. 補足

プロンプトは言語を問わない?

日本語や中国語でプロンプトを入力したところ、両方ともプロンプトの意図に合った動画が生成されました。もしかしたら、動画生成AIの間にLLMを挟んでプロンプトを強化しているのかもしれません。


この記事でご紹介したAI技術の応用方法について、もっと詳しく知りたい方や、実際に自社のビジネスにAIを導入したいとお考えの方、私たちは、企業のAI導入をサポートするAIコンサルティングサービスを提供しています。以下のようなニーズにお応えします。

  • AIを使った業務効率化の実現

  • データ分析に基づくビジネス戦略の立案

  • AI技術の導入から運用までの全面サポート

  • 専門家によるカスタマイズされたAIソリューションの提案

初回相談無料ですので、お気軽にご相談ください。以下のリンクからお問い合わせください。


この記事が気に入ったらサポートをしてみませんか?