見出し画像

動画生成AI(Vidu/Runway)比較ガイド



はじめに

 動画制作の世界に革命を起こす2つのAIサービス、「Vidu」と「Runway Gen-3 Alpha」が登場し、アニメファンやクリエイターの注目を集めています。これらのAIは、静止画から驚くほどリアルな動画を生成し、従来の制作プロセスを一変させる可能性を秘めています。

Viduの特徴と機能

 動画生成AIサービス「Vidu」は、中国のShengshu Technologyと清華大学によって開発された革新的なAIモデルです。このサービスは、テキストや画像を入力として高品質な動画を生成することができます。有料プランであれば商用利用可能です。

現在の仕様では、有料プランのアップスケールを行うとウォーターマークが消えます。


特徴

  • テキストから動画生成: テキストプロンプトを基に、4秒または8秒の高解像度の動画を生成します。

  • 画像から動画生成: 画像を使用して動画を生成することも可能で、キャラクターの一貫性やアニメーションスタイルの動画を作成できます。

  • リアルな物理シミュレーション: 現実世界の物理法則をシミュレートし、自然な光や影の効果、詳細な表情を再現します。


生成画面でStyle(通常とアニメーション)※と動画の長さ(4秒または8秒)が指定できます。
※Styleは、Text to Videoでしか指定できません。

主な機能

  • 高い生成速度: 4秒の動画クリップをわずか30秒で生成可能。

  • 多様なシーン生成: SF、ロマンス、アニメーションなど、さまざまなジャンルに対応したシーンを生成可能。

  • クリエイティブなビジュアル: 現実には存在しない創造的なシーンを作成することができ、映画的な効果も再現可能。


解像度は、具体的なサイズを明示していませんが、通常 688x384ピクセルから有料プランのアップスケールにより1934x1080ピクセルにすることができます。

image to Videoで参照する画像を使うことでアスペクト比を調整できるようです。(Use as First Flameを指定)


Image to Video



Runway Gen-3 Alpha の特徴と機能

 Runway Gen-3 Alphaは、Runway社が開発した最新の動画生成AIモデルです。このモデルは、テキストや画像から5秒または10秒の動画を生成することができる。
無料プランではGen-3 Alphaを利用することができません。


特徴と主な機能

  • テキストおよび画像から動画生成: テキストプロンプトや画像を入力として、短時間で高品質な動画を生成できます。

  • 高いリアリズム: Gen-3 Alphaは、実写に近いリアルな動画を生成する能力があり、特に動きの表現や一貫性が大幅に改善されている。

  • 高度なカメラコントロール: 1人称視点や特定のカメラワークを指定することができ、クリエイティブな表現の幅を広げている。


解像度は、現在1280x768ピクセルという特定のサイズに限定されています。

画像から動画生成する場合、参照する画像を最初(First)のフレームにするか最後(Last)のフレームにするか指定できるようです。これによりAIが前後のフレームを自動的に補完しスムーズな動画を生成できるようです。

イメージとして、Luma Dream Machineの「キーフレーム」機能に近いです。


フレーム指定


Gen-2からの更新点

  • 忠実度と一貫性の向上: 前世代のGen-2モデルと比較して、動画の忠実度や動きの表現が大きく改善されています。これにより、より自然でリアルな動画生成が可能。

  • 汎用世界モデルの構築: Gen-3 Alphaは、Runway社が「汎用世界モデル」と呼ぶAIシステムの構築に向けた重要なステップとされており、現実世界で遭遇する幅広い状況をシミュレートする能力を持っている。

このように、Runway Gen-3 Alphaは、動画生成の精度とリアリズムを大幅に向上させ、クリエイティブな制作活動をサポートする強力なツールとなっています。

プロンプトガイド概要

Viduプロンプトガイド

Viduにはプロンプトガイドがあります。(登録のようなものがポップアップで出てきますが…。ガイドは英語で記載されています)

プロンプトの基本構造は以下の通りです:

  1. Subject/Scene(主題/シーン):

    • 明確で正確な描写

    • 簡潔な説明 例:「優雅に泳ぐベビーコーギー」

  2. Scene Description(シーンの説明):

    • 豊富な詳細

    • 主題の位置

    • 素材、衣装、色彩、質感などの具体的な情報
      例:「大きな日当たりの良いプールで、ゴールデンアワーの柔らかな光に照らされた子犬の優しい笑顔」

  3. Environment Description(環境の説明):

    • さらなる詳細

    • 状況に合わせた感情や細部の描写 例:「高解像度の撮影で水の質感とコーギーの表情の細部を捉え、穏やかさと無邪気さを表現」

  4. Artistic Style/Medium(芸術的スタイル/メディア):

    • アーティストやジャンル

    • 撮影スタイルやレンズの種類
      例:「水中写真の技法を用い、パステルカラーで夢のような雰囲気を演出」

この構造に従うことで、より具体的で豊かな映像表現が可能になります。

例えば、「コーヒーカップ」という単純な主題から、「庭園のガラステーブル上にあるLOVEと書かれたコーヒーカップ、満開の花々に囲まれ、暖かい日差しが庭を照らす」というように、詳細な説明を加えることで、より豊かな映像が生成されます。

アニメ系の具体例:

A vibrant anime-style scene of a magical girl transformation sequence. The protagonist, a young girl with long flowing pink hair, stands in the center of a starry cosmic background. Swirling ribbons of light encircle her body as she transforms. Her school uniform dissolves into sparkles, revealing a frilly pastel dress with heart motifs. A golden tiara materializes on her forehead, and a magical wand appears in her hand. The camera dynamically rotates around her, capturing the entire transformation process. The color palette is dominated by soft pinks, purples, and golds, creating a dreamy and enchanting atmosphere. The animation style is reminiscent of classic magical girl anime from the 1990s, with smooth transitions and glittering effects.

魔法少女が変身するシークエンスの躍動感あふれるアニメ風シーン。流れるようなピンクのロングヘアの主人公の少女が、星の輝く宇宙の背景の中心に立っている。渦巻く光のリボンが変身する彼女の体を包む。彼女の制服はキラキラと輝き、ハートのモチーフがあしらわれたフリルのようなパステルカラーのドレスが現れる。額には金色のティアラ、手には魔法の杖。カメラは彼女の周りをダイナミックに回転し、変身のプロセス全体を捉える。ソフトなピンク、パープル、ゴールドを基調とし、夢のような魅惑的な雰囲気を醸し出している。アニメーションのスタイルは、1990年代のクラシックな魔法少女アニメを彷彿とさせ、滑らかなトランジションときらびやかなエフェクトが特徴だ。

翻訳_by DeepL



Runway Gen-3プロンプトガイド

Gen-3 Alphaにもプロンプトガイドがあります。

プロンプトの基本構造は以下の通りです:

[カメラの動き]: [シーンの設定]. [追加の詳細].

この構造に従うことで、一貫性のある結果を得やすくなります。
例えば:

Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray.

アニメ系の具体例:

Panning shot: A bustling anime-style cityscape at night, reminiscent of Neo-Tokyo. Neon signs in Japanese and English illuminate the crowded streets. A teenage girl with long blue hair and a school uniform stands on a rooftop, her scarf blowing in the wind. The camera slowly pans from left to right, revealing more of the sprawling city below.

パンショット: ネオ東京を思わせる夜の賑やかなアニメ風の街並み。日本語と英語のネオンサインが雑踏を照らす。青い髪の制服姿の10代の少女が、スカーフを風になびかせながら屋上に立っている。カメラはゆっくりと左から右へパンし、眼下に広がる街の様子を映し出す。

翻訳_by DeepL


Runway Gen-3を使用する際の重要なポイントは以下の通りです:

  1. カメラの動きを明確に指定する

  2. シーンの詳細を豊富に描写する

  3. 登場人物や物体の特徴を具体的に述べる

  4. 雰囲気や感情を表現する言葉を使用する

  5. 必要に応じて、芸術的スタイルや参照作品を明記する

また、Runway Gen-3では以下のようなキーワードを使用して、特定の効果を得ることができます:

  • カメラスタイル:Low angle, High angle, FPV, Hand held, Wide angle, Close up など

  • 照明スタイル:Diffused lighting, Silhouette, Lens flare, Back lit など

  • 動きの速度:Slow motion, Fast motion, Timelapse など

  • 動きの種類:Grows, Emerges, Explodes, Ascends, Transforms など

  • スタイルと美学:Moody, Cinematic, Iridescent, Home video VHS など

これらの要素を組み合わせることで、より具体的で魅力的な動画を生成することができます。

例えば、アニメスタイルの魔法少女の変身シーンを作成する場合:

Dynamic rotating shot: A magical girl transformation sequence in vibrant anime style. A young girl with flowing pink hair stands in the center of a starry cosmic background. Swirling ribbons of light encircle her body as she transforms. Her school uniform dissolves into sparkles, revealing a frilly pastel dress. The camera rotates around her, capturing the entire process. Slow motion emphasizes the magical effects. The color palette is dominated by soft pinks and purples, creating a dreamy atmosphere reminiscent of classic 90s magical girl anime.

このようなプロンプトを使用することで、Runway Gen-3は詳細で魅力的なアニメスタイルの動画シーケンスを生成することができます。プロンプトの作成は創造的なプロセスですので、様々な表現やキーワードを試してみることをお勧めします。




まとめ

 ViduとRunway Gen-3 Alphaは、どちらも一貫性のある高品質な動画を生成してくれます。Viduは、最長8秒の動画を生成し、4秒版と8秒版があります。一方、Runway Gen-3 Alphaは、5秒または10秒の動画を生成します。

 解像度に関しては、Runway Gen-3が1280x768ピクセルという特定のサイズを要求するのに対し、Viduは具体的なサイズを明示していませんが、688x384ピクセルからアップスケールにより1934x1080ピクセルにすることができます。

これらのAIツールはそれぞれ独自の特徴と機能を持っており今後、更なる進化が期待されます。



参考記事


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?