
動画生成AIの進化・主要機能2024
生成AIのテストです。
動画生成AIが持つ主要機能を整理できるかを試しています。
(テストなので、実際に備えている動画生成AIがあるかまで確かめていません。まだ公開されてないツールの機能も含まれたようです)
整理手順は最後に記載します。
※カバー画像はRecraftで生成しました。
テキストからの動画生成
Motion Brush
詳細: テキストで指示した動きのパターン(例えば、波打つ、振動する、回転する、跳ねるなど)を、動画内の特定のオブジェクトに「ブラシ」で塗るように適用できる機能です。動きの速度、振幅、方向なども細かく設定できます。
例: 「木の葉を揺らす」というテキストで、木の葉に風で揺れるような動きを適用したり、「ボールをバウンドさせる」というテキストで、ボールに跳ねる動きを適用する。
メリット: アニメーションの知識がなくても、直感的に動きをコントロールできるため、より複雑な動きも簡単に作成できます。
アートディレクション機能
詳細: 動画全体のスタイルや雰囲気をテキストで指定できる機能です。具体的には、色調(例:セピア調、パステルカラー)、照明(例:夕焼け、ネオン)、画風(例:油絵風、水彩画風、アニメ調)などをコントロールできます。
例: 「レトロな雰囲気のSF映画風」というテキストで、色褪せた質感やノイズ、サイバーパンクな照明を適用したり、「明るくポップなアニメーション」というテキストで、カラフルな色使いやコミカルなタッチを適用する。
メリット: 統一感のある動画を簡単に作成できるため、クリエイターの表現したい世界観をより忠実に再現できます。
自然言語理解
詳細: 抽象的な表現や比喩、感情表現など、複雑なニュアンスを含むテキストをAIが理解し、それに基づいて適切な動画を生成する機能です。
例: 「切ない雰囲気で雨が降る街並み」というテキストで、暗いトーン、雨が降る様子、人物の表情などを適切に表現したり、「活気あふれる祭りの様子」というテキストで、賑やかな雰囲気、多くの人が集まる様子、鮮やかな色彩などを表現する。
メリット: より自由度の高いテキストプロンプトで動画を生成できるため、創造的なアイデアを形にしやすくなります。
映画撮影の専門用語理解
詳細: 映画や映像制作で使われる専門用語(例:ロングショット、クローズアップ、パン、ティルト、ドリー、ズーム)をAIが理解し、テキストで指示することで、プロの映画監督のような映像を生成できる機能です。
例: 「主人公をクローズアップで捉え、その後、ドリーで後退しながら全体の風景を映す」というテキストで、映画のシーンのようなカメラワークを自動生成する。
メリット: 専門的な知識がなくても、映画のようなプロフェッショナルな映像を生成でき、表現の幅が広がります。
リアルタイム生成
詳細: テキストプロンプトを入力すると、リアルタイムに近い速度で動画のプレビューを生成する機能です。プレビューを確認しながら、テキストプロンプトを調整し、理想の動画に近づけることができます。
例: プロンプトを入力すると、ほぼリアルタイムで動画のプレビューが表示され、色や動きなどを微調整しながら動画を生成する。
メリット: 生成結果をすぐに確認できるため、試行錯誤を繰り返しながら、より効率的に動画を作成できます。
キーフレーム機能
詳細: 動画の時間軸上で、オブジェクトの動きや変化を細かく設定できる機能です。キーフレームを複数設定することで、複雑な動きやアニメーションを精密にコントロールできます。
例: キャラクターが歩き出すタイミング、ジャンプするタイミング、振り返るタイミングなどをキーフレームで設定することで、より自然で複雑な動きを表現する。
メリット: より高度なアニメーションやエフェクトを作成できるため、表現の自由度が大幅に向上します。
アジア系の顔の再現性
詳細: アジア人の顔の特徴(例:目、鼻、口の形、輪郭など)をAIが正確に認識し、リアルで自然な顔を生成できる機能です。
例: アジア系のキャラクターや人物が登場する動画で、よりリアルな顔立ちを再現する。
メリット: より多様な文化や民族に対応した動画を生成でき、グローバルなコンテンツ制作に役立ちます。
シナリオ自動作成
詳細: プロンプトに基づき、動画のストーリー展開や場面構成をAIが自動で生成する機能です。アイデア出しの段階で、AIがストーリーの骨子を作成し、クリエイターの負担を軽減します。
例: 「ある街で起こる不思議な出来事」のようなプロンプトで、物語の始まり、展開、結末をAIが提案する。
メリット: ストーリーのアイデアが浮かばない時でも、AIのサポートにより、効率的に動画制作をスタートできます。
プロンプト最適化機能
詳細: 入力されたテキストプロンプトをAIが解析し、より高品質な動画を生成するための最適なプロンプトに自動的に修正または改善する機能です。
例: 短く曖昧なプロンプトを、AIが具体的に補強し、より詳細な指示を含むプロンプトに変換する。
メリット: プロンプトの記述に自信がない場合でも、AIが自動で調整してくれるため、常に高品質な動画を生成できます。
多言語対応
詳細: 複数の言語のテキストプロンプトに対応し、さまざまな言語での動画制作を可能にする機能です。
例: 日本語、英語、中国語、スペイン語など、多言語でプロンプトを入力し、それぞれの言語に対応した動画を生成する。
メリット: グローバルな視聴者層に向けた動画制作をサポートし、より幅広い層にコンテンツを届けられます。
A/Bテスト機能
詳細: 異なるテキストプロンプトで生成された複数の動画を比較し、より効果的な動画を選択できる機能です。
例: 同じテーマで、プロンプトの表現を変えて複数の動画を生成し、より視聴者の反応が良い動画を選択する。
メリット: マーケティング動画など、成果を最大化したい場合に、最適な動画を効率的に選択できます。
Scene Ingredients
詳細: 動画を構成する要素(例:背景、キャラクター、オブジェクト)を、個別に編集、調整できる機能です。各要素の動き、色、形状などを細かくコントロールできます。
例: 背景の色を変更したり、キャラクターの衣装を変えたり、オブジェクトの位置を調整する。
メリット: より細部までこだわった動画制作が可能になり、クリエイターの意図をより正確に反映できます。
パーソナライズド動画生成
詳細: ユーザーの過去の視聴履歴や好み、行動データなどを基に、AIがパーソナライズされた動画を生成する機能です。
例: ユーザーの興味関心に基づいた商品紹介動画を生成したり、過去の視聴履歴からユーザーが好みそうなアニメーションを生成する。
メリット: 各ユーザーの興味関心に合わせた動画を提供できるため、エンゲージメントや満足度の向上に繋がります。
画像からの動画生成
静止画アニメーション化
詳細: 静止画(イラスト、写真など)をAIが読み込み、動きや変化を加えて動画に変換する機能です。画像に奥行きや動きを追加したり、キャラクターに表情や動きを与えることができます。
例: イラストに動きをつけてアニメーションにしたり、写真に奥行きを加えて、パララックス効果のような動画にする。
メリット: イラストや写真を手軽に動画化できるため、表現の幅が広がります。
画像ベース動画生成
詳細: 複数の画像をAIが解析し、それらを組み合わせてストーリー性のある動画を生成する機能です。スライドショーのように画像を連続で表示したり、画像と画像の間をつなぐトランジション効果を追加できます。
例: 旅行の写真をつなぎ合わせて、旅の思い出動画を作成したり、複数のイラストを組み合わせて、簡単なアニメーションを作成する。
メリット: 簡単な操作で、画像から動画コンテンツを作成できるため、スライドショーやプレゼンテーションなど、幅広い用途に活用できます。
I2V機能
詳細: Image to Videoの略で、画像を基に動画を生成する機能全般を指します。AIが画像の内容を解析し、それに合わせた動きやエフェクトを追加して、動画を生成します。
例: 写真に写っている人物をAIが認識し、人物が歩いたり、手を振ったりするような動画を自動生成する。
メリット: 静止画から簡単に動きのある動画を生成できるため、手軽にコンテンツを制作できます。
動画編集機能
Video to Video編集機能
詳細: 既存の動画をAIが解析し、そのスタイル(色調、画風、トランジションなど)を別の動画に適用する機能です。複数の動画を組み合わせて、統一感のある新しい動画を生成できます。
例: ある映画の映像を、別の動画に適用して、同じような雰囲気の動画を生成する。
メリット: 動画のスタイルを統一したり、複数の動画を組み合わせて、新しいコンテンツを効率的に作成できます。
Director Mode
詳細: AIが動画の内容を解析し、最適なカット割りやトランジション、カメラワークを自動的に提案する機能です。編集の知識がない場合でも、プロの映像監督のような動画を作成できます。
例: 複数の動画クリップを読み込むと、AIが自動的に最適なカット割りを行い、トランジションを追加する。
メリット: 編集作業の効率化や、高品質な映像表現の実現をサポートします。
マスク編集機能
詳細: 動画の一部を隠したり、切り抜いたりするマスクを適用する機能です。マスクで切り抜いた部分に、別の動画や画像を合成したり、エフェクトをかけたりすることができます。
例: 動画内の人物をマスクで切り抜き、別の背景に合成したり、特定の部分を隠す。
メリット: より複雑な編集やエフェクトの追加が可能になり、表現の自由度が向上します。
複雑な編集コマンド
詳細: テキストで複雑な編集指示を出すことで、AIが自動的に編集を実行する機能です。「〇〇のシーンをスローモーションにして、効果音を追加」のような複雑な指示も、AIが理解し実行します。
例: 「〇〇秒から〇〇秒のシーンをモノクロにして、少しぼかしを加えて」のような指示で、AIが自動で編集を実行する。
メリット: 高度な編集作業を、テキストによる簡単な指示だけで実行できるため、編集の知識がなくても、高品質な編集を簡単に行えます。
AIによる自動編集
詳細: AIが動画の内容を解析し、不要な部分をカットしたり、最適なトランジションを追加したり、色調を自動調整するなど、動画編集の基本的な作業を自動で行う機能です。
例: 複数の動画クリップを読み込むと、AIが自動的に不要な部分をカットし、適切なトランジションを追加する。
メリット: 編集作業の効率化や、初心者でも簡単に高品質な動画を作成できます。
動画の拡張・リミックス
詳細: 既存の動画をベースに、AIが新しいシーンや要素を追加したり、動画をリミックスして、新しいコンテンツを生成する機能です。
例: 既存の動画に、AIが生成した新しいシーンを追加したり、複数の動画を組み合わせて、新しいストーリーの動画を作成する。
メリット: クリエイティブなアイデアの幅を広げ、新しいコンテンツを効率的に作成できます。
高度な編集機能
詳細: 色調補正、ノイズ除去、スタビライズ処理など、プロの動画編集ソフトに搭載されているような高度な編集機能を搭載しています。
例: 動画の色を補正したり、ノイズを除去したり、手ブレを補正する。
メリット: より高品質な動画を制作するために、プロレベルの編集機能を活用できます。
モーション制御
詳細: 動画内のオブジェクトの動きを、キーフレームやパスなどのツールを使用して、細かく制御できる機能です。複雑なアニメーションやエフェクトを作成するのに役立ちます。
例: オブジェクトの動きを滑らかにしたり、特定の軌道に沿って動かしたり、速度を調整する。
メリット: より細かく動きを制御できるため、クリエイターの意図をより正確に表現できます。
動画編集ツール
詳細: カット、トリミング、エフェクト追加、テキスト挿入など、一般的な動画編集に必要な機能が備わっています。
例: 動画の不要な部分をカットしたり、長さを調整したり、フィルターを追加したり、テキストを挿入する。
メリット: これ一つで動画編集に必要な基本操作が行えるため、他の編集ソフトを使う必要がありません。
カット
詳細: 動画の不要な部分を切り取る機能です。
例: 動画の最初や最後の部分を切り取ったり、途中の不要な部分をカットする。
メリット: 動画を必要な部分だけに編集できます。
トリミング
詳細: 動画の長さを調整する機能です。
例: 動画の長さを短くしたり、特定の部分だけを切り出して動画にする。
メリット: 動画の長さを調整することで、SNSなどに最適な長さに調整できます。
エフェクト追加
詳細: フィルター、テキスト、スタンプ、トランジションなど、動画に様々なエフェクトを追加する機能です。
例: 動画にフィルターをかけて色合いを変えたり、テキストを追加したり、動画と動画の間にトランジションを追加する。
メリット: 動画にエフェクトを加えることで、より魅力的な動画を作成できます。
テキスト指示での要素変更あ
詳細: テキストで指示することで、動画内のオブジェクトの色や形、位置などを変更できる機能です。
例: 「このオブジェクトの色を赤に変更して」や「このオブジェクトを少し左に移動して」のような指示で、AIが自動で変更する。
メリット: より柔軟な編集が可能になり、クリエイターの意図をより正確に反映できます。
背景入れ替え
詳細: 動画の背景を別の画像や動画に置き換える機能です。クロマキー合成のような処理も簡単にできます。
例: 緑色の背景で撮影した動画の背景を、別の画像や動画に置き換える。
メリット: よりクリエイティブな映像表現が可能になり、場所や環境に縛られない動画制作ができます。
シーン切り替え
詳細: 動画内のシーンを自然につなげる機能です。カット、ディゾルブ、フェードイン/アウトなどのトランジション効果を使用できます。
例: 複数のシーンをカットで繋げたり、ディゾルブで滑らかに繋げる。
メリット: シーンの切り替わりをより自然に見せることができ、動画のクオリティを向上させます。
トランジション自動最適化
詳細: AIが動画の内容を解析し、シーンの切り替わりを滑らかにする最適なトランジションを自動的に選択し、適用する機能です。
例: AIが自動でシーンとシーンの間に、適切なトランジションを挿入する。
メリット: トランジション効果を選択する手間が省け、初心者でも簡単にプロのような動画を作成できます。
カメラ制御と特殊効果
Director Mode
詳細: AIが動画の内容を解析し、最適なカメラワーク(パン、ティルト、ズーム、ドリーなど)を自動で提案し、適用する機能です。
例: AIが自動的に、最適なカメラワークを選択し、動画に適用する。
メリット: カメラワークの知識がなくても、プロのようなダイナミックな映像表現を簡単に実現できます。
カメラの動き制御
詳細: カメラの動き(パン、ティルト、ズーム、回転など)を自由に制御できる機能です。キーフレームやパスを設定することで、複雑なカメラワークを作成できます。
例: カメラを水平に動かすパン、カメラを上下に動かすティルト、カメラを被写体に近づけたり遠ざけたりするズーム、カメラを回転させるなどの動きを自由に制御する。
メリット: よりダイナミックで、臨場感のある映像表現が可能になります。
ズーム
詳細: カメラを被写体に近づけたり、遠ざけたりする動きです。
例: 特定のオブジェクトを強調したり、全体の風景を映し出すために使用する。
メリット: 動画に奥行きや迫力を加えることができます。
回転
詳細: カメラを回転させる動きです。
例: 酔ったような感覚や、不思議な雰囲気を演出するために使用する。
メリット: 動画にユニークな視点や表現を加えることができます。
カメラ動作シミュレーション
詳細: カメラの動きをシミュレーションし、実際の撮影のような映像を生成する機能です。手持ちカメラのような揺れや、ドローンで撮影したようなカメラワークを再現できます。
例: 手持ちカメラのような揺れを加えたり、ドローンで撮影したようなスムーズなカメラワークをシミュレーションする。
メリット: よりリアルで、臨場感のある映像表現が可能になります。
バレットタイム
詳細: 時間の流れをゆっくり見せる特殊効果です。複数のカメラで同時に撮影した映像を合成して、時間が止まったかのように見える演出を行います。
例: アクションシーンで、時間がゆっくりと流れるように見せる。
メリット: 迫力のあるシーンを強調したり、ドラマチックな演出を加えたりすることができます。
クレーンショット
詳細: 高い位置から被写体を捉える撮影技法です。クレーンカメラのような動きをシミュレーションします。
例: 広大な風景を高い位置から捉えたり、イベント全体の様子を俯瞰で捉える。
メリット: ダイナミックで、迫力のある映像表現が可能になります。
パン
詳細: カメラを水平方向に動かす撮影技法です。
例: 広範囲の景色を映したり、人物の動きを追いかける。
メリット: 動きのある映像表現や、広がりを感じさせる映像表現に役立ちます。
ティルト
詳細: カメラを垂直方向に動かす撮影技法です。
例: 高い建物全体を映したり、人物の足元から頭までを映し出す。
メリット: 動画に高さや奥行きを加え、視点を誘導する効果があります。
オーディオとリアリズム
Clean Audio
詳細: 動画内のノイズや雑音(風の音、環境音、マイクのノイズなど)をAIが自動的に除去し、クリアで高品質な音声を生成する機能です。
例: 動画内の環境音を低減したり、マイクのノイズを除去する。
メリット: 動画の音声品質が向上し、視聴者がより快適に動画を楽しめるようになります。
リアルな物理現象の再現
詳細: 物体の落下、衝突、水の流れ、炎の動き、布の揺れなど、現実世界の物理法則に基づいた動きをAIが再現する機能です。
例: オブジェクトが落下する様子や、水が流れる様子、炎が燃え上がる様子をリアルに再現する。
メリット: よりリアルで、臨場感のある映像表現が可能になり、視聴者の没入感を高めます。
3D空間-時間アテンションメカニズム
詳細: 動画内のオブジェクトの3次元空間的な位置関係と、時間経過による変化の両方を考慮して、より自然な動きを生成するAI技術です。
例: オブジェクトが移動する際に、他のオブジェクトとの位置関係や、時間の変化に応じて、適切な動きを生成する。
メリット: より自然でリアルな動画を生成できるようになり、表現の幅が広がります。
シーン拡張機能
詳細: 動画内のシーンに、AIが自動で要素(背景、オブジェクト、エフェクトなど)を追加し、より豊かで奥行きのあるシーンを生成する機能です。
例: シンプルなシーンに、AIが自動で木や草などを追加して、より自然なシーンにする。
メリット: よりリッチで奥行きのあるシーンを、AIが自動生成するため、表現の幅が広がります。
モーションシミュレーション
詳細: AIが物体の動きをシミュレーションし、動画に反映する機能です。物理法則に基づいた動きや、複雑な動きなどを再現できます。
例: 物体が落下する様子、ボールが跳ねる様子、布が揺れる様子など、物理法則に従った動きを再現する。
メリット: よりリアルで自然な動きを動画に付与できるため、表現の幅が広がります。
音声生成機能
詳細: テキストを入力すると、AIが自然な音声データを生成する機能です。ナレーションやキャラクターのセリフなど、さまざまな用途に使用できます。
例: テキストを入力すると、ナレーション音声やキャラクターボイスを生成する。
メリット: 音声データを別途用意する必要がなく、手軽に動画に音声を追加できます。
音響効果自動生成
詳細: 動画の内容に合わせて、AIが自動的に適切な効果音を生成し、動画に追加する機能です。
例: アクションシーンに、爆発音や衝撃音を追加したり、自然のシーンに、鳥のさえずりや風の音を追加する。
メリット: 効果音を自分で探す手間が省け、手軽に動画に効果音を追加できます。
効果音
詳細: 様々な効果音(爆発音、環境音、動物の鳴き声など)を動画に追加できる機能です。
例: 爆発音、ドアの開閉音、風の音など、動画に効果音を追加する。
メリット: 動画に効果音を追加することで、より臨場感や迫力のある演出ができます。
リップシンク
詳細: 音声データに合わせて、キャラクターの口の動きを自動的に生成する機能です。音声と口の動きが自然に同期することで、よりリアルな動画を作成できます。
例: ナレーション音声に合わせて、ナレーターの口の動きを自動生成したり、キャラクターのセリフに合わせて、口の動きを自動生成する。
メリット: 手動で口の動きを調整する手間が省け、より自然な動画を制作できます。
高画質と解像度
最大4K解像度
詳細: 3840x2160ピクセルの高解像度動画を生成できる機能です。
例: 高精細で美しい4K動画を生成する。
メリット: より鮮明で美しい映像表現が可能になり、大画面での視聴に適した動画を作成できます。
2K×2Kの高解像度
詳細: 2048x2048ピクセルの正方形の高解像度動画を生成できる機能です。
例: SNSなどで利用しやすい正方形の高品質動画を生成する。
メリット: 正方形の高解像度動画を生成できるため、SNSでの発信に最適な動画を作成できます。
1080pの解像度
詳細: 1920x1080ピクセルのフルHD画質の動画を生成できる機能です。
例: 一般的な動画サイトで利用されるフルHD画質の動画を生成する。
メリット: 様々なデバイスで綺麗に視聴できるため、汎用性の高い動画を作成できます。
720pの解像度
詳細: 1280x720ピクセルのHD画質の動画を生成できる機能です。
例: ある程度画質を保ちつつも、ファイルサイズを抑えた動画を生成する。
メリット: ファイルサイズを小さく抑えたい場合や、モバイルでの視聴に適した動画を作成できます。
商用利用と著作権
ウォーターマーク
詳細: 生成された動画に、透かし(ウォーターマーク)を挿入する機能です。動画の著作権を保護するために利用されます。
例: 生成した動画に、自社のロゴや透かしを入れる。
メリット: 著作権を保護し、動画の無断使用を防ぐことができます。
SynthIDタグ
詳細: AIで生成された動画であることを示す電子透かしタグを埋め込む機能です。このタグによって、ディープフェイク動画などの誤情報の拡散を防ぎ、AI生成コンテンツの信頼性を高めます。
例: AIで生成した動画に、SynthIDタグを埋め込む。
メリット: AI生成コンテンツの信頼性を高め、悪用を防ぐことができます。
クレジット
詳細: 動画の制作者や使用したAIツールなどを表示する機能です。
例: 動画の最後に、制作者の名前や使用したAIツールの情報を表示する。
メリット: 動画の制作者を明示することで、著作権を尊重し、信頼性を高めることができます。
著作権配慮設計あ
詳細: AIが学習データに著作権のあるものを使用した場合でも、生成された動画が著作権侵害にならないように設計されている機能です。
例: AIが学習した素材と、生成した動画が酷似しないように設計されている。
メリット: 著作権侵害のリスクを軽減し、安心して動画を制作できます。
これらの詳細説明により、各機能が動画制作においてどのように役立つか、より具体的に理解できたかと思います。動画生成AIは、日々進化しており、今後さらに多くの機能が追加されることが予想されます。これらの情報を参考に、最新の動画生成AIを活用し、あなたのクリエイティビティを最大限に発揮してください。
機能抽出のフロー
上記の機能の抽出方法は以下の通りです。
Gensparkを用いて、複数の生成AIについて、概要、主な機能、先進的な機能をまとめたページ(Sparkpage)を生成しました。
プロンプトは「<生成AIの名称>の概要と特徴」と「<生成AIの名称>の主な機能と先進的な機能」の2種類です。
使った生成AIの名称は、Luma AI Dream Machine、Runway Gen-3、Pika、Kling、Hailuo AI、Sora、GoogleのVeo、Adobe Firefly Video Model、MetaのMovie Gen、Amzon Nova Reel。Google NotebookLMに上記で用意したSparkpageをソースとして登録。
各ツールからピックアップできる機能を2階層(大分類と小分類)に分けてもらう。Google AI Studioに上記の各機能について説明を付けてもらう。
モデルには Gemini 2.0 Flash Experimentalを利用。
AI検索エンジンと呼ばれるGensparkを使用したのは、複数のソース(Webサイト)から情報を集約し、構造化されたページを作成できるためです。
今回、そのページを情報源として使用しました。
同種のPerplexity AIやFelo(いずれも無料枠)も試しましたが、検索結果のURLをGoogle NotebookLMがソースとして認識してくれませんでした。
Google NotebookLMを使ったのは、提供したソースをベースに回答してくれるからです。
加えて、Audio Overviewを使ってみたかったのも要因です。
Audio Overviewでは、ソースとして提供しした資料の内容を、まるで人間が話しているかのように、自然な声で2人のAIが対話形式で説明してくれます。
Google NotebookLMだけでなく、Google AI Studioを使ったのは、最新のLLMを使用し、対話しながら情報を整理したかったからです。
NotebookLMは情報ソースをベースに回答しますが、より広範な知識を反映した回答が欲しい場合は、通常の対話型生成AIを使います。
また、長文のテキスト処理も素早く回答をくれる印象がありました。
NotebookLMのAudio Overviewで生成した音声ファイル(英語)の書き起こしと日本語訳も行いたかったのですが、約20分のボリュームだったので、レスポンスよく処理してくれるGoogle AI Studioを使おうと思いました。