【動画生成AI】Stable Video Diffusionの始め方

2024年4月2日 03:11

Soraが使えるようになるまでに動画生成AIにも触れておきたい。そう思ったので、試しにStable Video Diffusionを触ってみました。

この記事では、Stable Video Diffusionの始め方を説明いたします。

Stable Video Diffusionとは？

とりあえずAIに聞いてみました。

Stable Video Diffusionは、潜在的なビデオ拡散モデルと大規模なデータセットを使用して、高品質で安定したビデオ生成を実現する新しい技術です。従来のビデオ生成モデルと比べて、以下の利点があります。

高品質なビデオ生成:
Stable Video Diffusionは、潜在的なビデオ拡散モデルを使用することで、従来のビデオ生成モデルよりも高品質でリアルなビデオを生成することができます。

安定したビデオ生成:
Stable Video Diffusionは、大規模なデータセットを使用してモデルを訓練することで、従来のビデオ生成モデルよりも安定したビデオを生成することができます。

多様なビデオ生成:
Stable Video Diffusionは、テキストや画像などの条件を入力することで、多様なビデオを生成することができます。

Stable Video Diffusionは、まだ開発段階にありますが、以下のような様々な分野での応用が期待されています。

エンターテイメント:
映画やテレビ番組の制作、ゲームの開発などに活用することができます。

教育:
教育ビデオや教材の制作などに活用することができます。

ビジネス:
製品紹介ビデオや社内研修ビデオの制作などに活用することができます。

Stable Video Diffusionは、ビデオ生成の可能性を広げる新しい技術です。今後の発展が期待されています。

Stable Video Diffusionの始め方

まずは下記サイトにアクセスします。

「Continue with Google」で、Googleアカウントを利用してログインが可能です。

利用規約への同意を求められますので、チェックして「I agree」を押します。

翻訳内容はこちら

利用規約
サービス利用規約を読んで同意し、Stable Video がオープンベータ製品であることを認めます。

ボックスにチェックを入れて [同意する] をクリックすると、利用規約を読んで同意したことを確認し、Stable Video がベータ版であることを認めることになります。

ログインできたら「Start with Image」または「Start with Text」をクリック
（次の画面へ移動しても変更できるので、どちらを選んでもOKです）

「Start with Image」の場合

「Select an image」をクリックして画像を選ぶか、ドラッグ＆ドロップで画像をアップロードします。

今回は、こちらの画像をアップロードしてみました。

画像のアップロードが完了したら「Camera Motion」から動画の動きを設定して、「Generate」をクリックすると動画の生成が開始されます。

「More will be enabled soon!」と記載があるので、選択できない設定項目は今後のアップデートで追加予定でしょうかね。

各Camera Motionの内容をChatGPTに解説してもらいました。

Camera:
「Locked」: カメラが固定され、動きがありません。静止した視点からのシーンを撮影します。
「Shake」: カメラが揺れる効果を加え、動画に緊張感や生々しさを与えます。アクションシーンやドキュメンタリースタイルに適しています。
「どちらもチェックをつけない」: カメラの動きに関する特別な指定はありません。

Tilt:
「Up」: カメラが上を向く動きをします。視点を高くすることで、被写体を見上げるような効果があります。
「Down」: カメラが下を向く動きをします。被写体を見下ろすような視点を提供します。
「どちらもチェックをつけない」: 傾ける動きに関する特別な指定はありません。

Orbit:
「ON」: カメラが被写体の周りを回転する動きをします。被写体を中心にして全体的な景色を捉えることができます。
「OFF」: オービットの動きはありません。

Pan:
「ON」: 横方向へのカメラの動きをします。広い範囲のシーンを捉えることができます。
「OFF」: パンの動きはありません。

Zoom:
「In」: カメラが被写体に近づく動きをします。詳細な部分を強調したい場合に適しています。
「Out」: カメラが被写体から離れる動きをします。広い範囲のシーンを捉えたい場合に適しています。
「どちらもチェックをつけない」: ズームに関する特別な指定はありません。

Dolly:
「In」: カメラが前進する動きをします。ズームインと似ていますが、カメラ自体が移動するため、空間の深さを感じさせます。
「Out」: カメラが後退する動きをします。ズームアウトと似ていますが、より空間的な離れ感を演出します。
「どちらもチェックをつけない」: ドリーに関する特別な指定はありません。

Move:
「Up」: カメラが上方向に移動します。高い位置からの視点を提供します。
「Down」: カメラが下方向に移動します。低い位置からの視点を提供します。
「どちらもチェックをつけない」: 移動に関する特別な指定はありません。

今回は、Panだけ設定してみました。

生成された動画はこちら

@aitoshiroia
さすがに画像に写ってない部分の背景は綺麗に生成されないですね。でも頑張りは伝わる。 Stable Video Diffusion
♬ original sound - けたけけ@AIクリエイター -

さすがに画像に写ってない部分の背景は綺麗に生成されないですね。

「Start with Text」の場合

「Describe your image.」と書かれた部分に動画生成のための指示（プロンプト）を入力します。

「Style: None」と書かれたボタンをクリックすると動画のスタイルを選択できます。

動画のスタイルは全部で18種類から選べます（Noneを含む）

None:
特定のスタイルを適用せず、テキストプロンプトの指示に基づいた基本的なビデオを生成します。

3D Model:
3Dモデリングの技術を模倣したスタイルで、立体感のあるビデオを生成します。

Analog Film:
アナログフィルムを思わせる質感や色合いで、レトロな雰囲気のビデオを生成します。

Anime:
アニメ風のスタイルで、キャラクターや背景に特有の表現を加えたビデオを生成します。

Cinematic:
映画のような高品質でドラマチックなスタイルのビデオを生成します。

Comic Book:
コミックブックのページのようなスタイルで、明るくポップなビデオを生成します。

Digital Art:
デジタルアートの技法を用いて、現代的でスタイリッシュなビデオを生成します。

Enhance:
ビデオの細部を強調し、より鮮明で詳細な画像を生成します。

Fantasy Art:
ファンタジーの世界観を表現したスタイルで、魔法や神秘的な要素を含むビデオを生成します。

Isometric:
等角投影法を用いて、特殊な視点から見たビデオを生成します。

Line Art:
線画によるシンプルながら表現力豊かなビデオを生成します。

Low Poly:
低ポリゴンのスタイルで、シンプルながらも個性的なビデオを生成します。

Modeling Compound:
モデリングコンパウンド（粘土など）で作成されたような質感のビデオを生成します。

Neon Punk:
ネオンライトとパンク文化を融合させたスタイルで、未来的でエッジの効いたビデオを生成します。

Origami:
折り紙のようなスタイルで、独特の形状と折り目を持つビデオを生成します。

Photographic:
写真のようなリアリズムと質感を持つビデオを生成します。

Pixel Art:
ピクセルアートのスタイルで、レトロゲームのようなビデオを生成します。

Tile Texture:
タイルテクスチャを特徴とするスタイルで、独特のパターンやテクスチャを持つビデオを生成します。

今回はChatGPTに提案してもらった下記プロンプトで動画生成を試してみました。

動画スタイルは「Photographic」にしました。

A cat wanders through the bustling streets of a vibrant city, navigating its way amongst pedestrians and cars. It explores various cityscapes, from cozy cafes and small parks to diverse shops, each frame capturing the essence of urban life and the cat's adventurous spirit. The video portrays the charming coexistence of a cat and urban dynamics, offering viewers a sense of serenity and exploration.

活気ある都市の街中を猫が歩き回るシーンを描きます。猫は歩行者や車の間を自由に移動し、快適なカフェ、小さな公園、様々な店舗など、都市の様々な風景を探索します。各フレームは、都市生活の本質と猫の冒険心を捉えます。このビデオは、猫と都市のダイナミクスの魅力的な共存を描き、視聴者に穏やかな探索の喜びを提供します。

テキストのプロンプトを入れると、画像が４枚表示されます。
この中から気に入った画像を選択して、その画像を起点とした動画を生成してくれます。

画像を選択し、「Start with Image」の時と同様に「Camera Motion」の設定を行います。

Camera Motionの設定が終わったら「Proceed（進む）」をクリックして、動画の生成を開始します。

今回は、Camera Motionの設定を何も行わずに動画を生成してみました。

生成された動画はこちら

@aitoshiroia
プロンプトで細かく動きを付けさせようとすると崩壊しますね。単に指示の内容が悪いだけかもしれないですけど。 Stable Video Diffusion
♬ original sound - けたけけ@AIクリエイター -

プロンプトで細かく動きを付けさせようとすると崩壊しますね。単に指示の内容が悪いだけかもしれないですけど。

すごくシンプルなプロンプトでもう一回チャレンジ

Cats are walking around town.
（猫が街を歩いている。）

※「Camera Motion」は何も設定なし。

このシンプルなプロンプトを試してみましたが、これでも崩壊しました。
ちょっと怖かったので動画は載せないことにします。

上手いこと動画を作ってもらうのって難しいですね。
とりあえずStable Video Diffusionを触れる状態には出来たので、また時間があるときに試してみないとですね。

今回の記事は以上になります。

もし今回の記事が参考になったという方いらっしゃったら、
フォローやスキ♡もしていただけると嬉しいです。

この記事が参加している募集

#AIとやってみた

36,094件

この記事が気に入ったらサポートをしてみませんか？