動画生成AIを試してみた（Open-sora / Gen-2 / stable video diffusion）

2024年4月11日 10:22

久しぶりの投稿になります。
最近、Open-Soraのデモサイトが公開されたので、これを機に現在の動画生成AIがどんなものかを試してみました！
（動画がリンクでしか埋め込めないことを執筆途中に気づいたので、すべてXのリンクになっています。見づらかったらすみません）

OpenAI社のSoraはハイクオリティな動画を作成できることで話題をさらいましたが、その動画をベースに、各動画生成AIの実力値を検証していました。

Sora

「Sora」は2024年2月15日にOpenAI社から発表した動画生成モデルです。
その非常に高いクオリティで話題になりましたが、まだ一般公開はされていないようです。
公開されている動画で一番良く使われている動画がこれになると思うので、この動画を作成したプロンプトをもとに試行錯誤をしてみたいと思います

目指していたSoraの動画（下記HPより引用）https://t.co/ySABNNpMof pic.twitter.com/ATGoB8ZWZk
— れお太郎 (@reotaro24126) April 10, 2024

こちらに使われているプロンプトは下記になります。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

以上、OpenAI社Sora紹介ページより
https://openai.com/sora

Open-Sora

Open-SoraはオープンソースでSoraの再現を目指そうというプロジェクトです。
下記のデモページからアクセスすることが出来ます。

今回は上記のプロンプトの前半部分を用いて作成してみました！
作成されるまでに結構時間がかかったり、ページが止まったりしましたが、根気強く待ちましょう。

prompt：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.

完成された動画がこちらです！

Open-Soraのデモページで、Soraのプロンプトをもとに動画を作成してみました！
しかし全く女性が映ってないので、うまく作成できませんでした、、
prompt：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. pic.twitter.com/ETvJQ5Gqz9
— れお太郎 (@reotaro24126) April 10, 2024

うーん、なんだか訳が分からないですね。女性の人もいなければ歩いてすらいない。後半の”ネオン”の要素が効きすぎてしまっているようです。

Stable Video Diffusion

Stable diffusionの動画生成版であるStable Video Diffusionも試してみます。
こちらもデモページを用いるのですが、Image to Videoのデモページしか見つからなかったため、そちらを使用します。
（Text to Videoの環境構築はまたいつか）

そのため、Stable Video DiffusionではSoraの動画のキャプチャを用いて、どうなるかを試しています。
入力した画像はこちらです。

出力された動画はこちらになります。

Stable video diffusionでSotra画像をImage-to-Video
プロンプトを入れていないにも関わらず、歩いてくる様子が伝わってくる pic.twitter.com/H73z4VqbTB
— れお太郎 (@reotaro24126) April 11, 2024

画像が崩れてしまっていますが、テキストを入れずに女性が歩いているのをくみ取って動画にすることが出来ています

Runway Gen2

次にrunway社のGen2を試してみようと思います。こちらも有名な動画作成のツールです。
下記のホームページからログインすれば使用することが出来、無料でお試もできます！

Soraと同じプロンプトを入れようとすると、エラーで止まってしまいます。入力トークン数の影響があるようです。

Gen2では３種類の動画を作成してみます。

①短いプロンプト

Soraのプロンプト前半部分を入力してみます（Open-Soraと同様）
Prompt：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.

Sora動画の再現を目指して、Runway社Gen-2で作成した動画
Prompt：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.

女性の動きが伝わってくる pic.twitter.com/GEh3hmAMuw
— れお太郎 (@reotaro24126) April 10, 2024

細部は崩れていますが、背景の人物の動きもありますし、女性が街を歩いている様子がはっきりわかります

②長いプロンプト

入力値限界まで、Soraのプロンプトを入力してみます
Prompt：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick.

入力限界まで、Soraのプロンプトを入力
Prompt：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. pic.twitter.com/8LiwXl5Uo3
— れお太郎 (@reotaro24126) April 11, 2024

サングラスや服装など、追加のプロンプトがきちんと反映されて、Soraの女性にも近づいてきました

③Soraの画像からのImage-to-video

Soraの動画のスクリーンショットを入れて試します
使用した画像はこちら

Soraの動画のスクショをImagetoVideoしたもの、人の原形をとどめていない pic.twitter.com/Dy8aFfQ1Qm
— れお太郎 (@reotaro24126) April 11, 2024

女性の頭が不思議に変化して奇妙な動画になります。

④Soraの画像からのImage-to-video　＋　長いプロンプト

②と③の合わせ技です。Soraの画像を入力しつつ、プロンプトも入れています

Soraの画像からのImage-to-video＋長いプロンプト
こっち来るなw pic.twitter.com/fxzpp2eSrB
— れお太郎 (@reotaro24126) April 11, 2024

きちんと女性が歩き始めました、Soraにあった未知の情報を含むPromptが無いため、人物に焦点があたり、こちらに向かってくるのでしょうか
Soraの女性のサングラスが取れて顔が明らかになりましたね笑

まとめ

今回は様々な動画生成AIを試してみました。Soraの品質が変わらず高いことが分かりましたが、そのほかのAIもそこそこのクオリティだと思います。
Soraは長文のプロンプトが入れられることが改めての発見でしたが、ここはLLMにも取り組んでいるOpenAI社の強みと言えると思いました。
今後の発展に期待ですね！

この記事が参加している募集

やってみた

36,417件

この記事が気に入ったらサポートをしてみませんか？