見出し画像

動画生成AIを試してみた(Open-sora / Gen-2 / stable video diffusion)

久しぶりの投稿になります。
最近、Open-Soraのデモサイトが公開されたので、これを機に現在の動画生成AIがどんなものかを試してみました!
(動画がリンクでしか埋め込めないことを執筆途中に気づいたので、すべてXのリンクになっています。見づらかったらすみません)

OpenAI社のSoraはハイクオリティな動画を作成できることで話題をさらいましたが、その動画をベースに、各動画生成AIの実力値を検証していました。

Sora

「Sora」は2024年2月15日にOpenAI社から発表した動画生成モデルです。
その非常に高いクオリティで話題になりましたが、まだ一般公開はされていないようです。
公開されている動画で一番良く使われている動画がこれになると思うので、この動画を作成したプロンプトをもとに試行錯誤をしてみたいと思います

こちらに使われているプロンプトは下記になります。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

HPの"more"を押すと全文が表示されます

以上、OpenAI社Sora紹介ページより
https://openai.com/sora

Open-Sora

Open-SoraはオープンソースでSoraの再現を目指そうというプロジェクトです。
下記のデモページからアクセスすることが出来ます。

今回は上記のプロンプトの前半部分を用いて作成してみました!
作成されるまでに結構時間がかかったり、ページが止まったりしましたが、根気強く待ちましょう。

Open-Sora デモページ

prompt:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.

完成された動画がこちらです!

うーん、なんだか訳が分からないですね。女性の人もいなければ歩いてすらいない。後半の”ネオン”の要素が効きすぎてしまっているようです。

Stable Video Diffusion

Stable diffusionの動画生成版であるStable Video Diffusionも試してみます。
こちらもデモページを用いるのですが、Image to Videoのデモページしか見つからなかったため、そちらを使用します。
(Text to Videoの環境構築はまたいつか)

そのため、Stable Video DiffusionではSoraの動画のキャプチャを用いて、どうなるかを試しています。
入力した画像はこちらです。

入力したSora動画のキャプチャ

出力された動画はこちらになります。

画像が崩れてしまっていますが、テキストを入れずに女性が歩いているのをくみ取って動画にすることが出来ています

Runway Gen2

次にrunway社のGen2を試してみようと思います。こちらも有名な動画作成のツールです。
下記のホームページからログインすれば使用することが出来、無料でお試もできます!

Gen2のvideo作成画面

Soraと同じプロンプトを入れようとすると、エラーで止まってしまいます。入力トークン数の影響があるようです。

Gen2では3種類の動画を作成してみます。

①短いプロンプト

Soraのプロンプト前半部分を入力してみます(Open-Soraと同様)
Prompt:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.

細部は崩れていますが、背景の人物の動きもありますし、女性が街を歩いている様子がはっきりわかります

②長いプロンプト

入力値限界まで、Soraのプロンプトを入力してみます
Prompt:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick.

Gen2の操作画面

サングラスや服装など、追加のプロンプトがきちんと反映されて、Soraの女性にも近づいてきました

③Soraの画像からのImage-to-video

Soraの動画のスクリーンショットを入れて試します
使用した画像はこちら

Gen2の操作画面

女性の頭が不思議に変化して奇妙な動画になります。

④Soraの画像からのImage-to-video + 長いプロンプト

②と③の合わせ技です。Soraの画像を入力しつつ、プロンプトも入れています

Gen2の操作画面

きちんと女性が歩き始めました、Soraにあった未知の情報を含むPromptが無いため、人物に焦点があたり、こちらに向かってくるのでしょうか
Soraの女性のサングラスが取れて顔が明らかになりましたね笑

まとめ

今回は様々な動画生成AIを試してみました。Soraの品質が変わらず高いことが分かりましたが、そのほかのAIもそこそこのクオリティだと思います。
Soraは長文のプロンプトが入れられることが改めての発見でしたが、ここはLLMにも取り組んでいるOpenAI社の強みと言えると思いました。
今後の発展に期待ですね!

この記事が参加している募集

やってみた

この記事が気に入ったらサポートをしてみませんか?