テキストからビデオ生成ができるオープンソースモデル「CogVideo」を試してみる

2024年9月7日 13:17

CogVideoとは

CogVideoはtext to videoの新しいオープンソースモデルです。比較的高いフレームレートのビデオを生成できるというのも売りのようでした。
いままでtext to videoはStable Video Diffusionとかなど試してみたことがありましたが、今回はどうでしょうか。とても楽しみです！

🌐プロジェクトページ類

💪試してみる

簡単なプロンプトを強化してくれるボタンもあって親切感満載✨

たとえば「可愛い白猫ちゃんが部屋で遊んでいる」と入れておくと、

こんなに情景をリアルにしてくれる。

明るく好奇心旺盛な目とピンクの鼻を持つふわふわの白猫が、暖かく黄金色の光が差し込む部屋で戯れています。猫は豪華なアームチェアに優雅に飛び乗ると、柔らかい足はクリーム色の布の上をほとんど音を立てません。きらめく毛糸玉を追いかけ、愛らしい決意と遊び心で飛びかかったり転がったりします。一瞬立ち止まり、まっすぐに座り、尾を足にきちんと巻き付け、完璧なポートレートのポーズをとっているかのようです。その後、猫は窓に向かってダッシュします。そこでは、太陽の光が雪のような毛皮の周りに輝く光輪を作り出し、部屋中を楽しく踊り続けます。

せっかくなのでそのままジェネレート。