見出し画像

ByteDanceより一貫性のある動画生成「StoryDiffusion」が発表される

ByteDanceと南海大学のインターンによる「StoryDiffusion」が公開されました。 Unetを使ってストーリー的につじつまの合ったセルフアテンションを実現しています。 コードはまだ公開されていないようです
[5/4追記] コードとデモが公開されました!

Gradio公式Xで大きく紹介されています

以下公式リリースより

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
(ストーリー拡散 長尺画像・動画生成のための一貫した自己アテンション)

Yupeng Zhou [1]* Daquan Zhou[2]† Mingming Cheng[1] Jiashi Feng[2] Qibin Hou
VCIP, CS, Nankai University 2ByteDance Inc.
ByteDance Inc.のインターン

コミックの生成

StoryDiffusionは、一貫した自己アテンションにより、印象的なコミックを作成することができます。

映像制作実績

StoryDiffusionが生成した一貫性のある画像や、ユーザーが入力した画像を条件として、画像セマンティックモーションパーディクターにより、高品質な動画を生成することができます。

ビデオギャラリー

・一貫した自己アテンションにより生成された画像
・SORAの条件画像を使用ユーザ入力条件画像の利用

漫画キャラクター生成

StoryDiffusionは、驚くほど一貫性のあるアニメキャラクター画像を作成することもできています

複数キャラクター生成

StoryDiffusionは、複数のキャラクターのIDを同時に保持し、一貫性のある画像を生成することも可能なようです

その他のコミック生成例

StoryDiffusionは、印象的なコミックを作成することができます。今後、より多くのコミックを生成して公開するそうです。

"女の子とリス"

アニメっぽい画風も得意そうですね。

手法・セルフアテンションの一致

モーション予測の構造

肝心の論文本体とGitHubについてはまだ公開されていませんが、このタイミングでの公開はSIGGRAPHなどの国際会議等での採択の可能性がありますね。
続報があればこちらの記事も更新していきたいと思います。

追記:GitHubとHugging Face Spacesにデモが公開されました



公式🤗 StoryDiffusionのGradioデモ
[重要] パーソナライゼーションステップ:

[1️] キャラクターのテキスト説明を入力します。Ref-Imageを追加する場合は、トリガーワード: imgでカスタマイズしたいクラスワードに続くことを確認します。
[2️] プロンプトの配列を入力します。各行は生成された1つの画像に対応します。
[3️]  お好みのスタイルテンプレートを選択します。
[4️]  [送信] ボタンをクリックしてカスタマイズを開始します。


ここから先は

0字

AI用語集ライター

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?