見出し画像

気になる生成AI備忘録-vol.17-TikTok運営ByteDance開発「Story Diffusion」

■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。

より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。

今回は、手前味噌ではありますが、私のXアカウントからの以下ポスト、

TikTokを運営するByteDanceが開発中のStory Diffusionについて気になったので、ポストをもう少し掘り下げた内容になります。

まず、Story Diffusionのプロジェクトページがこちらです。

※2024年5月2日現在、論文・コードは公開されていません

では、同プロジェクトページの内容を、日本語でわかりやすく解説していきます。

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
=StoryDiffusion: 長距離の画像・動画生成のためのセルフアテンションメカニズム

セルフアテンションとは、StoryDiffusionが画像や動画を生成する際に用いる革新的な技術です。従来のAI技術では困難だった、長距離の画像や動画の生成を可能にするだけでなく、よりリアルで詳細な画像・動画を生成することを実現します。

めちゃくちゃ簡潔にいうと、セルフアテンションは、画像や動画の各要素が互いにどのように関連しているかを理解する技術です。

従来のAI技術は、各要素を個別に見ていただけでしたが、セルフアテンションは、各要素全体を俯瞰し、互いの関係性を考慮して処理します。(まるで画像や動画を立体的に見ているようなイメージ)

プロジェクトページでは、Story Diffusionの機能や仕組みについて説明されています。

機能紹介

  • Comics Generation(コミック生成)

    • Story Diffusionは、一貫したセルフアテンションメカニズムにより、説得力のあるストーリーテリングを実現し、キャラクターの一貫性を維持しながら見事な漫画を生成することができます。

ページには2つのコミック例が掲載されていますが、この感じでコミックが生成できるなら、色々と利活用できそうで面白そうだなというのが率直な感想です。


  • Video Generation Results(動画生成結果)

    • Story Diffusionは、生成された画像やユーザーが入力した画像を基に、画像の意味を理解したモーション予測器を使用して、高品質な動画を生成することができます。

動画に関しては実際に同プロジェクトページにてチェックしてみるといいかと思います。様々な生成動画を観ることができます。

↑クリックでプロジェクトページへ飛びます


  • Cartoon characters generation(カートゥーンキャラクター生成)

    • Story Diffusionは、魅力的で一貫性のあるカートゥーンキャラクターの画像も生成できます。


  • Multiple Characters Generation(複数キャラクター生成)

    • Story Diffusionは、複数のキャラクターのIDを同時に保持し、一貫性のある画像を生成することができます。


  • More Comic Generation Example(その他のコミック生成例)

    • Story Diffusionは、印象的なコミックを生成できます。今後、さらに多くのコミックを追加して掲載する予定です。

とのことなので、同プロジェクトページに今後新たなコミック例が掲載される…というよりは、コードが公開された際に、コミック生成のバリエーションが増えるということなのかも知れません。


Methods(技術解説)

  • The structure of the Consisitent Self-Attention (一貫したセルフアテンションの構造)

  • The structure of the Motion Predictor (モーション予測器の構造)

Story Diffusionは、テキストから画像を生成するモデルでもあるというのがわかります。それも従来のモデルと異なり、長距離の画像生成と動画生成が可能である点が特徴です。

長距離の画像とは、従来の画像生成モデルよりも長い距離の情報を処理し、より複雑で詳細な画像を生成できる画像を指します。

具体的にわかりやすくいうと、高解像度、複雑な構図(遠近法や奥行きのある構図を表現等)、細かなディティール(髪の毛や衣服の質感等)、リアリティ(写真と見分けがつかないほどのリアリティ)とか。

従来の画像生成モデルでは、これらの特徴を実現することが難しかったのですが、長距離の画像生成モデルは、これらの課題を克服し、より高度な画像生成を実現するというものです。

まとめると、Story Diffusionはストーリー性のある画像や動画、コミックを自動生成できる画期的なAIモデルということになります。

さらに、一貫性のある画像生成機能により、ストーリー全体を通して画像や動画のスタイルや雰囲気を統一することができます。これは、漫画やアニメーションなどの制作において非常に役立つものではないかと考えられます。

ざっと応用例を考えてみても、

イラストレーション
→テキストからイラストを生成することができます。例えば、「夕焼けに染まる海辺を歩く少女」というテキストを入力すると、その情景を表現したイラストを生成

コミック/漫画
→テキストから漫画を生成。例えば、「主人公が敵と戦うシーン」というテキストを入力すると、そのシーンをコマごとに表現した漫画を生成

動画編集
→動画編集の補助ツールとして使用。例えば、動画の特定のシーンを別のシーンと繋ぎたい場合、Story Diffusionを使用してシームレスな繋ぎ目を生成

ゲーム
→ゲーム内の画像や動画を生成。例えば、ゲームのキャラクターや背景をStory Diffusionを使用して生成

と、色々利活用が出来そうです。


5/9追記
Story Diffusionのデモが使えるようになっています。

以下、デモを試してみましたが、2024年5月9日現在、動画生成は不可なようです。

ざっくり、デモ画面/ページはこんな感じです↓

右側に生成結果が表示されますが、例えばコミック/漫画生成において、何かしら考えて入力せずとも、「Examples」が幾つか用意されているので、簡単に生成することが出来るようになっています。

例えば、アメリカンポリスのコミック例はこんな感じです。

簡単にコマ割りに関して説明すると

↑このようになります。赤線で紐づけたここは、コミック/漫画の説明の入力フォームとなっており、生成したい漫画のコマの説明を一行ずつ入力、入力した行数分だけコマが生成されるようです。

入力テキストの内容ですが

Directing traffic on the road.
walking on the streets.
Chasing a man on the street.
At the police station.
(日本語にすると)↓
道路での交通誘導。
道路を歩く
路上で男を追いかける
警察署にて

となっています。

こちらは英語のみ対応といった感じのようで、日本語で試してみると

↑このように文字化け表示となってしまいました。(画も変わってしまっています)

デモページには、現在の制限事項として

テスト段階のため、全ての機能が完全に動作するとは限りません。
キャラクターの服装などの細かい指定は、プロンプトを使って間接的にコントロールしてください。
開発期間が限られていたため、予期せぬバグが発生する可能性があります。

といったことが英語で表記されています。

ただ、なるほど確かに、Story Diffusionの触れ込み通り、統一感のある漫画キャラクターを出力することが可能だというのは、デモを通じてわかるかと思います。

また、デモページにある複数の「Examples」の中から生成した漫画を、音源つけて簡単なMVなんかも作れます。

デモで生成した漫画の説明は

wake up in the bed
have breakfast
is on the road, go to company
work in the company
Take a walk next to the company at noon
lying in bed at night
(日本語にすると)↓
ベッドで目覚める
朝食をとる
会社に行く
会社で働く
昼、会社の横を散歩
夜はベッドで横になる

というテキストだったので、日本語歌詞にして全体の流れを楽曲に合わせた際、「昼、会社の横を散歩」という部分がどうにもしっくりこなかったので、「夕方、会社から帰る」に変更して、歌詞にしてみた感じです。

Story Diffusionのデモが気になる方は、正式ローンチまでの間、実際にデモに触れてみるといいかと思います。(デモなので突然なくなる可能性も無きにしも非ず)

この記事が気に入ったらサポートをしてみませんか?