見出し画像

趣味としての動画生成AIについての雑感@何を目的として生成するのか

高性能の動画生成AIが沢山出てきている昨今、動きが出せないDeforumはあまり使われなくなっています。元々かも知れませんが。
しかし、個人的にはまだまだ使い所はあるものだと感じている所です。

さて、今回は最近の動画生成AIに触れていない、かつ課金をしていない(GPT除く)勢の愚痴的なものを含めた、適当な内容の記事です。
Soraは少し触った範囲で少し言及している程度です。
それをご理解いただき、かつ暇な方は読んでいただければ幸いです。
また、あまり画像は配置しないので、表とか文字中心になります。悪しからず。

さて、個人的には、動画生成について考える時に、何を目的として生成するのかというところが重要なのかなと思っています。

例えば、最近ニュースなどで出ている「リップシンク系」の動画生成AIだと、画像生成AIなどで特定のキャラクターを生成して、「音声に合わせてしゃべらせる」ということが主になります。

なので、以下のようにYoutubeで動画を公開されている、とうやさんのようなものを作成したい方には最適なものになると思います。※今回の記事の内容がアレなので、リンクのみの紹介にしています。
しかし、これを趣味レベルで実現するのは現時点ではかなり大変な気がします(チャレンジしていないだけとも言う)。

https://www.youtube.com/watch?v=fsLMfiLKN-I&t=15s


では、趣味として画像生成をしている人の目的は何なのか?を考えてみました。

①きれいな画像を作成したい
②気晴らしをしたい
③好きなキャラクターを作りたい。。。。

という人もいるかも知れません。

しかし、画像生成AIでしばしば問題になっている部分でもありますが、

「叡智」なものを作成する


という方の比率の方が高いと思います(個人的意見)。

「そんなことないよ」と言われる方もおられるかもしれません。

例えば「叡智なもの」は言い換えると、NSFW的なもの、uncensored的なものとも言います。

そのため、これらをポジティブプロンプトに組み込んでいる方は、

「叡智なものを目的にしている」に該当します

チラリズム系については上の定義に該当しませんが目的は近いですよね。


それでは、商用利用可能な動画生成AIや昨今の動画生成AIで「叡智」なものを作成するのは可能なのでしょうか?

試していないものが多いので、正確な所が分からないのですが、難しいのが多いのではと思っています。CivitaiなどではNSFWのAI動画が投稿されていますが、Aipictorsなど国内で動画投稿もできるサイトで見ると行為中のものは投稿数が少ないです。

通常の画像生成においても、FLUXやSD3.5などt5テキストエンコーダーを入れるものになって来てからNSFWは弾かれやすくなっています。
プロンプトの理解的なところで、検閲済のLLMを使用している系のものは、フィルターをかけられている影響で叡智なものの生成が難しくなっているのでは、と勝手な解釈をしています。

Napkinaiにこの議論を投げたら出てきた図

ということで、動画生成AIで「叡智」なものを作成するためには無検閲モデルが使用できる必要があります。
Cogvideo → ✖︎ 
pyramidflow → ✖︎
Mochi  → ✖︎
Sora          →  ✖︎
あとはやっていないので不明
※誰かが上記のモデルを無検閲化していれば可能です。

個人的な経験から「叡智」なものを作成するのが可能なもの
Tooncrafter → ▲から〇
AnimateDiff → 〇
Deforum  → 〇

下の2つに関しては、SD1.5, SDXLなので、その出力を使用できるから、ということになります。
Tooncrafterは、フレーム補完の機能しか使用していませんが、元絵がNSFWの場合に使用できました。


叡智な動画についてシチュエーションに分けて要素を分析してみましょう。

<行為前>
トークや触れ合い的なのが中心。
NSFW的な要素が少なくても良い場合がある。
リップシンクや様々な動きが要求される。
⇒このパートは、商用のものやcogvideo、mochiなどでも対応できるかも。Soraもいけるかと。

<行為中>
表情変化、動き、液体表現がメイン
⇒このパートはNSFW表現しかないので、個人的に使用できると思われる3つを使用
動きだけならSoraも可能な可能性あり。

<動画生成パターン比較表>
動画生成AIのパターンとしてtxt2vid、img2vid、vid2vidの3パターンがあります。
これらをシチュエーションごとに分けて評価すると以下のような感じになるかと思います。
vid2vidは元動画があるため、良い結果が得られやすい事が分かります。
ただ、vid2vidは元動画がある影響で、元の動画の影響がでるため処理の手間が多いと思われます。

<動画生成AIのパターンの課題>
課題というか問題としては、vid2vidの元の動画の利用に関する著作権問題などが出てきます。

色々と問題の種を作成しないためには、可能な範囲でtxt2vid、img2vidを使用するのが無難です。

と言う事で、<行為中>かつtxt2vid、img2vidに焦点を当てつつ検討を進めていきます。

検討を進めるにあたって、それぞれの動画生成AIの比較するには使用モデルで比較するとわかりやすいと感じました。

Tooncrafterのモデル 専用のアニメ生成用のモデル
AnimateDiffのモデル SD1.5
Deforumのモデル   SDXL

上記の表記理由
AnimateDiffはSDXLも使用できますが、motion moduleやmotion loraはSD1.5メインで、SDXLはVRAM消費の問題もある
DeforumはAnimateDiffよりもVRAM消費を抑えて生成が可能ですので、SD1.5を使用するメリットが少ないです。

表現ごとのモデル比較は以下です。

現時点では、手間も含めて一長一短です。あとは、叡智な動画を作成する際に意外と一貫性は必要が低い印象があります。
Defirumは動きが出れば完璧という立ち位置にいる事が分かります。
AnimatediffもSDXLにするとDeforumを超えるポテンシャルがあるのですが、motion moduleの所が壁になってます。なぜ8フレームのものしかないのか。。。
Deforum(新版Forgeの)でたまたま作成したところ、なかなか良いものが作成されました。
フルだと公開が難しいもののようで、動画の上半分のみの公開です。
R18指定です。

これはillustriousモデルで作成した、txt2vidでしたが、セリフや効果音が入るのでこれまでよりそれっぽくなりました。

ちなみに個人的な経験からはillusriousモデルは、モデルによってdeforumとの相性がかなり違います。これはAnimagineでもありました。

叡智なものを作成されている方ならご存知かも知れませんが、行為中の表現のプロンプトはそれほどバリエーションがありません。
それについては、z-tipo先生から学べば補完出来る時代になりました。

先程の動画もメインプロンプトはz-tipoのものを使用して、プロンプトトラベル部に少し追加している感じです。

条件調整は必要ですが使用ツールはDeforumだけなので楽だと思います。

AnimateDiffについても、SDXLを使用する記事は作成していますが、一貫性の保ち方が難しく公開するレベルに達していない状態です。


いいなと思ったら応援しよう!