Contronetを使い動画から動画を作る

2023年4月24日 14:35

今日Twitterで、AIで作られたアバターが踊っている動画を見ました。作り方としては、ダンス動画を使ってAIに書き換えているようです。
やり取りを見て、この動画を知りました。

AI TikToker かわいいね🫶🏻 pic.twitter.com/zX80wml33m
— Nazuna (@challisnazu) April 22, 2023

そしてやりとりを見て、この情報を知りました。

ディープフェイクor AIで作った画像を何枚も切り替えて動かしてるか or Stable Diffusion Automatic 1111 です。私も知りたい🥺https://t.co/G1yCjlwqab
— Nazuna (@challisnazu) April 22, 2023

動画を見ながら試したのですが、服装は分かることなく顔のみAIで書き換えている様子でした。
でも、それでは、意味が無いです。
AIアバターというかAIアイドルで描いた画像で、動いてほしいです。
それで、ネットで色々と探していたら、この記事を見つけました。

ControNetのm2mを使っていました。
でも、この人が作った動画を見ましたが、背景や人物が安定していませんでした。
でも、この記事をヒントにして、ControNetのプロセッサーをCannyからopenposeに変えてみました。
そして、img2imgでバッチとしてセットした画像を使ってポーズを得ることができたら、画像を作ることができるのでは？
と思いました。

私は、ノートパソコンでグラフィックボードは、RTX３０６０laptopでVRAMが6GBです。
でも、できました。

ポーズは良いのですが、服装が乱れてしまいました。
プロンプトを、厳密に書かないといけないと思いました。

GPUのパワーが必要なので、デスクトップパソコンでグラフィックボードもRTX3070以上や4000シリーズの方が、良いと思いました。

一応このような設定で、行いました。

何とか形にしましたが、服の統一感がないため、紙芝居状態です。
正確には１０秒の動画から、１０２枚のJPEG画像を作りました。
それをStable Diffusion Web UI AUTO1111で、ControNetのOpenposeを使い画像生成しています。

GPUがRTX3060laptop VRAM6GBでは、１００枚の画像を使いControNetのポーズ読み取りをして、この画像を作るのに、６時間くらいかかっています。
服が統一できたら、滑らかになったかも。
ダンスは、フリーの動画を使っています。#AIart #chilled_remix #AIwork #StableDiffusion #stablediffusionart pic.twitter.com/714gUL7uEh
— 豊かさを学ぶエンジニアM (@masaru21) April 24, 2023

今は10fpsなので、30fpsにしようとすると単純計算で、私の環境では、１８時間は、必要と思われます。

動画を静止画に変換するのは、こちらのサイトを使いました。

ダンスは、こちらの動画を使いました。

https://pixabay.com/videos/id-99591/

機材の支援も含めて、応援して頂ける方を探しています。

創作活動の応援よろしくお願いします。 | ITサポーター・MK https://t.co/sCa2VVqpI8 #pring公式アカウント
— 豊かさを学ぶエンジニアM (@masaru21) April 24, 2023

この記事が気に入ったらサポートをしてみませんか？