見出し画像

WebUI、SD1.5でDensepose、DepthAnythingを使用してみた:Deforumでのダンス動画変換例を提示

先日の記事に記載した、こんな感じになってプリプロセッサーとモデルについて、WebUIで試してみました。
今回はpaperspaceでの15GBを意識したものです。
以前の記事にあったようなvideo2videoがより良い感じになるのか、それが今回の焦点になります。

さて、DenseposeのHPを見てみました。

チェックポイントの容量が5.32GBと大きいです。
説明文を確認してみましょう。

強い部分と弱い部分について記載がありました。
強い部分:3点
①安定したポーズ
②手が交差した時の安定したパフォーマンス
③変わったポーズでも反映しやすい
④Depthコントロールネットの併用で有用

弱い部分
①Openposeと同様、深部マッピングについてはDepthコントロールネットに依存
②顔の向きが不安定
③Intention to infer multiple person (or more precisely, heads)

ということで、併用するものとして、Depth Anythingが登場します。
以下のものをコントロールネットのチェックポイントとしてダウンロードしています。

これらを入れたところ、容量は13.4GBに到達。
以前記事に記載した、animatediff controlnetも入れています。これはtenporalnetの代わりでより容量が低いため採用しています。

これ以上追加で入れることは容量的に厳しい感じでした。

使用前の注意点は、チェックポイントのリネームをした方が良いところです。

Denseposeだと「controlnetFor_v10」という名前

Depth Anythingだと「diffusion_pytorch_mode」という名前

text2imgでの結果画面

生成された画像です。Depth Anythingが合っているのかは不明ですが、反映はしている模様と判断しました。

ということで、ダンス動画の変換を試してみました。

元動画は上のもの(ZEPETTOで作成したもの)です。

プロンプト:1girl,blonde twintails,looking at viewer,brick wall,(neon lights, neon sign:1.3),cowboy shot,grin, (先ほどの上の画像でも使用)
ネガティブプロンプト: verybadimagenegative_v1.3

DensePose + DepthAnything+animatediffcontrolnet

Referrenceを追加し、数値調整をしたもの

プロンプトがかなり少ないこともあり、変化が大きめな印象もあったので、追加でプロンプトを増やしたものを作成してみました。
フレーム保管も追加しています。

プロンプト(ネガティブも追加しています)
1girl,blonde twintails, medium hair, white skin, blue eyes, pink shirts, blue denim skirt, looking at viewer, smile, happy:1.2, BREAK, cyberpunk city, cityscape, brick wall,(neon lights, neon sign:1.3), BREAK, beautiful face, detailed face, best quality, masterpiece, ultra-detailed digital painting, <lora:flat2:-0.7> <lora:colorfix:1.5>

出来上がったもの
以前作成したもの(比較用)

人物のプロンプトを追加したところ、より安定したものが出来た印象です。

結局は4つのコントロールネットを使用する必要がありました。
そのため、作成にかかる時間は長く検証しにくいものになりました。

ダンス動画の動きの反映は良好な印象でした。
以前投稿した記事の内容よりは自然に近いものに仕上がった印象です。


この記事が気に入ったらサポートをしてみませんか?