Tensol.Art は静止画生成に専念が良さそう。（あくまで私が描かせたいジャンルにおいての話ながら。）

2024年1月21日 13:51

この記事の続きになります。

Tensol.Art で無償利用出来る膨大な数のCheckPoint ファイルのうち、
リアル系の描写を静止画描画で確認出来、なおかつアニメート
（動画）のメニューからも選択出来る79 件（現時点で試行済件数）
について、まずは期待に沿った静止画が出たものを使って動画生成
を試してみました。
以下に何例かを提示してみます。

結論から言って、Tensol.Art は静止画の描画に専念させたほうが
良さそうです。うまく動画を生成させている先人様や、Tensol.Art の
プロモーション動画と異なり、私が描きたいジャンルが CheckPoint
ファイルの想定する内容からは無理強い過ぎるのか（静止画は期待の
水準を保持しているのに）突拍子もない道具立てが飛び出して来る
ことが多く、ストーリー性を持たせた一連動画のシーン素材としては
扱い難い印象です。

ローカル描画と同じく、Tensol.Art で描画させた静止画をLeonardo.Ai
でImage to Image 処理を使って取り込み、そこで簡易動画生成させた
ほうが、期待/予定に反しないする動画のシーンを用意出来るという
感じがしています。

以下に使ったプロンプト、ネガティブ・プロンプトを示します。
（静止画、動画共通）

プロンプト：
((portrait))+++, 1girl, ((solo)), (short cut hair) ,((( wearing gray and black nano-suits)))+++, best quality,8K,cinematic lighting,ultra HD,masterpiece,ultra high res,(photorealistic:1.2),extremely high quality RAW photograph, (complex, Machine background ,spaceship outdoors background, Mecha Transport parts:0.5), (dark and foggy environment:0.5), ((heavy fog environment0.5)), (battlefield behind:0.5),

ネガティブ・プロンプト：
((mask))++, ((facemask))++, easynegative,ng_deepnegative_v1_75t,(worst quality:2),(low quality:2),(normal quality:2),lowres,bad anatomy,bad hands,normal quality,((monochrome)),((grayscale)),((watermark)),(badhandv4), (bad fingers), (bad arms), (bad hands), (thin), sagging breast, huge breast, bad legs, ((deformed hand)), ((abnormal hand)), (long face:1), (less than five fingers:1), (more than five fingers:1, many fingers, six figners, seven fingers), (high forehead:1), ((slanted eyes)), sagging breast, badhandv4, Bad-Hands-5, fat, sagging breast, badhandv4, bad-hand-v5, big hand, three arms, ((long fingers)), tall body, long body, long legs, fat, thin, bad-hands-5, negative_hand-neg, six fingers, thress arms, three hands, fat legs, fat ass, thin body,(hand deformity, hand disability), (((small eyes, small squinting))), (((nsfw:1.5))), (((black line:1.5))), real face, small legs, thin body, ((HDA_BadHands_neg-neg))

これはローカル描画でも使っている majicMIX realistic - v7 による
Tensol.Art の静止画です。

同じプロンプト、ネガティブ・プロンプトでの majicMIX realistic - v7
によるTensol.Art の動画です。

同じプロンプト、ネガティブ・プロンプトでの majicMIX realistic - v7 による動画

ネガティブ・プロンプトの先頭でマスクをつけない指示をしているものの
無視されていますし、ローカル描画での動画同様、短い時間内に2シーン
が交互表示されるのも落ち着きません。（この原因をどなたかご教示を
いただけると幸甚です。）

一方、上掲の静止画をLeonardo.Ai でImage to Image 処理を使って
取り込み、そこで簡易動画生成させたものは次の通りです。

まずは Image to Image 処理を使ってLeonardo.Ai に取り込んだ状態です。
1 トークンのみ消費のAbsolute Reality V1.6 を使ったためか、やや
ソフトフォーカス気味になっているものの、簡易動画化の時点では
差は無くなっているでしょう。

それを簡易動画化したものです。（生成したMP4 を掲載のためGIF 変換）

Leonardo.Ai で簡易動画化したもの（生成したMP4 を掲載のためGIF 変換）

こちらのほうが、Tensol.Art の動画よりムービーのシーン素材としては
扱い易いでしょう。
画面解像度によっては、全体に網状ノイズが感じられる場合があります。
（以下も同様。Web ブラウザの表示を拡大すると消えるため、恐らくは
MP4 ⇒ GIF 変換処理に起因でLeonardo.Ai の処理とは無関係。）

同様に TQ - BetterReal(Asian) - v.1.0 による静止画です。

TQ - BetterReal(Asian) - v.1.0 による動画です。

同じプロンプト、ネガティブ・プロンプトからの結果とは思えない
印象です。静止画でおおよその仕上がりを予想できないほどの乖離が
あります。

Image to Image 処理を使ってLeonardo.Ai に取り込んだ状態です。

それを簡易動画化したものです。（生成したMP4 を掲載のためGIF 変換）

今度は立体的なカメラワークになりました。
（このあたりは時の運ですが、元画像を取り込んでいるので、
繰り返せばいずれ意図には合わせられます。無償利用では
25 トークン / 1 動画の消費で150 トークン / 日がすぐに無くなって
しまい無駄打ちは難しいですが。）

MoonFilm | 胶片风真实感大模型による静止画です。
（この分野の中華パワーというか先進ぶりは凄いと常々感じます。）

MoonFilm | 胶片风真实感大模型による動画です。

Image to Image 処理を使ってLeonardo.Ai に取り込んだ状態です。

それを簡易動画化したものです。（生成したMP4 を掲載のためGIF 変換）

Wonder Envi - 萬得環境 - TDNM による静止画です。

Wonder Envi - 萬得環境 - TDNM による動画です。

Image to Image 処理を使ってLeonardo.Ai に取り込んだ状態です。

それを簡易動画化したものです。（生成したMP4 を掲載のためGIF 変換）

Film_Realistic - v1 による静止画です。

Film_Realistic - v1 による動画です。これはまた奇想天外…。「映画泥棒」？

Image to Image 処理を使ってLeonardo.Ai に取り込んだ状態です。

それを簡易動画化したものです。（生成したMP4 を掲載のためGIF 変換）

AWPortrait-111SAKURA-PC- （原文ママ）による静止画です。

AWPortrait-111SAKURA-PC- による動画です。

Image to Image 処理を使ってLeonardo.Ai に取り込んだ状態です。

それを簡易動画化したものです。（生成したMP4 を掲載のためGIF 変換）

こうしてみると、ストーリーを持たせた短編ムービーを作る上での
シーン素材としては、静止画をLeonardo.Ai にImage to Image 処理で
取り込んで、簡易動画化させたもののほうが扱い易いでしょう。

CheckPoint が事前想定し易いゲームキャラやアニメキャラなど
他のジャンルではどうなのか分かりませんが、Tensol.Art の動画は
複雑で非日常な背景と人物のリアル質感を追う私の使い方・ジャンル
では、飛び出て来るものが奇想天外過ぎて、一貫したストーリーを
持たせることは難しそうです。

その一方、Leonardo.Ai の簡易動画生成では、主にカメラワークでの
動き程度しか表現が出来なさそうで、人物の手足が動くほどではない
（まばたきはする時はある）ので、静止画のまま動画のシーンに
使っても、さほど差は無い感じもします。

ここで改めて同じプロンプト、ネガティブ・プロンプトを使って
ローカルPC のStable Diffusion Web UI （AUTOMATIC1111 版）で
Checkpoint ファイルに meichidarkMix_meichidarkV45.safetensors
を使って静止画と動画を描画させてみると….。

同じプロンプト、ネガティブ・プロンプトを使ってローカルPC のStable Diffusion Web UI （AUTOMATIC1111 版）での静止画 (01)

同じプロンプト、ネガティブ・プロンプトを使ってローカルPC のStable Diffusion Web UI （AUTOMATIC1111 版）での静止画 (02)

同じプロンプト、ネガティブ・プロンプトを使ってローカルPC のStable Diffusion Web UI （AUTOMATIC1111 版）での動画 (mm_sd_v15_v2.ckpt) (01)

サイズの限界はありますが、少なくとも動画の質に関してはTensol.Art
より扱い易いです。静止画の質は元より全く申し分ありません。

512 pixels 正方が性能限界だとしても、ほぼ同面積の640 × 400 pixels
程度の横長にすれば処理は可能で、記事掲載には必要充分な大きさです。

同じプロンプト、ネガティブ・プロンプトを使ってローカルPC のStable Diffusion Web UI （AUTOMATIC1111 版）での動画 (mm_sd_v15_v2.ckpt) (02)

話はぐるっと一周して「なんだ。ローカルPC だけでクラウドサービスの
マシンパワーは不要やん。まして有償契約など。」というところまで
戻ってしまいそうです。
特に今回行った横長画面化は動画の画質の好感度を予想外に上げています。
他で生成する動画もこのサイズに合わせれば、組み合わせてのムービー化
にもシーン素材として使えます。

そもそも論として、動画で素材を提示することをゴールとすべきかと
言う課題も蒸し返されます。静止画を記事にバンバン貼って行くほうが
インパクトがあるかもしれません。（作曲制作に注力していた半世紀
近く、時間経過を必要とする楽曲披露より一見で鑑賞側の心を掴む
絵画を羨ましく感じていたものでしたが、動画での作品提示はその
制約下に戻ってしまうことでもあります。）

Leonardo.Ai 内で閉じた静止画生成からの簡易動画生成では、もう少し
人物やサブキャラクタに動きがあったことを考えると、簡易動画生成時に
元画像のプロンプトを与えなかったために、このような結果になって
いる可能性も無くはないですかね…。確認の余地ありです。

でもそれはTensol.Art の動画が奇想天外過ぎることとは関係がないので
動画生成にはローカルPC 以外ではLeonardo.Ai に取り込んで扱う方が
有用そうだ、という方向性は変わりません。

静止画に関して言えば、逆にLeonardo.Ai のように数がありそうで
実は使えないCheckPoint ファイルばかりではなく、沢山の魅力的な
CheckPoint ファイルがTensol.Art にはあります。
検証はアニメートのメニューからも選べるものを中心に実施して
いますが、静止画に限ってしまえば、検証対象はさらに増え、
そこに膨大なLoRA ファイルをブレンドさせつつ組み合わせると
いう、これまでのローカル描画と同等の「沼」が待ち構えています。

その意味でもアニメートの成果と自身の描画の方向性の不一致に
頭を抱えている暇があったら、静止画の可能性を追求して行くのが
賢そうです。

一方、CiVitAI などで探せば、アニメートで出てこなかったCheckPoint
ファイルがあるかもしれません。それで動画をローカルPC で描画させる
と、やはり上掲のような荒唐無稽な動画になるのでしょうか。
全く興味は尽きません。

追記：GIF 変換後の動画に網掛けノイズが消えない環境もあるので、
変換前のMP4 をYouTube に纏めて1 本化して登録しました。
ショート動画になってしまうと大きく表示されないので、一部、GIF で
記事公開していないものも含めて、1 分以上の長さになるようリピート
させています。

ご覧いただきありがとうございます。

この記事が参加している募集

#AIとやってみた

27,861件

この記事が気に入ったらサポートをしてみませんか？