見出し画像

【StableDiffusion】15種のSDXLモデルの表情筋が鍛えられてるか比べてみた【モデル紹介&検証】

割引あり

■記事の対象ユーザ

1.StabilityMatrixで環境を構築してAIイラストを作っている
2.各SDXLモデルの表情の表現を比べてみたい
3.単純に色んなSDXLモデルの出力を見比べてみたい

この記事を書くまでの

■ようするに?
・表情豊かなのはAnimagine系列
・Ponyも特殊顔文字には対応していないけど魅力的
・最新の両方マージモデルも品質が高い!


0.はじめに

ちょっと前の記事で書いたとおり、ようやくSDXL環境にデビューした私ですが、SDXL環境では1月にリリースされたAnimagine XL 3.0 と PonyDiffusionでこれまで弱かったアニメ系の表現が一気に強化されました。
強化された結果、プロンプトのみで豊かな表情が出力できるようになったりしたわけですが・・・

これらの表情はモデルに依存している部分が大きく、特にデフォルメ表情なんかは同じモデルである限りどうしても同じようになってしまいます。

独自にデフォルメ表情を出すならLoRAを利用するところですが、2024年4月現在、SDXL環境においてそういったLoRAはまだ出ておらず自分で作るしかない状況です。

更に、SDXL環境は使いたいモデルに合わせてLoRAを作る方が良いとされているので闇雲に作るよりは各モデルがどの程度表情を豊かに出せるかを調べておく必要がある・・・!ということで、今回の検証に至りました。

1.対象モデル

今回の検証ではAnimagineやPonyDiffusionみたいな定番のモデルと、私がSNSとかで見つけていいなって思ったモデルなど全15種を比較するよ。
各モデルの詳細は配布ページとインターネットを駆使して確認してね。
(URLは各モデル名に貼ってあるので参考にどうぞー)

■ ベースモデル

SDXL_base

SDXLのベースモデル。比較用に

■ Animagine系

Animagine XL 3.0

SDXLモデルのアニメ系クオリティを引き上げた定番モデル。説明は省略。

[推奨設定]
サンプラー:Euler a
ステップ数:30 未満
CFGスケール:5 ~ 7

[推奨プロンプト] ※ただしエッチになりやすいから注意と公式喚起
masterpiece, best quality, rating: general

[推奨ネガティブプロンプト]
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name, rating: sensitive

Animagine XL 3.1

Animagine XL 3.0の後継モデル。説明は省略。

[推奨設定] ※3.0と同様
サンプラー:Euler a
ステップ数:30 未満
CFGスケール:5 ~ 7

[推奨プロンプト]
masterpiece, best quality, very aesthetic, absurdres

[推奨ネガティブプロンプト]
nsfw, lowres, (bad), text, error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark, unfinished, displeasing, oldest, early, chromatic aberration, signature, extra digits, artistic error, username, scan, [abstract]

Stable-Diffusion-XL-Anime

ControlNetのモデルとかも公開してる青龍聖者さん(@bdsqlsz)さん作のAnimagine3.1ベースのモデル。ファインチューニングで手の破綻に強くなっているらしい。Civitaiのギャラリーの設定に合わせる。

[推奨設定] 
サンプラー:DPM++ 2M Karras
ステップ数:28
CFGスケール:7

[推奨プロンプト] ※末尾にクオリティタグをつけている
very aesthetic, masterpiece, best quality, absurdres, sensitive

[推奨ネガティブプロンプト]
lowres, (bad), (text:1.3), error, fewer, extra, missing, worst quality, jpeg artifacts, low quality, watermark:1.3, unfinished, displeasing, oldest, early, chromatic aberration, signature:1.3, extra digits, artistic error, username:1.3, scan, [abstract],censored, copyright name:1.3,

ShiratakiMix XL

Vすき焼き(@Vsukiyaki_AIArt)さん作のAnimagineベースモデル。
特に推奨の指定が無いのでマージ元のAnimagine XL 3.1の設定に合わせる。

■ Pony系

PonyDiffusion V6 XL

Animagineとアニメ系の両翼を担う定番モデル。
マイリトルポニー要素を削らないとカートゥーンになるため癖がある。

[推奨設定]
clip skip:2 ※必須
サンプラー:Euler a
ステップ数:25

[推奨プロンプト]
score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up, just describe what you want, tag1, tag2

[推奨ネガティブプロンプト] ※非公式。マイリトルポニー要素除外
source_pony, source_furry

PonyDiffusion for Anime

PonyDiffusionをアニメ調にファインチューニングしたモデル。

[推奨プロンプト]
score, 1girl/1boy/2girls..., characters, copyright, style, general tags, rating

scoreは以下3つから選ぶことも組み合わせることも可能
score_9: high quality illustrations
score_8_up: realistic texture
score_7_up: anime-like

[推奨ネガティブプロンプト]
score_4, score_5, score_6, source_pony, source_furry, monochrome, 3d, photo, hyperrealistic, realstic, rough sketch, fewer digits, extra digits, signature, artist name

AiPonyAnime

あいきみ(@AiWithYou1)さん作のPonyDiffusionベースモデル、PonyDiffusionでのスコアタグ周りが無くてもいい感じに出る様に調整されているとのこと

[推奨ネガティブプロンプト]unaestheticXL_Alb2は同氏のEmbedding
(bad quality:1.4), unaestheticXL_Alb2

併用されてるEmbedding(Ti)はこちら

AiHassaqXL

「我今まさに事前準備を終えんとする」というタイミングで公開された
同じくあいきみさん作。(PonyDiffusionベースの)Hassaq XLをAiPonyAnimeのようにスコアタグなしでいい感じに出る様に調整されたもの。

■ SD1.5時代の有名どころ

7th anime XL A

「我今まさに記事を書き終えんとする」というタイミングで公開された
SD1.5環境で有名だった7th AnimeのSDXL対応モデル、fp32のモデルも何故か配布されている。ギャラリーとかReadmeが不足しているけど、AnimagineとPonyマージされてそうな出力なので、一応Animagine XL 3.1準拠の設定で出力してみる。

Anything XL

SD1.5環境で有名だったAnythingのSDXL対応モデル
AnimagineXL3.0とかPonyなどを少しずつマージしている模様

[推奨設定]
サンプラー:Euler a
ステップ数:20
CFGスケール:7

[推奨プロンプト]
masterpiece

[推奨ネガティブプロンプト]
nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name

CounterfeitXL

SD1.5環境で有名だったCounterfeitのSDXL対応モデル
特に指定設定が見えたらなくて、スタイル指定だけ説明があったから
AnimagineXL3.1の推奨に「anime style」だけ追加するよ

■ その他

ReponygineXL

PonyDiffusionとAnimagineのマージを目指したモデル。
これも、あいきみ(@AiWithYou1)さん作。
他の有名モデルも含めて色々マージされた欲張りセット。
基本的にAnimagine XL 3.1に合わせるけどVAEをAutomaticにすると
不思議な色合いになっちゃうので、VAEをSDXL標準の「sdxl_vae.safetensors」にあわせるよ

XL_caulkinumAnimeLine

Civitaiで見つけた良さげなモデル。何種類かあるけど以下2つを採用。
ACA=一般的なイラストスタイル
MGA=ちょっとデフォルメアニメスタイル

[推奨設定] ※公式のサンプルから抜粋
サンプラー:DPM++ 2M Karras
ステップ:20
CFGスケール:6
Clip skip: 2

[推奨ネガティブプロンプト] ※公式のサンプルから抜粋
text, error, signature, watermark, username, blurry, artist name, sound_effects, copyright, long body, comic, monochrome NSFW

2.設定について

「みんなちがって、みんないい」

そんなこと言ってる場合じゃねぇってくらい推奨設定がバラバラなので実際に与えた設定とプロンプトをテキストファイルにまとめたよ。気になる人は中身を見てね。

3.各モデルの表情のベースとなる画像を選定

シード値1つだけだと絵柄に偏りが出そうなので、3つシード値を選んで出力してみたよ。この中から1枚画像を選び、表情を与えていくよ。

シード値1:4161836470
シード値2:52511691
シード値3:51510068

4.表情プロンプトについて

今回付与するプロンプトは次の12種類。これを3で各モデルから選出したベース画像に対してInpaint-i2iで顔の部分だけ変更。20枚づつ出力し、いい感じの表情を集めていくよ。

笑顔:laughing with closed eyes
ニヤリ:grin
キレる:angry,scowl
嫌悪:disgust
ふくれっ面:pout
ズーン:turn pale,gloom (expression),
ぐぬぬ:wavy mouth,upset,
ぐるぐる目:@_@
><:(>_<:1.4)
猫口:;3
らきすたのこなたみたいな目:(=_=:1.4)
漫画風な泣き方:(O_o:1.2),sobbing,crying with eyes open

★Animagineで効くプロンプトを中心に選定してるから、モデルによっては効かない可能性があることを留意しておいてほしいな

こんな感じ(Animagine XL 3.1の表現力すごい)

基本的に上記の表情プロンプトを基本プロンプトの末尾に付与するんだけど、目を閉じる系の表情については目に関するプロンプトがあると半目が開いたりしちゃうから消しておくよ。
(今回だと「aqua eyes」「white pupils」「blight pupils」の3つが対象)

5.表情差分の作成

選んだ画像をi2iのinpaintタブに転送して、

真ん中のペイントボタンから転送できるよ

顔の部分だけをマスキング

こんな感じね

ノイズ除去強度0.85、マスクのぼかしを15に設定して大元から大きく変わらないように指定しました。(後でアニメーションGIFにするから破綻しないように変化は弱めです)

プロンプトも一緒に転送されてるので、末尾に表情用プロンプトを挿入。
表情プロンプトを切り替えながら20枚づつ出力していくよ。

6.結果発表

ダカダカダカダカ・・・ジャーン!(ドラムロール
出力した20枚の中から私がサイコー!って思った1枚を集めて12個の表情をアニメーションGIFにして発表するよ!

表情の表示順は
指定なし→笑顔→ニヤリ→キレる・・・
って言う風に4で並べた順になってるからね。

表情指定なしの一覧

GIFアニメにすると画像が壊れちゃうので結果を動画で張っておくね(´・ω・)

※何故かAiPonyAnimeだけ「>_<」と「;3」を認識しないだけじゃなく生成がバグる現象に遭遇したんだけど、なにこれ・・・兵器ブリオン・・・?

ちなみに今回みたいなアニメーションGIFを作る時はScreenToGifを愛用しています。取説見なくても直観的に使えるいいツールだとおもいます。

7.おわりに

今回の記事からお前が得るべき教訓は、特殊な表情プロンプトを学習していないモデルに何を与えても望む結果は得られないということだ。

あとモデルのリリースはやすぎ

結果を見ると、今回比較したSDXLモデルは、
1.Animagineベース
2.Ponyベース
3.両方混ぜたもの
4.それ以外

の4パターンくらいに分けられそうね!

1.Animagineベース
特殊な表情(ぐるぐる目→@_@等)にも対応している。コミカル表情に強い。
2.Ponyベース
特殊表情には対応していないが表情豊かでないかと言われると、笑顔とかの表現を見ればわかる通りAnimagine系とは違った良さあり。
3.両方混ぜたもの
こと表情についてはどれもAnimagine感が強い気がする・・・。
Reponygineに関してはPony側によってるよね。
4.それ以外
Counterfeit、caulkinumAnimeLine(ACA)はAnimagine/Ponyの比率が高くない独自モデル感を感じだけど、表情に関しては一歩遅れている?

用途に応じて・・・、難しいにゃ

私のやりたいこと的にはデフォルメ顔の表現が強い方が嬉しいので、そのまま使うならAnimagineか7th animeが有力候補で、Pony系で使うならLoRA用意して運用する形になりそうです。

ここまで読んでくれた皆様の何かの参考になってくれていれば嬉しいです。
ではまたー。

オマケ:各表情で20枚出した画像集

今回はいい感じの画像1枚を選んで結果発表したけど「偶然いいの出ただけでしょ?」とか「参考までに他の画像や失敗画像も見てみたい!」って人向けに出力した画像一覧と全部入りZipを100円で置いておくよ。

記事に書いてある通りにやれば同じ結果を得られるんだけど、今回めちゃくそ時間かかったので時間と電気代だと思ってどうぞ・・・。
(noteの有料記事機能を試してみたいだけとは口が裂けても言えない)

こんな感じの画像を表情数(12)×モデル数(15)分だけ詰め込んでます。(例:Animagine XL 3.0 笑顔)

ここから先は

57字 / 15ファイル

この記事が気に入ったらサポートをしてみませんか?