【Stable Diffusion】マージモデルと各モデルの生成結果を比較してみた

2022年9月24日 23:48

はじめに

DALL･E 2 や Midjourney、Stable Diffusion によって画像生成AIが盛り上がっていますね。私も多分にもれず各AIでのお絵描きを楽しんでおります。
（個人的には「AI先生に絵を描いていただいているパトロン」の気持ちですが）

最近は Stable Diffusion を使って、どのような作風を目指すか検証を重ねていました。
そんな中、モデルのマージ [ref. eyriewow/merge-models] ができると知り、「Stable Diffusion と Waifu Diffusion を混ぜたら写実とアニメ絵の中間の表現になるのかな？」という疑問が私の中に湧いてきたのです。

マージ用のスクリプトはマージ比率も指定できるようで、「ならば、いろいろな比率でマージして同プロンプトの結果がどう違ってくるか」を試してみようと思い立ち、実際にやってみた結果を以下のツイートに載せました。
これが意外と多くの方に見ていただけたようで、もう少し分かりやすくまとめておきたいと思い、今回noteにまとめてみることにした次第です。

マージモデルを複数作って、同プロンプト・同シードでのモデル間の比較をしてみた。
SD:#stablediffusion WD:#waifudiffusion TA:#trinart
※画像内、英字の後ろの数値はモデルのマージ比率

プロンプトは下記twからお借りしたものを少しアニメ寄りに修正。https://t.co/wPJY6dQ0FY pic.twitter.com/Cxq9KkPqYm
— septendec (@septendec) September 21, 2022

プロンプト等

プロンプトは上記ツイートのリンク先で Muacca氏が共有されていたものを少しアニメ絵よりに修正しました。実はプロンプトが長すぎて、最後のカメラ関連の設定は反映されていなかったりします…（が、細かいことは気にしない！）。

detailed 8k wallpaper like pencil drawing of pretty young anime girl, blue wavy hairstyle, white glowing skin, jewelry eyes with elegant eyelashes, perfect symmetrical face with blush cheeks, wearing sheer white dress with elegant lace, by Mucha, golden hour lighting, strong rim light, many glitter particles, intense shadows, by Canon EOS, SIGMA Art Lens 35mm F1.4, ISO 200 Shutter Speed 2000.
Negative prompt: (((anatomy poorly drawn mutation mutated poorly drawn hands missing limb floating limbs disconnected limbs malformed hands out of focus long neck long body)))
Steps: 65, Sampler: Euler a, CFG scale: 7.5, Seed: 557467502, Size: 448x704

生成結果

マージ前

まずはマージ前のモデルでの生成結果。これが基本となります。
※Stable Diffusion=sd-v1-4、Waifu Diffusion=wd-v1-2-full-ema、TrinArt=trinart2_step115000 を使用
マージモデルではこれらの中間の表現になることが期待されますが…如何に？

マージ後 - 50:50パターン

各モデルを半々の比率でマージしたものの生成結果です。見事なまでにマージ元の特徴が混ざっているように見えます。
※以降、SD=Stable Diffusion、WD=Waifu Diffusion、TA=TrinArt

マージ後 - 写実寄り（Stable Diffusion寄り）

Stable Diffusion の比率が高いものの生成結果です。今回のプロンプトは少しSDには合っていなかったようですね。
ただ、WDやTAのようなアニメ絵調に近づいているのが分かりますし、SD60のものは結構影響が出ているように見えます。

マージ後 - バランス型

各モデルのバランスを取ったものの生成結果です。
バランスを取ったと言いつつも、WDとTAがアニメ絵調に寄って生成されるため、どちらかというとアニメ絵調の結果が出ています。

マージ後 - アニメ寄り

WD・TAの比率を増したものの生成結果です。
やはり段々とそれぞれのモデル単体の結果に近づいていることが分かります。

おわりに

モデルをマージすることで、同じプロンプトでも表現に幅が出ることが分かりました。
使いどころとしてはキャラクターものの画像生成時に、プロンプトを変えずに「写実寄りにしたい」「アニメ絵・イラスト調にしたい」という希望を叶えるのに適しているのではないでしょうか。

私が利用している AUTOMATIC1111版では、UI上でモデルの切り替えやX/Y plotでのモデルの指定ができるようになっており、上記のような場面での活用がより行いやすくなっています。
Textual Inversion による概念の追加と併せ、より幅広い表現ができるようになっていくのではないでしょうか。

何かの参考になれば幸いです。それでは。

この記事が気に入ったらサポートをしてみませんか？