【Stable Diffusion】マージモデルと各モデルの生成結果を比較してみた
はじめに
DALL・E 2 や Midjourney、Stable Diffusion によって画像生成AIが盛り上がっていますね。私も多分にもれず各AIでのお絵描きを楽しんでおります。
(個人的には「AI先生に絵を描いていただいているパトロン」の気持ちですが)
最近は Stable Diffusion を使って、どのような作風を目指すか検証を重ねていました。
そんな中、モデルのマージ [ref. eyriewow/merge-models] ができると知り、「Stable Diffusion と Waifu Diffusion を混ぜたら写実とアニメ絵の中間の表現になるのかな?」という疑問が私の中に湧いてきたのです。
マージ用のスクリプトはマージ比率も指定できるようで、「ならば、いろいろな比率でマージして同プロンプトの結果がどう違ってくるか」を試してみようと思い立ち、実際にやってみた結果を以下のツイートに載せました。
これが意外と多くの方に見ていただけたようで、もう少し分かりやすくまとめておきたいと思い、今回noteにまとめてみることにした次第です。
プロンプト等
プロンプトは上記ツイートのリンク先で Muacca氏が共有されていたものを少しアニメ絵よりに修正しました。実はプロンプトが長すぎて、最後のカメラ関連の設定は反映されていなかったりします…(が、細かいことは気にしない!)。
生成結果
マージ前
まずはマージ前のモデルでの生成結果。これが基本となります。
※Stable Diffusion=sd-v1-4、Waifu Diffusion=wd-v1-2-full-ema、TrinArt=trinart2_step115000 を使用
マージモデルではこれらの中間の表現になることが期待されますが…如何に?
マージ後 - 50:50パターン
各モデルを半々の比率でマージしたものの生成結果です。見事なまでにマージ元の特徴が混ざっているように見えます。
※以降、SD=Stable Diffusion、WD=Waifu Diffusion、TA=TrinArt
マージ後 - 写実寄り(Stable Diffusion寄り)
Stable Diffusion の比率が高いものの生成結果です。今回のプロンプトは少しSDには合っていなかったようですね。
ただ、WDやTAのようなアニメ絵調に近づいているのが分かりますし、SD60のものは結構影響が出ているように見えます。
マージ後 - バランス型
各モデルのバランスを取ったものの生成結果です。
バランスを取ったと言いつつも、WDとTAがアニメ絵調に寄って生成されるため、どちらかというとアニメ絵調の結果が出ています。
マージ後 - アニメ寄り
WD・TAの比率を増したものの生成結果です。
やはり段々とそれぞれのモデル単体の結果に近づいていることが分かります。
おわりに
モデルをマージすることで、同じプロンプトでも表現に幅が出ることが分かりました。
使いどころとしてはキャラクターものの画像生成時に、プロンプトを変えずに「写実寄りにしたい」「アニメ絵・イラスト調にしたい」という希望を叶えるのに適しているのではないでしょうか。
私が利用している AUTOMATIC1111版 では、UI上でモデルの切り替えやX/Y plotでのモデルの指定ができるようになっており、上記のような場面での活用がより行いやすくなっています。
Textual Inversion による概念の追加と併せ、より幅広い表現ができるようになっていくのではないでしょうか。
何かの参考になれば幸いです。それでは。
この記事が気に入ったらサポートをしてみませんか?