モデル-CLIP入れ替え遊びをしてみた話:SDXL x CLIPで画像が変わる話@ComfyUI
これは、すでにやられつくされた内容かも知れませんが、あまり他の記事に出ていないような気もしたので、備忘録的な感じで記事にしています。
<モデル-CLIP入れ替え遊びを考えた理由>
SD3が登場した際に、CLIPが3つあることが紹介され、元モデルと別にダウンロードでき、CLIPとモデルを切り離せることを知りました。
また、Diffusers-multifolder形式のモデルだと、textencorderとして2つのクリップのファイルが存在していることを知りました。
通常のマージの場合(ComfyUI)はCLIPは片方のモデルのものが継承されるフローが示されており、CLIPはマージしなくて良いのかどうか気になったところです。
CLIP自体、どれぐらいそのモデルによって違うのか、これを見てみるのが「モデル-CLIP入れ替え遊び」になります。
<モデル組み換え遊びの概要>
4つのモデルで組み合わせを作成する
①前提:プロンプトを固定
1girl, majin android 21, A girl kneeling on the ground, arms outstretched towards the sky, eyes filled with tears of joy, expressing overwhelming gratitude and reverence.score_9, score_8_up, score_7_up, best quality, masterpiece, 4k, uncensored, prefect lighting, rating_safe, very aesthetic, anime
②シード値など生成条件を固定
モデルの組み合わせは以下の16パターン
ポニー系モデルで試してみました。これらを選んだ理由は特にありませんが、Bのみリアル系を入れたいということで選択しています。
A:cute-core-v3-sdxl
B:jac-nsfw-v2f-sdxl
C:ioli-pony-mix-v2-sdxl
D:wai-cute-v3-sdxl
Model A + CLIP A
Model A + CLIP B
Model A + CLIP C
Model A + CLIP D
Model B + CLIP A
Model B + CLIP B
Model B + CLIP C
Model B + CLIP D
Model C + CLIP A
Model C + CLIP B
Model C + CLIP C
Model C + CLIP D
Model D + CLIP A
Model D + CLIP B
Model D + CLIP C
Model D + CLIP D
上のフローに合わせて、モデルごとにCLIPA-Dまでの4つの入力を分けて見ることにしました。これだと、モデルの部分だけを変えれば良いという感じになります。
<検証結果>
モデルAをベースと下組み合わせです。
左上がA-A、右上がA-B、左下がA-C、右下がA-Dの順です。(後ろの記号がCLIPのモデル名)
モデルBをベースと下組み合わせです。
左上がB-A、右上がB-B、左下がB-C、右下がB-Dの順です。
モデルCをベースと下組み合わせです。
左上がC-A、右上がC-B、左下がC-C、右下がC-Dの順です。
モデルDをベースと下組み合わせです。
左上がD-A、右上がD-B、左下がD-C、右下がD-Dの順です。
<感想>
今回の検証では、リアル系はBのみでしたが、他と比較すると絵の変化が大きくなっていることが分かります。
また、CとDは比較的似た感じの絵柄ですが、Aはそれより異なっている印象もあります。
これらの結果はモデルをマージする際にもかかわってくる可能性がありそうです。