モデル-CLIP入れ替え遊びをしてみた話：SDXL x CLIPで画像が変わる話@ComfyUI

2024年6月24日 13:21

これは、すでにやられつくされた内容かも知れませんが、あまり他の記事に出ていないような気もしたので、備忘録的な感じで記事にしています。

＜モデル-CLIP入れ替え遊びを考えた理由＞

SD3が登場した際に、CLIPが3つあることが紹介され、元モデルと別にダウンロードでき、CLIPとモデルを切り離せることを知りました。
また、Diffusers-multifolder形式のモデルだと、textencorderとして2つのクリップのファイルが存在していることを知りました。
通常のマージの場合(ComfyUI)はCLIPは片方のモデルのものが継承されるフローが示されており、CLIPはマージしなくて良いのかどうか気になったところです。

CLIP自体、どれぐらいそのモデルによって違うのか、これを見てみるのが「モデル-CLIP入れ替え遊び」になります。

＜モデル組み換え遊びの概要＞

4つのモデルで組み合わせを作成する
①前提：プロンプトを固定
1girl, majin android 21, A girl kneeling on the ground, arms outstretched towards the sky, eyes filled with tears of joy, expressing overwhelming gratitude and reverence.score_9, score_8_up, score_7_up, best quality, masterpiece, 4k, uncensored, prefect lighting, rating_safe, very aesthetic, anime
②シード値など生成条件を固定

モデルの組み合わせは以下の16パターン
ポニー系モデルで試してみました。これらを選んだ理由は特にありませんが、Bのみリアル系を入れたいということで選択しています。
A：cute-core-v3-sdxl
B：jac-nsfw-v2f-sdxl
C：ioli-pony-mix-v2-sdxl
D：wai-cute-v3-sdxl

Model A + CLIP A
Model A + CLIP B
Model A + CLIP C
Model A + CLIP D
Model B + CLIP A
Model B + CLIP B
Model B + CLIP C
Model B + CLIP D
Model C + CLIP A
Model C + CLIP B
Model C + CLIP C
Model C + CLIP D
Model D + CLIP A
Model D + CLIP B
Model D + CLIP C
Model D + CLIP D

上のフローに合わせて、モデルごとにCLIPA-Dまでの4つの入力を分けて見ることにしました。これだと、モデルの部分だけを変えれば良いという感じになります。

＜検証結果＞

モデルAをベースと下組み合わせです。
左上がA-A、右上がA-B、左下がA-C、右下がA-Dの順です。(後ろの記号がCLIPのモデル名)

モデルBをベースと下組み合わせです。
左上がB-A、右上がB-B、左下がB-C、右下がB-Dの順です。

モデルCをベースと下組み合わせです。
左上がC-A、右上がC-B、左下がC-C、右下がC-Dの順です。

モデルDをベースと下組み合わせです。
左上がD-A、右上がD-B、左下がD-C、右下がD-Dの順です。

＜感想＞

今回の検証では、リアル系はBのみでしたが、他と比較すると絵の変化が大きくなっていることが分かります。
また、CとDは比較的似た感じの絵柄ですが、Aはそれより異なっている印象もあります。

これらの結果はモデルをマージする際にもかかわってくる可能性がありそうです。