見出し画像

[実験レポ] Model Block Merge で、 U-Net の各レイヤーの影響を調べる #2

前回は層別マージ(階層マージ) を用いて、 Stable Diffusion 1.5 の U-Net 各層での影響力について調べた。
今回は Waifu Diffusion 1.3 について、同様の調査を行う。

前回から時間が空いた間にいろいろな検証が進んでおり今さら感もあるが、個人的興味にまかせてまとめたので、公開する。

実験方法・内容

使用ツール

使用ツールは、Merge Block Weighted GUI の機能拡張版。

12/25 実験用の機能「MBW Each」を追加・公開しました。
https://github.com/bbc-mc/sdweb-merge-block-weighted-gui/blob/master/README_each.ja.md

実験方法・内容

おおまかには前回と同じなので、手法等は前回を確認のこと。

前回結果との比較は、別の記事に分ける(長くなりそうなので)

実験条件

使用モデル:Waifu Diffusion v1.3
準備したマージモデル:階層マージ済みモデル 25 ケ
階層条件:base_alpha = 0, preset_weights=ALL_A, 対象の層のみ xx_A_yy = 0.75(xx: IN, M, OUT、yy:00~11)

結果と検証

全体

実験結果の全体概観

まずは全体を俯瞰して、気になる点を列挙していく。

  • IN_00 画像全体の崩れが大きい(キャラクタは維持。但しseed4除く)

  • IN側 Seed=4 縦に見ると、中央にキャラクタがいる構成はあまり変化しないが、キャラクタ自体は顔アップ(IN_08)や背景の影(IN_00)まで、まちまち

  • IN_08, seed=4 急に顔がアップになっている

  • OUT_02, seed=4 急にバストショットになっているが、OUT_03 では戻っている

  • OUT_04, seed=3 顔の造形が崩れている

  • OUT_11 全体にノイズが走っている。造形がかろうじて維持されているのがうっすらと透けて見える

では、各部について見ていく。

IN00~06

通常、IN_00~IN_06

IN_00 では手描きイラスト調のような、整い切らない絵になった。
IN_00 Seed=4 では、構図が大幅に崩れた。
IN_04,IN_05,IN_07 Seed=1 では、キャラクタの姿勢が斜めから画面に正対に変化した。

IN 07~M00

IN_07~IN_11

まずは各層ごとに見る。
IN_07 seed=1
IN_07 seed=3 で、表情の表現が変わった(目にハイライトが入った?)
IN_07 seed=4 では、人物の描写が失われた(背景のみ)

次に、縦に見比べる。
Seed=2
を縦に見比べると、IN_06 > IN_07 > IN_08 で、IN_07 のみ姿勢を正対から左向きへ変化していた。
Seed=3 を縦に見比べると、IN_06 > IN_07 > IN_08 で、IN_07 のみ顔立ち・顔の形・表情が異なるように見えた。

これらから、IN_07 が人物描写にかなりの影響を及ぼしていると考えられる。

M_00 の前後

M_00 とその前後

M_00 seed=3、seed=4 では構図の変化が見られた。但し、同じM_00でも Seed=1, Seed=2 では変化が見受けられなかった。(Seed=2 の顔がやや描写が甘くなっている?)

M00、OUT00~05

M_00, OUT_00~OUT_05

OUT_03~OUT_05 顔立ちに大きな変化がみられた。(後述するが、OUT_06でも変化は継続している)
特に OUT_04 では形状を維持できておらず、比較的安定している Seed=1 ですら形状を失っている。
また OUT_05 では、顔立ちの雰囲気がかなり異なっている。
ただし、ここまで変化の大きい OUT_03~OUT_05 だが、構図・体の向き・髪型・髪の色などは、大体維持されている。

OUT06~11

OUT_06~OUT_11, 通常出力

OUT_11 は、出力がノイズに覆われている。
OUT_10~OUT_08 では、出力全体に白い斑点が散っている。
OUT_06、OUT_07 では、顔のパーツが失われている。特に Seed=4 では、キャラクタ自体が失われている。 

ここまでのまとめ

IN_00、OUT_11 は、全てに影響を及ぼしている印象のため、大幅な変更を意図しない場合は、触りにくそう。(IN_00 の手描き風変化は、ちょっと面白い)

IN_07 では表情の印象に大きな変化が見られた。

IN側 Seed=4 を縦に見ると、影響に統一感が見られないが、これはキャラクタの生成に使えるノイズが中央付近に小さくしか存在しなかったためではないか。そのため、時々キャラクタを見失い、画面全体からキャラクタを再構成したりしているようにも見える。

OUT_03~OUT_05 では、顔面から背景まで大きな影響が見られた。
OUT_08~OUT_10 では、画面全体にエフェクトのような影響が見られた。


この記事が気に入ったらサポートをしてみませんか?