![見出し画像](https://assets.st-note.com/production/uploads/images/117689041/rectangle_large_type_2_4367484a69ff444b959a45004a16d1a1.jpeg?width=1200)
SDwebUIの拡張機能でFreeUをSDXLで試してみました。
皆さん、sunsetです。SDXLの生成モデルの中で優しそうな日本人風の生成をしてくれるモデルと言いますと、佐城郎画さんのchilled_rewriteXLやAfterRealXLが好きなのですが、この方は、皆さんも御存知のように階層マージの鬼ですからFreeUなどという大雑把なUnet最適化パラメーターなんぞの対象ではありませんね。昨日BDさんのSD1.5系のFreeU試験での生成で思ったのですが、こういうUnet階層のスキルを様々な試験で調整してモデルを作成しているスキルの人の生成モデルに適用しても、むしろ制作者さんの工夫や調整を逆に劣化させることはあっても、効果は生まれないのではないかと思われるので、我らのBDさんや佐城さんのモデルは対象外だと言うことで、では他に日本人女性の生成に向いているモデルとして、比較的好きなモデルということでfudukiMix_v10で試してみました。別にfudukiMixの制作者の方のUnet 階層マージスキルを疑うとか、軽んずるつもりは毛頭ございません。
fudukiMixの生成する日本人女性の風情が好きだと言うことでやってみました。好きでないモデルで試験生成しても楽しくないですから。
例によりまして、同一プロンプト、同一シードで両側画面の左側がFreeU無し、右側がFreeU有効にした場合の生成結果です。
![](https://assets.st-note.com/img/1696125927091-3wBwvstiCO.jpg?width=1200)
![](https://assets.st-note.com/img/1696126128936-coGv6Y1E0A.jpg?width=1200)
![](https://assets.st-note.com/img/1696126205397-3eeP32NEUL.jpg?width=1200)
![](https://assets.st-note.com/img/1696126287749-rZgTaQPdhs.jpg?width=1200)
![](https://assets.st-note.com/img/1696126356652-1hbjRZuvLv.jpg?width=1200)
![](https://assets.st-note.com/img/1696126424123-pPHeVeU1gn.jpg?width=1200)
![](https://assets.st-note.com/img/1696126480888-6aPA3ZDt9S.jpg?width=1200)
![](https://assets.st-note.com/img/1696126531829-lRFrnkbxNP.jpg?width=1200)
![](https://assets.st-note.com/img/1696126578592-hLPFS1faoz.jpg?width=1200)
![](https://assets.st-note.com/img/1696126602977-2H9JneMEvO.jpg?width=1200)
全体にUnet階層の衣装・背景・ポーズ及び画面のコントラストや塗り込み濃度に関連する階層のパラメーターを操作して生成画像に反映していると思われますが、髪やシャドウ部分の潰れが致命的で肌のなめらかで繊細な表現が損なわれる傾向があります。論文には画質の向上、解剖学的な破綻の向上特に手の表現の改善とありますが、fudukiMixの作者さんは、Unet階層の精密なシュミレーションの上でモデルの最適化を図った上で発表して居ると思われます。まだ、検証のサンプリングが少なすぎますけど、単純マージなどで十分なUnet階層の最適化プロセスを経ないで発表された生成モデルには、効果が期待できますが、FreeUによるUnet階層最適化パラメーターは、十分調整された生成モデルには、効果がないばかりかシャドー部の潰れをおこし、肌のきめ細かさや、ディテールを損なう傾向がみられ、逆効果になる可能性を否定できないと存じます。ただし、このパラメーターは大雑把にSD1.4、SD.2X, SDXL 3系列の各階層の大雑把な推奨値をデフォルトでパラメーターとして持っており、その数値を変化させることによって生成モデルの表現力の可能性をプロンプト以外のところで調整できる機能を持っているので、このパラメーターの影響範囲を知り抜いて行くと、それこそ、階層マージのハイスキルの制作者のスキルの一端を理解し、また試験生成画像の状態を確認しながら、表現の微調整を行うことが可能になると、例えば、優れたイラストレーターがphotshopの画面を見ながら画像のトーンカーブを見ながらシャドーや肌合いや髪の毛や逆光の光の回り込みなどを自在に調整してイラストの仕上がりの微調整を行うような、夢のような画像生成の自在な表現の可能性も秘めているような気がします。なんだか、素人でちんぷんかんぷんだったUnet階層という構造の一端を垣間見たような気がいたします。
前回のUnet階層に関する佐城郎画先生の講義と今回の検証が一つ、AI画像生成の論理構造の理解に近づけたような気がいたします。
ここまで読んでいただきありがとうございました。
この記事が気に入ったらサポートをしてみませんか?