【速報のため公開順割り込み：文字を画に描けた！】Stable Diffusion 3 Medium を導入してみたものの...。（続2）

2024年6月19日 09:01

「CivitAI への画像公開状況⑧ 2024/06/18 時点」の途中で割り込みます。
過去記事の訂正の意味もあり、緊急でこちらの公開を優先します。

Stable Diffusion 3 に期待していた「文字を正確に描画出来る」が実現
しないぞ….（困）の件の続報となります。

＞何か特別な CheckPointファイルが必要とかあるのでしょうか。
＞他の方々のご報告を待ちたいと考えます。

まさに正解はそちらであり、ご指摘をいただきました。

この記事のコメント欄に、昨夜 2024/06/18（火）の夜に
プロンプト＠フェチ系カメラマン / AIPrompt@AIカメラマン様から
当方に基本的な誤解がある旨のご指摘をいただきました。
本当にありがたいことです。

従来の CheckPoint ファイルに下位互換があったとしても、
Stable Diffusion 3 の処理本体側が「文字を描画する」能力をそれらに
加味する構造ではなく、そのための専用の CheckPoint ファイルが
必要で、そちら側の作用で「文字を描画する」を実現する、という
ことでした。

改めて考えてみれば、Stable Diffusion Web UI（AUTOMATIC 1111 版）
や NMKD Stable Diffusion GUI が扱えなかった SDXL系の CheckPoint
ファイルを扱うのに Fooocus が登場となったのと同様に、
Stable Diffusion 3 (SD3) 系のCheckPoint ファイルを扱うために
Stable Swarm UI 0.6.4 Beta が登場した、ということだったのでした。

途中で、Stable Diffusion Web UI Forge が上位互換性をほぼ
キープしつつ、AUTOMATIC 1111 版と Fooocus を統合したような
流れとなったこともあって、理解がいつの間にか主従逆転して
しまっていた、ということでしょう。

改めていろいろ情報を拝見しました。

プロンプト＠フェチ系カメラマン / AIPrompt@AIカメラマン様からも
追加情報をいただきました。

それらの情報にはあまり無いものの、huggingface のサイトを見ると、
3 種類ではなく、4 種類あるサイズの違ったStable Diffusion 3 専用
の基本となるCheckPoint ファイルがあり（CivitAI には既にそれを
ベースにしたCheckPoint ファイルが多数アップ公開されているよう
ですが、まずは基本を押さえます）、使う環境によって動作の可否
が決まるので、動作可能な範囲の CheckPoint ファイルを吟味して、
それによって文字の描画の精度も決まって来るようです。

次の画面からダウンロードしました。

時間をかけて4 種類を Stable Diffusion 3 環境に入れましたが、
sd3_medium.safetensors が 4.34 GB、
sd3_medium_incl_clips.safetensors が 5.97 GB、

当方の環境ではこのあたりが限界でしょうか。
（私の環境は、Ryzen 7/ メモリ 16GB/ 512GB SSD + 外付け 1TB SSD
/ GeForce RTX 4060）

sd3_medium_incl_clips_t5xxlfp16.safetensors は 15.8 GB
sd3_medium_incl_clips_t5xxlfp8.safetensors は 10.9 GB

とのことで、動作環境に対してサイズが大き過ぎます。

それでまず最初の2種の CheckPoint ファイルを使って、先日のプロンプト
を描画してみました。

Kobe's wharf, (((a white concrete monument with the words "BE KOBE")))+++, the setting sun

sd3_medium.safetensors による描画です。
UI 上では長い間、ダンマリが続きましたが、裏のバッチ処理画面では
前提となる2 ファイルのダウンロードに時間を要しているものの、
処理は無事進行しているようです。

おお。出ました。一部不完全ながら。

先日のこれなど比較になりません…(^^;)。

sd3_medium_incl_clips.safetensors による描画です。
参考にしたサイトには紹介があまり無かったものの、名称とサイズからは「文字エンコーダ」を内包する最小限サイズの CheckPointファイルとの
ことのようで、もう少し精度が上がったでしょうか。

まあ実在のモニュメントと形が異なるのは致し方ないでしょう。
プロンプトの指示で形状などはもっと追い込めるでしょうし、
「e」が一つ多いとかは、IOPaint-LaMA にお任せといったところです。

sd3_medium_incl_clips_t5xxlfp16.safetensors 、
sd3_medium_incl_clips_t5xxlfp8.safetensors はやはりローディング
出来ませんでした。私の環境では上掲の描画精度が限界のようです。
UI 上ではダンマリでしたが、バックエンドのバッチ処理でエラー終了
となりました。（後になって小さい吹き出しアラートが出現）
SSD上で莫大なサイズを占有するのでただちに削除処分しました。

文字が画面にほぼ正しく描画されたのはよかったですが、その周囲の
画の質感はあまり感心したものではありません。
上記でも触れた基本のCheckPoint ファイルをベースにした派生の
CheckPoint ファイルがCivitAIには多数アップ公開されているようですので、
また機会を見てそれらも順次試してみたいと考えます。

ちなみに、sd3_medium.safetensors による「1 girl in flowers」描画は
こんな感じです。meichidarkMix_meichidarkV45.safetensors など
従来の CheckPoint ファイルの下位互換の表現に違和感があったので、
公正を期する意味で、専用の CheckPoint ファイルで描画させないと
良くないと考えてトライしましたが、正直、薄気味悪いとしか
言いようがありません。

だって Stable Diffusion Web UI Forge を使った SD1.5 ベースの CheckPoint
ファイルで、これだけの描画が出来るプロンプト、ネガティブ・
プロンプトおよび設定ですよ？

が、まあStable Diffusion 3 の描画の質感が気に入らなくても、
どうしても文字を正確に入れたい画だけStable Diffusion 3 を
使えばよいか、と割り切ろうと以前より考えていましたので、
Stable Diffusion 3 での画質追求よりは、Stable Diffusion Web UI
Forge の慣れた環境で、SD1.5 を中心とした自身の世界を磨き上げる
ことを主軸にすることは変わりません。

下位互換があっても、SD1.5 系の CheckPoint ファイルでの
Stable Swarm UI 0.6.4 Beta の描画質感には従来とはかなり
違和感があるという先の記事での報告は、文字描画の件解決とは
関係のない事柄ですので、やはり作業の主軸は、
Stable Diffusion Web UI Forge となるという訳でした。

最後に、プロンプト＠フェチ系カメラマン / AIPrompt@AIカメラマン様
の note 記事を紹介いたします。他に記事が無い模様で、
私が先の記事で公開したプロンプトを使ってわざわざこのご指摘のために
記事を書いてくださったようです。改めて深く感謝いたします。

（2024/07/10 追記）

このような関連記事が出ていました。ご参考まで。

（2024/07/15 追記）

その後の動きです。
ComfyUI の開発者comfyanonymous氏が、Stability AIを退職、
Stable Swarm UI の開発者のmcmonkey4eva氏も退職、
CivitAI がSD3 関連モデルの投稿を一時的に禁止とあります。

ご覧いただきありがとうございます。

この記事が参加している募集

#AIとやってみた

31,214件

この記事が気に入ったらサポートをしてみませんか？