Stable Diffusion 3 Medium を導入してみたものの...。

2024年6月15日 17:28

2024/06/12 (水) にStable Diffusion 3 Medium が利用可能となったとの
ことで、2024/06/15 (土) の午後、早速導入してみました。
このモデルだと超ハイエンドの GPU でなくとも動くようにメモリ処理
の最適化が為されているようです。
（私の環境は、Ryzen 7/ メモリ 16GB/ 512GB SSD + 外付け 1TB SSD
/ GeForce RTX 4060）

早速この Hugging Face のページから、Google Colab 環境とか
Runpod 環境とかは良く分からないのと、ローカルPC での自由な描画と
いう基本方針は、NMKD Stable Diffusion GUI や Stable Diffusion Web UI
（AUTOMATIC 1111 版）を導入した初期から変わらないので、
「Installing on Windows」の項目から、インストーラーをダウンロード
して実行しました。

ローカルPC (Windows 派でよかった改めて）用インストーラはここにありました

「somewhere you want to install at (not Program Files), and run it」とあるので、Fooocus や Stable Diffusion Web UI Forge と同様に外付けSSD にダウンロードして実行しました。

Stable Swarm UI 0.6.4 Beta のインストーラーとのことでした。
　
必要な前提プログラムが数種類あるようで、それらも自動でインストール
されました。注意するのは、それらの外部前提モジュールをインストール
する際に、このバッチ処理画面には何も出ていないものの（処理が止まって
いる感じ）、裏で「このプログラムがシステムを変更してよいか？」の
別画面が応答待ちになっていることに気づいて「OK」を出してやること
です。Micorsoft .NET SDK8.0 や Git がそのように先行インストール
されました。Git 環境を先人様の記事を頼りに見様見真似で構築した
Stable Diffusion Web UI（AUTOMATIC 1111 版）とは隔世の感があります。
（10 か月前のことが大昔のようです。）

裏画面で応答待ちになっていたのに気づいて「OK」を出し、
Micorosoft .NET SDK 8.0.302 がインストールされました。

前提となる Micorosoft .NET SDK 8.0.302 のインストール進行

バッチ処理画面の裏で Stable Swarm UI Installer 画面が立ち上がって
いました。まだやっとここからスタートでしたか…。

Stable Swarm UI Installer 画面が。まだやっとここからスタート。

「Agree」を押して処理開始です。
後で設定は変えられるとのことで「ただちにインストール」を選びました。

「このような条件でインストールするが良いか？」と聞かれますが、
他の選択肢も分からないので「Yes,I'm sure （install now）」を押しました。
「Comfyui」が気になりましたが、バックエンドと書いてあるので、
UI の表面でそれらにまごつくことは無いのではないかと楽観しました。

インストールの選択肢も良く分からず「Yes,I'm sure （install now）」

インストールがスタートしました。全6 ステップあるようです。

ステップ内の進行度合いが黄緑で、6 ステップ全体の進行が青で
示されます。

どんどん順調に進みます。

6 ステップが完了すると、もう Stable Swarm UI 0.6.4 Beta が起動して
いました。（ローカルノード URL のぶつかりを懸念して、裏で動かしていた
Stable Diffusion Web UI Forge の UI とバッチ処理は落として置きました。
が、その後のテストで Stable Diffusion Web UI Forge が起動した状態で
Stable Swarm UI 0.6.4 Beta は起動しました。まあメモリ消費の観点から
同時併用はしませんが。）

インストーラ実行の途中で画面上方に「言語」というのがあって、
遅ればせながら「japan」を選んでみましたら、インストール中は
特に変化は無かったものの、完全ではなく（結構英語表記もある）
タブ名などだけが日本語の妙な UI になってしまいました。
（もう一度、インストールをゼロからやり直すかな….。使う覇気に
影響しそう….。）

「コンフィーワークフロー」タブページには、Comfyui による
処理ノード接続の具合も見えるようです。ここで微調整も可能かも
しれませんが、良く分からないうちは今までの UI のように「生成」
タブでの描画に専念します。

「生成」タブ画面の中央にプロンプト、ネガティブ・プロンプトを
入力するフィールドはありますが、なんとも狭い….。
しかもプロンプト入力フィールドに Image to Image の元画像を
ドラッグするように書いてある？（そういうところをこそ日本語化
してくれよ…。Text to Image との併用が出来ないのか…？）

プロンプトのフィールドにお決まりの「dog」を入れて「生成」を押すも、
「model の指定が無い」とのアラートが出ました。

それで「モデル」タブから唯一インストールで仕込まれていた
sd_xl_base_1.0.safetensors を選んで再度「生成」を押すと….。

描画処理が始まったようで、コンフィーワークフローで何か先ほどと
変化があったかなと見ましたが、何も変わっていないようです。
（「dog」と入れただけですものね。設定をいじくった訳ではないです
から。）

あっさり「dog」が描画されました。

像をクリックすると今までの UI 同様に拡大されます。
今までの UI と異なるのは、標準仕様が 1024 pixels 正方での出力
となっていることです。（…と上掲の記事には記述がありましたが
UI 上で「解像度」選択はアスペクト比の設定のみで、いずれも
512 pixels 正方付近の面積しか得られないようです。選択肢の末尾
の「custom」を使えば、縦横ピクセル幅指定は可能ですが、
内部処理的に1024 pixels 正方が標準ではなく最大値のようで
本件の評価は保留にします。へんてこ日本語 UI は「height」
（高さ：ハイト）を「ヘイスト」と表示して何がなんだか
分かりません。）

Stable Diffusion Web UI（AUTOMATIC 1111 版）や Stable Diffusion Web UI Forge のように、基本が 512 pixels正方の設計では、画像を大きくする
につれ多足多頭変形などが出るので、Stable Swarm UI 0.6.4 Beta では
Hires. fix のような Upscaler を併用する必要は減るのかもしれません。
Hires. fix での拡大処理で、拡大前のニュアンスが大きく崩れることが
緻密な SF 画の背景では多々ありましたので、これは期待できそうです。
【これも直近記述の理由により一旦評価保留にします。】

インストールされた環境を見ると、ディレクトリ構造にやや差異が
あるものの、CheckPoint ファイル自体は見慣れた
sd_xl_base_1.0.safetensors でしたので、従来使ってきたCheckPoint
ファイルを流用する互換性はありそうです。
他の CheckPoint ファイルは従来通り「Stable -Diffusion」フォルダに
入れるのか、それとも新設の「Official Stable Diffsion」サブフォルダ
に入れるのか….。

今回自動で立ち上がりましたが、毎回の起動には launch-windows.bat
を使うのでしょうか。
Forge や AUTOMATIC 1111版のように起動時にメモリ消費の扱いオプション
をどう与えるのかも、まだ分かっていません。きっと同様の入れ子バッチ
みたいなものが用意されているのでしょう。

とりあえず、Stable Diffusion 3（Stable Swarm UI 0.6.4 Beta）は
動きました。しかし、現状使い慣れた Stable Diffusion Web UI Forge
で困っていることは何も無いのでした。

画の中に正確にテキストが描画されるという記事を以前見たので
それは確かに魅力的ではありますが、 Stable Diffusion Web UI Forge
や AUTOMATIC 1111 版の「妙な中華崩れだったり、英語っぽい綴りに
ロシア文字崩れな感じが混ざってる」のも、未来世界を描くのには
むしろムードを高める（異世界っぽいというか、未来は言語文字が
このように融合してるとかを想像）ところもあって、特に欠点とは
考えていないのでした。

大きな画像での多足・多頭変形に困ることはあって、それが
メモリ処理の最適化で、頻度を抑えられつつの 1024 pixels 正方基本
の画像出力が得られるなら、それは悪くは無いですね。
【本段落は一旦評価保留にします。】

Stable Diffusion Video （SVD）機能の実装も未確認です。
Stable Diffusion Web UI Forge でも AUTOMATIC 1111 版より
劇的に改善されたものの、動画化は Leonardo.Ai や Runway Gen2
を現状では多用しているので、喫緊の確認も不要でしょう。

うっかりへんてこな日本語版 UI が出来てしまったこともあり、
Stable Diffusion Web UI Forge 登場時のように、即環境の完全移行
の意気は高まりませんが、当面、使い勝手や描画結果、関連記事
などの動向を見守りましょうか….。

【2024/06/22 追記】

この記事には続編となる 2 記事があります。
内容訂正・追加の情報もありますので、併せてご覧頂ければ幸甚です。

ご覧いただきありがとうございます。

この記事が参加している募集

#AIとやってみた

28,199件

書いてみる

締切: 7月23日

この記事が気に入ったらサポートをしてみませんか？