Stable Diffusionのバージョン解説とWebUIの種類について

2024年9月27日 23:02

Stable Diffusionを使う際、まず知っておきたいのがStable Diffusion自体のバージョンの違いです。代表的なバージョンがあり、それぞれ一長一短があります。今回は、特に重要なバージョンであるSD1.5、SDXL、Flux1について解説します。

また、生成作業を実際に行うためのツールとして、よく使われるWebUIの種類（Automatic1111、WebUI Forge、ComfyUI）についても説明します。

1. Stable Diffusionのバージョン

Stable Diffusionは、バージョンごとにモデルの性能や生成される画像の特徴が異なります。特に以下の3つのバージョンは広く使用されており、公開されているチェックポイントやLoRAは同一バージョンで揃える必要があるので注意してください。

SD1.5 (Stable Diffusion v1.5)

SD1.5は、Stable Diffusionの最初期の安定したバージョンで、多くのユーザーが利用しているモデルです。多様なチェックポイントやLoRAが公開されており、リアルな画像からアニメ調の画像まで、幅広いStyleに対応する汎用性の高いバージョンです。
画像サイズのベースは512×512です。

- 長所: 軽量であり、初心者でも使いやすい。多くのチェックポイントやLoRAとの互換性が高い。
(計算リソース目安:GooglecolabのT4GPUハイメモリで1.84/hで十分に生成可能)

- 短所: 単純な生成結果だと顔の品質が低く、品質を確保するには拡張機能(Adetailerなど)を使わなければいけない。指は崩れやすい

SDXL (Stable Diffusion XL)

SDXLは、SD1.5よりも大規模で高解像度の画像を生成するために最適化されたバージョンです。特に細かいディテールや複雑な構図の画像を生成する際にその力を発揮します。
画像サイズのベースは1024×1024です。

- 長所: 使いこなせると質の高い画像を生成できる。

- 短所: Refinerを使った再生成などにより、計算量はSD1.5から明らかに増加している。
指が相変わらず崩れやすい。

Flux1

Flux1は現時点最新のモデルであり、Flux1の中にも種類があり、生成スピード重視のschnell、高バランスのdev、とProの3種があります。Proが最高品質ですが、Local環境で使えるのはschnellとdevのみとなります。
画像サイズのベースは1024×1024です。

- 長所: 簡単なプロンプトでも驚異的な品質での生成が可能な上、プロンプトに対する反応や忠実度、再現度も高い(主観)
良くも悪くも、ネガティブプロンプトが原則不要です。

- 短所: チェックポイントのファイルサイズが、通常で20GB程度にもなり非常に大きい。軽量化されたチェックポイントでも10GB程度は必要で、更に計算量も多く、生成には高いGPU能力とメモリが必要
(計算リソース目安:GooglecolabのL4GPUハイメモリで4.82/hで生成可能、T4GPUではメモリ不足で生成不可)

2. 画像生成を行うWebUIの種類

Stable Diffusionを使って画像を生成する際、WebUI（ユーザーインターフェース）を使用すると、効率的かつ視覚的に作業が進められます。代表的なWebUIとして以下の3つがあり、それぞれに特徴があります。

Automatic1111

最もポピュラーなWebUIであり、多くのカスタム機能や拡張が利用可能です。特に初心者にとっては使いやすく、コミュニティも活発でサポートが充実しています。

- 長所: 拡張機能が豊富で、カスタマイズ性が高い。安定したパフォーマンスが期待できます。

WebUI Forge

今回の生成で使用するForgeは、パフォーマンスの最適化、メモリ処理に優れたWebUIで、生成速度が早く、大量の生成や連続処理に強いのが特徴です。UIも使いやすく、生成プロセスを効率化できます。

ComfyUI

ビジュアルプログラミングに近い操作性を持つWebUIで、画像生成の各ステップを細かく制御できます。ノードベースで、複雑なプロンプトや生成プロセスを視覚的に管理できるのが特徴です。

- 長所: 高度なカスタマイズが可能で、細かい生成パラメータを視覚的に調整でき、プロフェッショナル向けの高度な生成に向いています。

- 短所: このNoteの目標であるスマホ環境での生成においては、UI立ち上げはできるものの使い勝手は決して良くはないと考えます。

3. 好みのチェックポイントやLoRAを探してダウンロードする

これまで書いてきた内容を前提とし、好みのチェックポイントやLoRAを選択、ダウンロードして、自分のGoogle Driveに配置していきます。

チェックポイントとLoRAの探し方

- Hugging FaceやCIVITAIのプラットフォームで、多くのユーザーが共有しているカスタムモデルやLoRAを探すことができます。これらのサイトで、目的に合ったスタイルやキャラクターを探してダウンロードします。
画像があるCIVITAIの方が直感的に探しやすいかと思います。

ダウンロードとGoogle Driveへの配置

1. 好みのチェックポイントやLoRAをダウンロード
（.safetensorsファイル）

2. Google Driveにアクセスし、前述の「Models」フォルダや「LoRA」フォルダにそれぞれのファイルをアップロード。

3. Google ColabやWebUIからこれらのファイルを指定して、画像生成に利用することになります。

まとめ

Stable Diffusionの各バージョン（SD1.5、SDXL、Flux1）には、それぞれ異なる特長があり、プロジェクトに応じて適切なものを選ぶことが重要です。さらに、WebUI（Automatic1111、WebUI Forge、ComfyUI）の使い方も覚えることで、より効率的な画像生成が可能になります。

- **好みのチェックポイントやLoRAを探し、Google Driveに配置**することで、生成環境を整える

- **WebUI Forge**を使用して、連続的かつ効率的に画像生成を行う。

これらのステップを理解し、準備が整いさえしてしまえば、Stable Diffusionのポテンシャルを最大限に引き出しつつ、いつでもどこでも手のひらのスマホの上でクリエイティブな画像生成を進めることができるようになります。

次回は、Googlecolabのノートブックに記載するコードを説明します。

この記事が気に入ったらサポートをしてみませんか？