見出し画像

【初学者〜狂学者まで】画像生成AI Stable Diffusion環境 (Windows用) 7種レビュー!【2023年総まとめ】

この記事では画像生成AIの代表格Stable Diffusion(以下SD)を自分のPCで遊ぶためのソフトについて語ります。画像を生成する画面(フロントエンド・UIなどと文中で使います)についての紹介を中心に、画像生成をサポートするアイテムについても触れていきます。サムネの大賞とかは釣りです。

どうもこんにちわ、業務で最も使った環境はFooocus+SDXLだったカガミカミ水鏡です。皆さんは画像生成AIを楽しんでますか? TLなどでは「AI画像に息吹や魅力を感じられない」や「想像以上に出来ることが限られてたので飽き気味」など聞こえてくるようになった昨今ですが、そんな時は気分を変えて、別の画像生成環境を試して見るのはいかがでしょうか?

この記事は生成AIアドベントカレンダーの12日目の記事で、最初はAnimateDiffの話でもしようと思ったのですが、ここ数週間で技術が陳腐化しました。はええよ。

なので宗旨変えして、画像生成AIを普段から触っている方向けに、いつものWebUIばかり触ってて飽きた人向け記事として「【狂学者向け】貴方の知らないStable Diffusionクソマイナー実装」と題して変なUIで画像生成してみようぜ! ……と紹介しようとしてました。

だけどなんか今から画像生成AIを自分のPCで楽しみたい! という変人向けにも書けそうな気がしてきたのでコレ書いてます。あ、普通の人はまずWebサービスの「NovelAI」「AIピクターズ」「ちちぷい」あたりから触るといいっすよ。

なので、初めての方の道しるべ的にも書きますが、俺自身はそれほど掻い摘んでは説明しないので、分からないところは基本googleやchatgptで調べてください。生成AIでしか使わない用語も説明抜きでバシバシ使っていくので、気になったらその度に調べてみてください。 また詳しい方へお願いがあり、以下内容に誤記などあればその旨ご連絡ください。


おすすめハード(パソコン)

本題に入る前に、ちょっと寄り道として、画像生成をローカルで遊ぶとして最適な環境について考えて行きましょうか。

さてローカルで生成するとなると、とても良いGPUとそこそこ良いCPUが必要になります。GPUについては以下のチャートでnVidia Gecorce RTX3060以上のpassmark scoreのもので、かつVRAMが12GB以上のものが最もコスパ良いです。AMD RADEONとIntel ArcブランドのGPUは、限界自作オタクだけが楽しめる茨の道です(詳しくはDirectML Stable Diffusionで検索)。


CPUについては(GPUよりかは依存度が低いですが)、まあpassmark scoreで最低でも15000、理想は25000以上あると良いです。


今から画像生成AI始めるとして、この辺をこれから買うなら、まあ「組む」という選択肢が取れる人なら自作PCが最もコスパ良いのですが、「買う」場合、すごいオススメがあります。

それは、NECのPCです。 金利0の24回払いローンが組めるなら買っとけ
※ この辺は終売になったら消します

GPU: RTX3060 12GB
CPU: corei7-13700F (Fなのが良い)
SSD: 1TB (メーカー系PCはここケチり気味なので珍しい)
おまけ: Adobe Creative Cloud Photoプラン1年分 (!?!!? 約23,000円お得)

俺は自他共に認めるアンチAdobeですが、後加工にphotoshop使うシーンあるし、photoshopの生成AI機能も優れているし、一部モリサワや筑紫のフォントも使えるし、画像管理にlightroom使ってもいいので、ぜひ1年使ってみて欲しいです。Adobe CC除いてもコスパいいのにコレがつくのはチートすぎる。

俺もまさか人生の中でNECのPCをオススメする日が来るとは思いませんでしたが、なぜコレを勧めているのかというと、もう業務で得意先に納品し終わったからです。

※ 納品物をバラさせて頂いたのですが、スペック非公表だった電源は500W 80PLUS pratinum、M.2 SSDは大きめのヒートシンク付、RTX3060はケースポストにて支えるステー付と至れり尽くせりの構成でオススメ度合いが爆増しました


ソフトを入れる為のソフト編(必須ライブラリ・管理ソフト)

さてハードの要件を満たしたWindows PCを用意した後は、画像生成……するために、事前にインストールしておく必要のあるソフトがあります。それが「Git」「Python」なのですが、これは結構インストールするのがしんどくて、下手に進めると動かなかったりなどのトラブルが多発するものなので、これらの必須ライブラリに加えてStable Diffusion WebUIなどを簡単にインストールするものを使うのが良いです。

Stability Matrix(おすすめ)

その中でも最もオススメするのがStability Matrixです。俺は「SDXL用のStabilityMatrix(ポータブル版)」と「SD1.5用のStabilityMatrix (ポータブル版)」と、別々の環境を構築しています。

推す理由は「複数のSDフロントエンドがインストールできる」とか「モデルが一元管理できる」とか色々あるのですが、とりあえず「GitとPythonがこのソフトの中にインストールされている」とだけ覚えておいてください。PCの環境を汚さずに遊べるのは画期的すぎた。これが出る前は自前でGit+Pythonをインストールするか、それらとStable Diffusion webui automatic1111を自動的にインストールするスクリプトやソフトなんかを使うのがメジャーだったのですが、「もう今はStabilityMatrix使っとけ」と声明出すほどに優れてます。

StabilityMatrixについては日本語ブログでも色々と紹介されてるので調べてみてください。


SEAIT

もう一つの管理ソフトとしてはSEAITがあります。こちらはGitとPythonをパソコンにインストールするタイプで、この管理画面からPCにGit/Pythonをインストールするものです。またwebui automatic1111やcomfyUIをはじめ、様々なSDフロントエンドをここからインストールできます。最近はソフト自体の更新が止まっていますが、まだ現役で使えるかと。とはいえモデル管理あたりが少し煩雑なため、1、2個の環境を使い回すという用途に向くかな。


Git+Python(エンジニア向け)

もちろんこれらを自分で入れて、他のStable Diffusion実装を自前で入れるのもアリです。なおPythonは3.10を(人によってはvenvやpoetryなどで)環境作ってください。3.11は時々動かない機能が出るかも。3.12はアカン。gitについてはバージョン依存がそれほど無いと思います。


画像を生成する為のソフト編(StableDiffusionフロントエンド レビュー)

さてここからが本題。Stable Diffusionを使うためのソフト、Stable Diffusionフロントエンドと呼んでいきますが、それらを「触り始めの初学者向け」「作品づくりやデザイン業務に使う用途を見込むクリエイター向け」「画像生成AI自体が大好きすぎてトラブルまで含めて楽しめる極まったマゾというか狂学者向け」の3項目に分けてオススメ度を★1から★5を割り振ってみました。アアル村へようこそ!

※ 以下から紹介するSD環境において、特記事項がない限りは、全てStabilityMatrixのタブ「Package」からインストールできるものです。 それ以外の場合は公式URLを記載します。

御三家①:Fooocus
難しい用語一切不要、最もカンタン・シンプル!

Model: OOO beta3.1 Upscale不要でクオリティ確保できる為fooocusとシナジーがあるSDXLモデル
  • 初学者:★★★★★

  • クリエイター:★★★・・

  • 狂学者:★・・・・

ControlNetなど画像生成AI開発にて数々のブレイクスルーを残してきたlllyasviel氏によるSDXL専用の実装。とにかくUIが簡素で、生成AI特有の用語も少ないためとっつきやすいです。機能も必要最小限ですが、速い生成速度で、かつ美しい画像を出せるので、「右も左もわからない状態の人が使う」という用途に、非常に向いてます。

といいつつ俺は広告業務で画像生成AIを使いますが、素材作りで使うのはコレ。画像生成AIに詳しくない方に説明する時も大体コレ。fooocusはユーザーも多いので、情報も集めやすいですよ。


御三家②:Stable Diffusion WebUI ( automatic1111 / A1111 )
一番有名! 使いやすくて拡張機能も豊富

MODEL: kimix_am クリッとした大きな瞳が特徴のアニメ塗りSD1.5モデル
  • 初学者:★★★★・

  • クリエイター:★★★★・

  • 狂学者:★★・・・

SD実装で最も有名なソフトが、automatic1111氏が中心となって開発しているStable Diffusion WebUI automatic1111版(以下A1111)。一番最初に使うなら前述のfooocusかコレにしときましょう。日本語化も可能だし、他の開発者が様々な拡張機能を提供してくれています。日本語の情報も豊富なので、困っても検索すれば大体情報が出てくるのが良いですね。

あ、拡張機能はとりあえず「ControlNet」は絶対入れといてください。「a1111-sd-webui-tagcomplete」「ADetailer」も必須級でオススメかな。

【2024-03-10追記】現在はStable Diffusion WebUI Forgeという、全く同じ使い勝手で、かつ低スペックのGPU(VRAM6GBとかでも)で、更に高速に使えるというよくばりセットな実装が出ています。こちらの方がオススメ。StabilityMatrixからでもインストール可能。


御三家③:ComfyUI
無限の拡張性を秘めたノード方式UI。高速生成も魅力

Model: Caili | AnimeCuteXL 2D Turbo+LCM 高速生成とクオリティを両立したSDXLモデル
  • 初学者:★★・・・(AI生成の過程を理解したいなら⭐︎5)

  • クリエイター:★★★★★

  • 狂学者:★★★・・

ノードと呼ばれる1つの機能を有したボックスを複数配置して結線していくことで、ソフトの処理を作り上げていくノード形式のSD実装。DTM経験者ならMax for Live、またDTV畑ならDavinci ResolveのFusionに近いと言えば解るかしら、つまり柔軟で幅広いワークフローが組める訳ですね。とっつきにくいですが、コレで特定の機能を実現するプリセットがcivtaiなどで配布されています。そのjsonファイルか、comfyUIで生成された画像を画面にドラッグ&ドロップすれば設定が再現できるので、最初は「ワークフローは自分で組まなくても良い」と考えて触ると良いでしょう。

また生成AIは数週間おきに新しい技術が出てくるんですが、一番早く楽しめるのはComfyUIという事が多いので、生成AI自体に興味がある人や、新しいもの好きの方にもオススメ。特に最近評判になったstable video diffusionやAnimateAnyoneなどAI動画系を試したいクリエイターは必携。

生成速度が速いのもポイント! 消費VRAM量が他よりも少ない為、VRAMが10GB未満のGPUをお使いの方には第一候補になります。

あ、使う際は「ComfyUI Manager」を入れとくと便利っすよ。


ComfyUIのUI:Inference(Stability Matrixビルトイン)
ComfyUI譲りの高速生成を備えた、シンプルに使える

MODEL: BluReproImagine XL 複数の名作モデルを組み合わせた2.5次元系SDXLモデル
  • 初学者:★ ・・・・

  • クリエイター:★★・・・

  • 狂学者:★★★★・

実はここ3ヶ月、俺が最も使ったのはコイツです。

先に紹介したStabilityMatrixのソフトに内蔵された生成環境です。実は裏でComfyUIが動いており、A1111よりも遥かに高速に生成できます。とっつきにくいけどVRAM消費が低く生成速度の早いComfyUIを、シンプルな操作で大量生成できるのが◎。右端の生成画像サムネもなかなか便利。ドラッグ&ドロップでのプロンプト再現も可能。複雑な機能を使わず、雑にAIガチャを回して名作をチェリーピックしていく用途には非常に向きます。新モデルやLoRAの試し出しにもオススメ!

ただ、A1111やComfyUIよりも機能・拡張性に劣ります。Hires・Refiner・FreeU・LCM sampler辺りは使えるものの、ControlNetやInpaintなど使えないのが欠点(ControlNetは1ヶ月後くらいに追加されそう!)。また、たびたび強制終了するなど不安定な要素もありますね……。

以下は俺が使い始めた当時のツイート。


改造フォーク版①:RuinedFooocus (Fooocus機能拡張版)
FooocusでControlNetを使いたい人向け。プロンプトサポートも⭕️

MODEL: Blue_Pencil-XL 動物も女の子も出せる定番SDXLモデル
  • 初学者:★★★・・

  • クリエイター:★★★★・

  • 狂学者:★★★★・

ここからはフォーク版ソフトの紹介です。先程紹介した御三家の機能追加版といったところですね。ただ公式よりも動作が不安定気味になるので、その点はご注意。エラーに悩まされたらアップデートするか、入れ直すか、使うのを諦めるのが肝心。

で、フォーク版の中でも屈指で使いやすいと思うのがRuinedFooocusです。Fooocus公式はプライバシー保護を重視し(画像生成AIソフトの中では珍しく)生成された画像に生成情報のデータを追加しない方針がありますが、こちらの場合はガッツリ書き込むなどの違いがあります。これによりRuinedFooocusで作られた画像を画面にドラッグ&ドロップすることで生成時の状況が再現できるんですね。

他の機能で個人的に面白いと思ったのは画像の「EVO」。プロンプトを入れて1-9のボタンのどれかを押すと、画像を9枚生成するのですが、それぞれに別の画質向上系プロンプトを付与してくれるので、ガチャの幅や表現が広がって、普通に楽しいっすねコレ。一度試して頂きたい。

欠点としてはフォーク版全てに言えることですが時々不安定になるところ。モデルが選択できなかった時があり、アップデートしたら治った、みたいな事が一度ありました……が、フォーク版の中でも安定して使える印象があります。もう一つの欠点は……日本語の情報が皆無なとこ。 割とマジで、俺しか使ってないのでは……?

※ このソフトは現在のStabilityMatrixでインストール出来ませ…………→記事公開翌日、StabilityMatrix v2.7.0で追加されました!


改造フォーク版②:SD.Next ( vladmandic版automatic A1111機能拡張版)
A1111開発版ベースの超多機能環境

MODEL: LimeremixMOJITO_v40 32bitエロゲおじさん好みの絵が出るSD1.5モデル
  • 初学者:★・・・・

  • クリエイター:★★★・・

  • 狂学者:★★★★★

フォーク版の中では恐らく一番有名。A1111開発版(不安定版とも呼ぶ)に独自機能をぶっこみまくったフロントエンドですね。本家よりも早くSDXLに対応したこともあり、日本語の情報もそこそこあります。最適化の効果もあり、本家よりも生成速度が早いです(が、comfyUIには負けるかな。ただこれは記事執筆時点のA1111 v1.6との比較でありv1.7の最適化が入ったら同じ速度になりそう)。

本家は最初から入っていないControlNetなど便利拡張が粗方入っていたり、Stable Diffusionの競合となる画像生成AIシステムの Kandinsky , Pixart-α , Würstchen , DeepFloyd IF , UniDiffusion この辺りが使えるので、いち早く新しい機能を使いたいエンスーにはたまらない環境ですね。個人的にはKandinskyが好き。

この記事を書くに当たって久しぶりに試してみたんですが、結構UIに魔改造が入って操作に迷いましたね……とはいえこの速度がA1111の拡張とともに使えるのはアリっちゃアリなので、色々使い倒してみたいです。数ヶ月前よりも安定感ある気もしますし。


オリジナル実装:InvokeAI
商用ならではの使いやすさ! Unified Canvasも魅力

MODEL: Baka-Diffusion[General] 2.5次元系らしい繊細な表現が可能なSD1.5モデル
  • 初学者:★★★・・

  • クリエイター:★★★★・

  • 狂学者:★★★★・

ビックリした。めっちゃ使いやすい。オススメですわコレ。微妙に日本語対応もされてるのねこれ……

InvokeAIは公式サイトでサブスクリプション版SaaSとしても展開されており、商用サービス由来の品質の良さを感じました。生成速度もA1111より少し早いかな(この辺ベンチマーク取りたいですね)。またupscalerの扱いも良く、アウトプットの解像度を高くしても(他の環境のように)破綻しないので、裏でうまいことTileやってるんだなと感心。

InvokeAIの魅力といえばUnified Canvas。Photoshopで最近実装された「生成拡張」みたいな機能を、Photoshop実装前に実現してました(と記憶してるけど違うかも)。ある画像の上下左右の空白を、その画像を参考にしながらプロンプトに従い続きを作ってくれるもので、他の環境や拡張機能でも同様のことはできるのですが、GUIで操作できるので非常に快適でわかりやすい。これは一度触ってみてほしい!

また一番驚いたのはComfyUIのようなノードを組んで生成する機能ことワークフロー。A1111やcomfyUIほどには拡張性が無いと思ってたんですが、やろうと思えば色々とできる! ……この記事のサムネの中央、ComfyUIだと思った? 実はこのInvokeAIワークフローでした。

なお最大の弱点は、日本語はおろか英語圏でも情報が足りなすぎる点。workflowのサンプルも公式civitai4件程度。とはいえ公式ドキュメント(英語)が整備されているのが救いでしょうか。

あ、StabilityMatrix上から起動する場合、なんか「1か2選べ」みたいなこと訊かれるので、SD1.5モデルを使うときは1、SDXLは2とかにしといてます。それを「インプット」と書かれてるとこに半角数字で入れといてください。

ぶっちゃけ何を言っているのか何の数字が正しいのか解らない……俺たちは雰囲気で生成している


【おまけ】オリジナル実装:Draw Things
( Apple Silicon用 Mac / iPhone / iPad )

MODEL: Hotarubreedアニメ寄りから2.5次元まで絵柄が選べるSD1.5モデル(画像はAnimeMix)

Windows用から外れますが、お手持ちのApple端末から生成する時はコチラ一択でいいかと。俺はiPadAir(M1)しか持ってないので使えそうな人はstoreから入れて試してみてください(ぶん投げ)。M1だと生成速度はGeforce RTXと劣りますが、LCMも使えるので、実用速度にはなったのかなと。アプリからcivitaiやhuggingfaceのモデルをダウンロードできるのが良いですが、まあ容量圧迫するので気をつけて。 いやホンマはコイツでSDXL試したいねん……やけども原神アンインスコせなあかんねんな……


チラシの裏:その他の環境について

Fooocus-MRE・NMKD Stable Diffusion GUI・Stable Diffusion GRisk GUI
アップデートがご無沙汰。やめとけ。

StableDiffusion WebUI UI-UX
UIが最適化されてるそうですが、SDのボトルネックはそこじゃねえんだよな……UXは本家の方がマシでした。

VoltaML
AItemplateやTensorRTなど数々の高速化に対応したというのがウリでしたが実質Linux専用だったのが辛い。今ならComfyUIでええやんってなります。最近のリリースノートを見る限り、開発速度の競争にも負けてます。

enfugue
LCMなど最近の技術も追従できていて、レイヤーが使えたり生成後画像補正が完結できたりAnimateDiff PromptTravel でタイムラインも使えるなど独自性が強く将来有望株……なんですが、「生成した画像をupscaleするとseedが狂って別のでけえ画像が出る」「upscaleのSteps初期値が100なので普通に使うと天文学的な時間がかかる」「FreeUの初期値が大雑把すぎて普通に使うと品質が下がる」「フリーズがクソ多い」など狂学者でも楽しめなかったのでご紹介できません。


終わりに

駆け足で紹介しましたが、普通は「御三家」として紹介している3つのフロントエンドどれかを中心に使う方がオススメです。なんですが、ちょっと飽きてきた時、別の環境も触ってみたくなったりした時、または特定の用途があるときに、他の選択肢も視野に入れてみてほしい、と言うのが、俺の考えです。

さて2023年のSDフロントエンドを振り返ってみて思うのは、優れたフロントエンドはユーザビリティをもたらしただけではなく、その拡張性によって更に新しい技術をもたらしたケースも増えて来たのかな、と思います。それを痛感したのは2023年頭から登場したComfyUIでした。A1111の「negative prompt」の概念がそうだったように、ComfyUIの登場により様々なUNetの改造が進んだり、動画のワークフローが構築されたり、従来コードを書かないと出来なかったことがノードモジュラーの登場によりコモディティ化ないしトライアンドエラーが容易になりました。結果生成AI界隈の進化が劇的に進んだのかなと考えています。FooocusもComfyUIからインスパイアを受けている訳ですしね。

この記事のサムネを「釣り」と言ったものの、仮に俺が「2023年度 SD環境大賞」を選んでいいのならば、ComfyUIがその称号にふさわしいでしょう。

そう考えると、来年2024年はどんなUIが台頭してくるんですかねー。AI動画が非常に盛り上がってきたので、個人的には、既存の動画編集アプリのようなUIが出てきてほしかったりします(それを期待してenfugueというUIをいじり倒してたんですが、そうはならなかった。そうはならなかったんだよロック)。

今年の俺はnoteで記事を書き始めて、いろんな方に見てもらう機会、知っていただく状況が多くて、中々エンジョイ&エキサイティングな一年でした。また職務でも一層AIの利用が増え、本業以外でもゲーム会社の方々にご説明に上がる機会なども増えました。noteのコメントやらtwitterなどでもお声頂ければ参上しますので、お気軽にご連絡ください!

それでは引き続き、生成AIアドベントカレンダーをお楽しみください!


この記事が気に入ったらサポートをしてみませんか?