Stable DiffusionをするにはGPUが必要だ。GPUを搭載したパソコンというのはBTOパソコンのサイトを見ても10万円以上するものが多く簡単には手が出せない価格のため、一般的に普及しているとは思えない
もし、CPUとメモリで処理することが出来るならばと、夢のような話を考えるわけだが、実際に出来たことを確認したので記事にする
なお、制限もあり画像生成のレスポンスの速度などは期待しないことをオススメする。ここでは、GPUを使わずに生成できるという点だけに着目すること。また、GPUを安価でしたい場合はGoogle ColaboratoryなどクラウドでGPUを使わせてくれるサービスを利用することをオススメする
前提
実行したPCの環境はこちら
今回、GPUは使用していないのだが、明らかにStable Diffusionをローカルで動かすには不安が残るスペックである。実際、Google Colabで実行しているGPUメモリの使用率と比べると明らかに足りない(今、確認してきたところ8GBは使用していた)
ちなみに、こちらのPCは自作で組み立てていることもあり、GPUはあるが、10万円以下で組み立てることに成功している(当時の値段)。もし、気になるときは下記の記事も参考にするとよい。OSとメモリとSSDを増設して前提のスペックに達して10万円以下だ
対応方法
今回、Stable Diffusion.cppを使うことで解決することが出来た
自分の記事でも取り上げているllama.cppを活用して、Stable Diffusionのモデルを量子化している
Stable Diffusion.cppのGithubに量子化と画像生成のやり方は書いてあるのでそちらを参照をすること。自分の記事では実践したことをレポートしていく
実践
実際にしたことは以下の通りである
Stable Diffusionのモデルのダウンロード
Stable Diffusion.cppのセットアップ
Stable Diffusion.cppを使ったモデルの量子化
Stable Diffusion.cppを使って量子化したモデルによる画像生成
モデルのダウンロード
Stable Diffusionのモデルは、animagine-XLとCounterfeit-V3.0を使用した。SDXLとSD1.5の量子化を行った
モデルの量子化は".safetensors"だけでもいけたモデルもあったので、コマンドラインからではなくマウスでクリックして直接、ダウンロードしてもいいかもしれない(プロジェクトフォルダ毎、ダウンロードすると容量を食うため)
Stable Diffusion.cppのセットアップ
Stable Diffusion.cppのセットアップが完了したら"./stable-diffusion.cpp\build\bin\Release"のディレクトリに移動する
モデルの量子化
それぞれ、Q8で量子化した
animagine-XLをQ8に量子化する
.\sd.exe -M convert -m .\animagine-xl-3.1\animagine-xl-3.1.safetensors -o .\animagine-xl-3.1\animagine-xl-3.1.q8_0.gguf -v --type q8_0
Counterfeit-V3をQ8に量子化する
.\sd.exe -M convert -m .\Counterfeit-V3.0\Counterfeit-V3.0_fix_fp16.safetensors -o .\Counterfeit-V3.0\Counterfeit-V3.0.q8_0.gguf -v --type q8_0
他にもfp16とQ4も量子化したが使用していない。animagine-XLをfp16に量子化したとき一時的とはいえ、メモリの使用量(総量)が20GBに上昇したときに恐怖を覚えたから(笑)Q4については後述する
量子化したモデルによる画像生成
本題だ。画像生成をしていこう
AnimagineXLで画像生成する
.\sd.exe -m .\sd.exe -m .\animagine-xl-3.1\animagine-xl-3.1.q8_0.gguf -p "masterpiece, best quality,1 girl, peace fingers" -n "(worst quality, low quality:1.4)," --sampling-method euler -H 832 -W 1216
明示的な設定値は以下の通りである。明示的に指定していない場合の他のパラメータのデフォルト値はgithubを見ること(例えば、デフォルトのステップ数は20だ)
幅:1216、高さ:832(※2)
サンプリングメソッド: Euler_a
(※2)幅と高さを逆に設定してしまった、-Hオプションと-Wオプションの指定に注意すること。感覚的にはWidthとHeightの並びで慣れていたので、よく確認しなかったのがよくなかった
Counterfeit-V3で画像生成する
.\sd.exe -m .\Counterfeit-V3.0\Counterfeit-V3.0.q8_0.gguf -p "masterpiece, best quality,1 girl, black hair, thumbs-up, smile," -n "(worst quality, low quality:1.4)," --sampling-method euler_a -H 512 -W 512 --steps 16
幅:512、高さ:512
サンプリングメソッド: Euler_a
ステップ数:16
課題
さて、CPUとシステムメモリでGPUを使わずに画像生成できることは分かったが課題がある。それは、レスポンスの速度だ。Google Colabやローカルで画像生成をしたことがある人は、1枚、何分で生成しているか思い出してみよう。自分はComfyUIをGoogle Colaboratoryで使用しているが、1枚、1分は掛からなかったのではないかと記憶している
以下の結果を見てみよう
1stepあたり108s掛かっているので30分は画像生成に時間が掛かることが分かる。他にもプロセスはあるので実際にはもっと掛かるが、1枚画像を生成するのに30分というのは流石に実用するのは難しいだろう。効率が悪すぎる。量子化することによりGPUを使わずに画像を生成できることに注目するべきだとは思うけど、残念ながら、llama.cppのときの様なLLMのシングルGPUによる応答時間より、レスポンス速度が早かった感動までは得られなかった(llama.cppは応答のレスポンスが全文返すのに1分未満、短い文章ならば20秒から40秒程度で返していたからだ。ColabのT4 GPUだとシステムメモリがt足りないせいなのかクラッシュしたり、実行できても応答に数分は掛かるなんてこともざらにあった。ローカルPCという限られたリソースの中でシングルGPUよりも高速の処理を行えるという現象が逆転してしまってメリットを感じにくくなってしまった)
以降、レスポンスの速度が上げられないか試していった
Counterfeitを見てみよう。先程はSDXLのモデルだったのでSD1.5のモデルの分、速度が向上しないか期待した
他にも
結論としては「生成する画像のサイズ」で時間が大きく変わった。
512*512のサイズで16stepを踏んだところ、1ステップ20秒という結果が出た。約、5分程度だ。30分が5分になるのであれば許容できる範囲に近付くが、1分/枚を目指したい
試しに"W:512 * H:256"、"W: 256* H: 512"のサイズでも試した
レスポンスの速度を確認しよう
1ステップが7秒であった。つまり、約2分だ
今回の画像のサイズは"512*512"のサイズから比べれば、1/2となっているので、おおよそ1ステップの処理時間と比例していると考えてもよいのではないか
ということは、Width: 256, Height: 256で1分で生成できる計算にはなる。実際に試してみたところ、おおよそ1分で完了した
.\sd.exe -m .\Counterfeit-V3.0\Counterfeit-V3.0.q8_0.gguf -p "masterpiece, best quality,1 girl, thumbs-up, smile, upper body, black background" -n "worst quality, low quality:1.4," --sampling-method euler_a -H 256 -W 256 --steps 16 --clip-skip 2
しかし、残念ながら生成結果が崩れてしまったので、これではアウトプットとして使うことが出来ない。こちらのPCのスペックでは256*512で2分~3分/枚、生成するのが自分の許容範囲では限度だ
ちなみに、他にも画像生成の際に確認したことを残しておく
LCM LORAも試したがうまくいかなかった。確かにステップ数が半分程度で済むので時間は圧縮されるのだが、絵が崩れてしまった。また、LoRAを読み込む時間も加味される
.\sd.exe -m .\Counterfeit-V3.0\Counterfeit-V3.0.q8_0.gguf -p "masterpiece, best quality,1 girl, black hair, thumbs-up, smile, <lora:lcm-lora-sdv1-5:1>," -n "(worst quality, low quality:1.4)," --sampling-method lcm -H 512 -W 512 --steps 4 --lora-model-dir .\LoRA\ --cfg-scale 1 --clip-skip 2
設定を失敗した可能性はあるので、改善する余地はあるかもしれない
とはいえ、量子化することが目的なのに、この警告は矛盾している気がしている
まとめ
GPUを搭載していないPCでも、ちょっとしたサイズの画像であれば、モデルをダウンロードしてきて量子化して試せる点はよかった
一方でGPUを使った画像生成ほどのレスポンスの速度は得られないので課題はある。どこまで自分の中で許容できるかで検討するのもよい
はじめに、Stable Diffusionも量子化すれば、CPUでも処理できるのでは?といった思いつきで調べ始めた内容であるけど、正解ではあったようだ
もう少し、速度改善が図れるようになれば、subprocessによる自作関数を作成したり、まだ、したことはないがpythonによるbindingのプロジェクトなど進めてもいいかもしれない
番外:GPUによる画像生成について
Google ColaboratoryでGPUを使って画像生成をしているが、その中で自分が躓いたことなどの対応をまとめているので、よければどうぞ
おわり!