見出し画像

Stable DiffusionとM3 MacBook Air

(※まだ初心者なので知らないことも多々あり、コメントをいただければ対応する方針…)

M3 MacBook Airのローカルな環境で画像を生成するAIをいくつか試している。
環境 : 8コアCPU、10コアGPU、16コアNeural Engine搭載、16GBメモリ

環境構築の前提として「Google検索してもエラーに対処できない場合」もあるので、「Homebrew」という単語を聞いて「???」となってしまうレベルだと、Macのローカル環境での画像生成はあまりオススメできない。
「Stability Matrix」という、ポチポチとボタンをクリックしていけばAIの環境を構築・起動できるアプリケーションもある。(Mac版もリリースされてはいるが、詳細な起動オプションが設定できないなど、まだまだ改良の余地がある)

今のところ、試したものが3つあり、それぞれにメリットとデメリットがある(ような気がする)。

1) Stable Diffusion WebUI AUTOMATIC1111 + SD 1.5系学習モデル

1枚の画像生成にかかる時間は5分から10分くらい。
ちょっとお馬鹿なAI相手にプロンプトを投げる感じ。
メリット : センシティブな画像を生成しやすい。グラビア写真系の画像を生成したい場合、制限があまりない。
デメリット : プロンプトのトークン数が多くなるので、意図した通りの精密な画像、あるいは構図が複雑な画像を生成するには拡張機能を導入したりするなどの工夫が必要になる。

2) Stable Diffusion WebUI AUTOMATIC1111 + SDXL系学習モデル

1枚の画像生成にかかる時間は15分から20分くらい。
賢くなって物わかりがよくなったAIにプロンプトを投げる感じ。
メリット : プロンプトのトークン数が少なくて済む。ネガティブ・プロンプトを細かく設定しなくても、高画質な画像が生成される。
デメリット :
・SD 1.5系とはかなり違うので経験を活かしにくい。経験値がレベル99からレベル30まで下がるくらい。
・(公序良俗に反するような)センシティブな画像は生成しにくい。

3) Mochi Diffusion

言葉にすると伝えづらいのだが、このAIはプロンプトをホントに理解しているかどうかは分からない感じ、がある。
メリット : Apple謹製のAI処理系であるCoreMLを使うので、(学習モデルにもよるが)生成速度が速い。1枚の画像生成にかかる時間は5分以内から20分くらい。
デメリット :
・生成される画像のサイズは導入する学習モデルのパッケージに依存する。パッケージが対応していない場合、サイズを指定して画像を生成することができない。
・SDXL系の学習モデルでも、AUTOMATIC1111と組み合わせたほどの高い画質は望めない。

補足

Stable Diffusion WebUI Forge を試してみたが、生成速度、メモリ使用量ともにMac版はまだ理想を実現しているとは言えないレベル。

詳しいことはこちらの記事をどうぞ。


この記事が気に入ったらサポートをしてみませんか?