Google Colab で はじめる Stable Diffusion v1.4
「Google Colab」で「Stable Diffusion」を試してみました。
【最新版の情報は以下で紹介】
1. Stable Diffusion
「Stable Diffusion」は、テキストから画像を生成する、高性能な画像生成AIです。
2. ライセンスの確認
以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして(アカウントがない場合は作成)、同意します。
3. HuggingFaceのトークンの取得
「HuggingFace」にログインして、「Settings → Access Token」でトークンを取得します。
4. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) メニュー「編集→ノートブックの設定」で、「ハードウェアアクセラレータ」に「GPU」を選択。
(2) 「Stable Diffusion」のインストール。
# パッケージのインストール
!pip install diffusers==0.3.0 transformers scipy ftfy
(3) トークン変数の準備。
以下の「<HugginFace Hubのトークン>」の部分に、先程取得したHuggingFace Hubのトークンをコピー&ペーストします。
# トークン変数の準備
YOUR_TOKEN="<HugginFace Hubのトークン>"
(4) 「Stable Diffusion」パイプラインの準備。
from diffusers import StableDiffusionPipeline
# StableDiffusionパイプラインの準備
pipe = StableDiffusionPipeline.from_pretrained(
"CompVis/stable-diffusion-v1-4",
use_auth_token=YOUR_TOKEN
).to("cuda")
(5) テキストを渡して画像を生成。
以下では、「japanese cat skipping」というテキストを渡してみました。
from torch import autocast
# テキストからの画像生成
prompt = "japanese cat skipping"
with autocast("cuda"):
images = pipe(prompt, guidance_scale=7.5).images
images[0].save("output.png")
(6) 生成した画像の確認。
左端のフォルダアイコンでファイル一覧を表示し、output.pngをダブルクリックします。
【おまけ】 APIリファレンス
「StableDiffusionパイプライン」のpipeのパラメータは、次のとおりです。
StableDiffusionPipelineOutputのプロパティは、次のとおりです。