見出し画像

Stable Diffusion WebUI v1.7から、Interrogate CLIP/DeepBooruの位置が変わりました

Stable Diffusion WebUI v1.7で、Interrogate CLIPがテキスト付きのボタンから📎マークのボタンになりました。

Generateの下の📎の絵文字になりました

v1.7のリリースノートを見ると、次のように記載されています。

settings tab rework: add search field, add categories, split UI settings page into many

AUTOMATIC1111/stable-diffusion-webui

Interrogate CLIPのボタン化は、UIページ改善の一環なんですね。ちなみに該当のコミットはこちらです。

そもそもInterrogate CLIPとは?

CLIP(Contrastive Language–Image Pre-training 、対照的な言語 – イメージの事前トレーニング | OpenAIに対してInterrogate(尋問する)という意味で、選択した画像をAIに文章で説明してもらいます。
その右側には、Interrogate DeepBooruもありますね。DeepBooruはDanbooru系サイトで使われているキャプション生成ツールだそうです。

Interrogate CLIPを使う上で気にすることは?

Interrogate CLIPを使う上で気にすること、特に選択中のモデルはキャプション生成に関係するのか?を調べました。結論から言うと、モデルは関係ありません。

キャプション生成に使うモデルは、Stable Diffusionのモデルではなく、OpenAIが公開しているCLIPのモデル(ViT-L/14)だからです(ソース

Interrogate CLIP/ DeepBooruで、AIグラビアを再生成してみた

Interrogate CLIP / DeepBooruで生成したキャプションで、AIグラビアを再生成します。元の画像はこちら。

a cute women,denim,holding cardboard,

Interrogate CLIPで生成したキャプションから再生成した画像。

a woman holding a box in front of a stack of boxes with a smile on her face and a smile on her face, Chizuko Yoshida, girl, a stock photo, postminimalism

Interrogate DeepBooruで生成したキャプションから再生成した画像。

1girl, blurry, book, box, brown hair, buttons, cardboard box, clipboard, computer, denim, denim jacket, drawing, envelope, holding, holding book, holding paper, holding sign, jeans, laptop, lips, long hair, menu, necklace, notebook, pants, paper, pencil, photo \(medium\), realistic, sheet music, sign, sketchbook, solo, tablet pc

Interrogate CLIPでは写真を様々なジャンルのアートから推定しているのに対して、Interrogate DeepBooruではジャンルは問わずに属性を推定しているように見えますね。

まとめ

Stable Diffusion WebUI v1.7では、📎のアイコンからInterrogate CLIPを使って画像のキャプションを生成できることが分かりました。

この記事が気に入ったらサポートをしてみませんか?