Stable Diffusion WebUI v1.7から、Interrogate CLIP/DeepBooruの位置が変わりました
Stable Diffusion WebUI v1.7で、Interrogate CLIPがテキスト付きのボタンから📎マークのボタンになりました。
v1.7のリリースノートを見ると、次のように記載されています。
Interrogate CLIPのボタン化は、UIページ改善の一環なんですね。ちなみに該当のコミットはこちらです。
そもそもInterrogate CLIPとは?
CLIP(Contrastive Language–Image Pre-training 、対照的な言語 – イメージの事前トレーニング | OpenAI)に対してInterrogate(尋問する)という意味で、選択した画像をAIに文章で説明してもらいます。
その右側には、Interrogate DeepBooruもありますね。DeepBooruはDanbooru系サイトで使われているキャプション生成ツールだそうです。
Interrogate CLIPを使う上で気にすることは?
Interrogate CLIPを使う上で気にすること、特に選択中のモデルはキャプション生成に関係するのか?を調べました。結論から言うと、モデルは関係ありません。
キャプション生成に使うモデルは、Stable Diffusionのモデルではなく、OpenAIが公開しているCLIPのモデル(ViT-L/14)だからです(ソース)
Interrogate CLIP/ DeepBooruで、AIグラビアを再生成してみた
Interrogate CLIP / DeepBooruで生成したキャプションで、AIグラビアを再生成します。元の画像はこちら。
Interrogate CLIPで生成したキャプションから再生成した画像。
Interrogate DeepBooruで生成したキャプションから再生成した画像。
Interrogate CLIPでは写真を様々なジャンルのアートから推定しているのに対して、Interrogate DeepBooruではジャンルは問わずに属性を推定しているように見えますね。
まとめ
Stable Diffusion WebUI v1.7では、📎のアイコンからInterrogate CLIPを使って画像のキャプションを生成できることが分かりました。
この記事が気に入ったらサポートをしてみませんか?