見出し画像

画像生成AIで遊んでみる

最近、chatGPTのような対話型AIやMidjourneyなどの画像生成AIに興味が出ていろいろと試しています。
今回は画像生成AIを試してみようと思います。画像生成AIはプロンプトと呼ばれるテキストで生成する画像の指示を行いますが、そのプロンプトをいろいろ変えてみて、画像がどのように変わっていくのかを見ていきたいと思います。

環境

自分のローカル環境にstable-diffusion-webui(AUTOMATIC1111) を構築し、それで実行していきます。構築方法についてはここでは説明しませんが、noteの記事を探すといろいろとヒットすると思うので、そちらを参照いただけたら、と思います。
私の環境を紹介すると以下のとおりです。低スペックなので快適とはいえませんが、それでもそれほどストレスなく動いています。

  • CPU:Intel Core i5-8300H CPU 2.30GHz

  • RAM:16 GB

  • GPU:NVIDIA GeForce GTX 1050 (VRAM 4GB)

  • OS:Windows 11 Home (22H2)

今回、stable-diffusion-webuiで使用したモデルは chilled_re-generic です。プロンプトに使ったワードが "girl" なので、品質の良い画像が得られるかなと思いました。

プロンプトと生成画像

"a girl"

シンプルに "a girl" と入力した画像が以下です。
輪郭がなんかぼやけた感じですね。

"a girl"

"portrait of a cute girl"

"portrait of" を追加してみました。ついでに "cute" も追加(笑)
良い感じになっていますが("cute" が効いているのかな?)、手の部分が破綻しているものがありますね。

"portrait of a cute girl"

"portrait of a cute girl, ultra photorealistic, highly detailed, HDR, 8k, sharp focus"

さらに精細に描画するようなキーワードを追加しました。"ultra photorealistic"("超"フォトリアルな)、"highly detailed"(高精細)、"sharp focus"(しっかりと合ったピント)などです。
どのワードがどれくらい影響しているのかわかりませんが、さらに良い感じになったと思いますが、いかがでしょう?

"portrait of a cute girl, ultra photorealistic, highly detailed, HDR, 8k, sharp focus"

"portrait of a cute girl, ultra photorealistic, highly detailed, HDR, 8k, sharp focus, clear facial features, cinematic, 35mm lens, f/l.8, accent lighting, global illumination"

プロンプトを紹介する記事やのサイトを参考にさらにワードを追加してみました。カメラやライティングに関するワードですね。
でも、あまり前回と変わらないように思います。
画像生成AIは通常先に来るワードを重要視するようなので、これらのワードは後ろにあるためあまり効果を発揮していないのでしょうか。

"portrait of a cute girl, ultra photorealistic, highly detailed, HDR, 8k, sharp focus, clear facial features, cinematic, 35mm lens, f/l.8, accent lighting, global illumination"

"portrait of a cute girl, ultra photorealistic, highly detailed, HDR, 8k, sharp focus, clear facial features, cinematic, 35mm lens, f/l.8, accent lighting, global illumination, masterpiece, trending on artstation, approaching perfection"

さらにワードを足しました。他の人のプロントを見るとよく出てくるワードです。"masterpiece"(傑作)、"trending on artstation"(artstationのサイトで流行中)、"approaching perfection"(垂涎の的 - よだれがでるほど欲しい)。
やはり前回同様、あまり変化はないように思います。前回と同じ理由で後ろにあるため効いていないのだと思います。

"portrait of a cute girl, ultra photorealistic, highly detailed, HDR, 8k, sharp focus, clear facial features, cinematic, 35mm lens, f/l.8, accent lighting, global illumination, masterpiece, trending on artstation, approaching perfection"

"portrait of a cute girl, masterpiece, trending on artstation, approaching perfection, ultra photorealistic, highly detailed, HDR, 8k, sharp focus, clear facial features, cinematic, 35mm lens, f/l.8, accent lighting, global illumination"

では、ということで、"masterpiece" から後ろの部分を "a cute girl" の直後に持ってきました。
やっぱりあまり効いていませんね。よく考えてみると傑作とか流行とかあいまいですよね。

"portrait of a cute girl, masterpiece, trending on artstation, approaching perfection, ultra photorealistic, highly detailed, HDR, 8k, sharp focus, clear facial features, cinematic, 35mm lens, f/l.8, accent lighting, global illumination"

"portrait of a cute girl, cinematic, 35mm lens, f/l.8, accent lighting, global illumination, highly detailed, HDR, 8k, sharp focus"

最後に、あまり変化がなかったカメラやライティングの記述を "a cute girl" の後ろにもってきました。"clear facial features"(目鼻立ちの整った)は削除しました(なぜか、顔が白くなってしまったので)。また "masterpiece" などのワードも駆除しています。
なんとも言えませんが、ライティングが反映されているようにも思います。品質に関するワードが後ろに行ってしまった関係なのか、精細さには欠けたように感じます。

"portrait of a cute girl, cinematic, 35mm lens, f/l.8, accent lighting, global illumination, highly detailed, HDR, 8k, sharp focus"

さいごに

プロンプトは単純なものよりはある程度の修飾が必要ですが、あまり多すぎでも変化がないのだな、と思いました。
これからもいろいろと試してみたいと思います。
そのときはまた記事にしたいと思いますので、また読んでいただけると嬉しいです。

高性能なGPUがちょっと欲しい気もしてる…


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?