【DALL-E】画像生成の基本的なプロンプトを学び直し②：対象物の説明は具体的に、詳細に

2024年5月12日 22:51

前回に引き続き2回目です。
参考にさせていただいているサイトは以下です。

画像生成における修飾語の重要性

画像生成、ひいては現実において、あるモノをイメージする際に重要になるのが「修飾語」です。

いわゆる「どのような」「どんな感じの」といったような言葉です。

それは形であったり、色であったり、雰囲気であったり対象物の属性によって多様に変化します。

画像生成のプロンプトにおいては、
画像の出来を大きく左右するほど重要になります。

人間なら、説明されたイメージを思い浮かべる時、ある程度共通認識的な部分で、それらしく内容を補完することができます。

一方、生成AIは説明された以上のことはくみ取ってくれません。
あくまで現実に即した（本当にそれが正しいかは別）ものに従って反映されます。

巷ではよく「AIには常識がない！」と批判されますが、まさにその言葉が今になって響いてきます。

自由の女神の画像を生成してください。

今回は上記のプロンプトを起点に試してみます。
修飾語を使いこなせれば便利だよ！という点を知っていただけたら幸いです。

マンガ調の自由の女神の画像を生成してください。

上記のプロンプトのように全体的な画像の雰囲気を最初に指定すると、
割と意思をくみとってくれることが多いです（あくまで体感です）

マンガ調で、30cmの大きさである、自由の女神の画像を生成してください。

また、数値での指定には弱いです。
上記では全長30cmと指示しましたが、画像内で示しているだけで、いまいちです。

マンガ調で、鉛筆と同じ大きさである、自由の女神の画像を生成してください。

数字がダメなら対象物との比較でどうだ！となりましたが、これも微妙です。
いかにAIが書かれたことのみ忠実に実行しているかが分かりますね。

マンガ調で、ペンケースに鉛筆ととも入っている、自由の女神の画像を生成してください。

今度は状況を設定してみました。
なかなかファンキーな状況ですが、ニュアンスはあってますね。

マンガ調で、ペンケースに鉛筆ととも入り、男性にペンとして使用されている自由の女神の画像を生成してください。

自分でも書いてて意味が分からなかったですが、やっと意図が伝わるような画像が生成されました。しかしながら、手の位置や大きさなど違和感のある部分が多いです。

上記の例で、修飾語の具体性がいかに重要かが感じていただけたかと思います。
文字を増やしすぎると逆に意図が伝わらないといった不具合もあるにはあるのですが、とにかく画像を詳細に説明することは重要だ、ということが分かればよほど頓珍漢な画像は生成されない…はずです。

この記事が気に入ったらサポートをしてみませんか？