見出し画像

【StableDiffusion】抽象的言葉がプロンプトに与える影響

はじめに

これはAbyssOrangeMix3のCivitAIのページに掲載されているサンプル画像の一枚です。

凄い画像ですよね、それがどういうふうに生成されたのかが気になって、プロンプトを見てみると、大量な抽象的な言葉が用いられていました。

masterpiece, best quality, ultra-detailed, illustration, 1girl, solo, fantasy, flying, broom, night sky, outdoors, magic, spells, moon, stars, clouds, wind, hair, cape, hat, boots, broomstick, glowing, mysterious, enchanting, whimsical, playful, adventurous, freedom, wonder, imagination, determination, skill, speed, movement, energy, realism, naturalistic, figurative, representational, beauty, fantasy culture, mythology, fairy tales, folklore, legends, witches, wizards, magical creatures, fantasy worlds, composition, scale, foreground, middle ground, background, perspective, light, color, texture, detail, beauty, wonder.

AIイラストで遊んでいると、毎日大量なプロンプトを見ることになりますが、そのほとんどは具体性のある言葉で構成されています。我々は画像に映って欲しいものをそのままプロンプトに書き込むのがおそらくプロンプト制作の一般的な考え方です。

では、一体mysterious, playful, adventurousなどの言葉はAIがどういうふうに処理しているのか、私、気になります!

AIは抽象的な単語を認識できるのか

とりあえず、playfulという一つの単語が生成に与える影響を実験しましょう。

1girl,
1girl, playful

見たところ、playfulが加えたところで、生成されたキャラの雰囲気がさほど変化しているようには見えません、なんならplayfulがない時の4枚目が一番playfulの感じがします…

料理する時も少し塩を入れても味が変わらないと感じたら、もっとたくさん塩を入れればいいように、今度はたくさんの抽象的単語を入れてみたいと思います、せっかくなので、最初に挙げたプロンプトそのもので生成して、その中の抽象的単語を全部抜いた場合の生成と比較しましょう。


元プロンプト通り
明らかに具体的事物と結びつかない言葉だけ抜いた(masterpiece, best quality, ultra-detailed, illustration, 1girl, solo,flying, broom, night sky, outdoors, magic, spells, moon, stars, clouds, wind, hair, cape, hat, boots, broomstick, glowing, skill, speed, movement, energy, realism, naturalistic, beauty, fantasy culture, fairy tales, witches, wizards, magical creatures, fantasy worlds, foreground, middle ground, background, perspective, light, color, texture, detail, beauty,)
連想を働けば具体的事物と結びつくであろう言葉も抜いた(masterpiece, best quality, ultra-detailed, illustration, 1girl, solo,flying, broom, night sky, outdoors, magic, spells, moon, stars, clouds, wind, hair, cape, hat, boots, broomstick, glowing, witches, wizards, foreground, middle ground, background, light,)

審美眼のない私の問題かもしれませんが、同じように見えますね…
いや、ちょっとまってください。よく見たら、ほとんどの抽象的言葉を抜いたあとの背景が明らかに地味になっていますね、ファンタジーなゲームに出てきそうな町並みがあるだけで、不思議な地形も立派なお城もなくなっています!(光る翼のようなものはおそらくfairy talesのfairyが影響しているだけなので気にしないでください)
まあ、これで影響を与えていると言うのは少し弱いですよね…

モデルによって違いがあるのか

しかし、諦めるにはまだ早いです。なぜなら、私が使っているのは「BreakDomain」という簡単プロンプトで美麗な背景が生成できる素晴らしいモデルなので、そういった抽象的言葉を用いる雰囲気描写をしなくても雰囲気ある画像になってしまうから、入れたところで効果が薄いかもしれません。(布教)

というわけで、プロンプトのこだわりによって自由度の高い表現ができることで有名なAbyssOrangeMix3で試してみましょう。


元プロンプト
明らかに具体的事物と結びつかない言葉だけ抜いた(masterpiece, best quality, ultra-detailed, illustration, 1girl, solo,flying, broom, night sky, outdoors, magic, spells, moon, stars, clouds, wind, hair, cape, hat, boots, broomstick, glowing, skill, speed, movement, energy, realism, naturalistic, beauty, fantasy culture, fairy tales, witches, wizards, magical creatures, fantasy worlds, foreground, middle ground, background, perspective, light, color, texture, detail, beauty,)
連想を働けば具体的事物と結びつくであろう言葉も抜いた(masterpiece, best quality, ultra-detailed, illustration, 1girl, solo,flying, broom, night sky, outdoors, magic, spells, moon, stars, clouds, wind, hair, cape, hat, boots, broomstick, glowing, witches, wizards, foreground, middle ground, background, light,)

今回は明らかな変化が見られました。抽象的言葉が減っていくにつれ、背景の描写の比重が減り、人物の描写の比重が増えていくのは明白ですね。

特に注目して欲しいのは三回の生成のそれぞれの一枚目、同じシードで生成されているので構図はほぼ同じですが、1枚目はおそらくmagical creaturesが反映され、フェアリー・ドラゴン的な生物が左の位置に置かれました。抽象的な言葉が減っていくと、魔女がフェアリー・ドラゴンと合体したような何かになり、最終的には魔女になりました。

抽象的言葉の応用

以上の実験で、抽象的言葉は背景もしくは環境の描写に作用することが推測できます。また、人(メインの被写体)以外の生物が描写される具合も抽象的言葉の影響を受けている可能性があります。

例えば、海辺で散歩する女の子の画像を生成したいけど、普通に生成したら上半身しか映っていなかったりと、被写体がカメラに近すぎる問題は結構ありますよね。

masterpiece, best quality, ultra-detailed, 1girl, white dress, sundress, bare shoulder, sun hat, smile, walking,seaside

これはそれほどカメラに近いわけでもないですが、これよりも引きの構図にしたい場合はおそらくあると思います。この場合、海辺を修飾できる、または連想させるような抽象的言葉をたくさん入れればいいです。

というわけで、chatGPTに海辺関連の抽象的言葉を10個生成してもらって、プロンプトに組み込んでみましょう。

masterpiece, best quality, ultra-detailed, 1girl, white dress, sundress, bare shoulder, sun hat, smile, walking, seaside,briny,breathtaking, sandy,vast,scenic,serene,calm,pleasant,sunlit,breezy

まあ、あくまでは女の子メインの画像なのでそれほど引きの構図になっていないが、女の子が少しだけ後ろに下がって、海辺の雰囲気が変わったことはお分かり頂けたでしょうか。

おわりに

というわけで、抽象的言葉は被写体以外の生成に多少影響があることがわかりました。背景をこだわりたい時に、背景になにがあるのかだけでなく、背景はどういう雰囲気なのかも考慮に入れると、より素晴らしい背景が生成できるのではないかと思います。

補足と追記

この記事で引用しているAbyssOrangeMix3のサンプル呪文はCivitAIで他のモデルの生成例として用いられるケースを複数確認できました。ところが、ほとんどの生成結果はこの記事でテストしている時と同じ、夜空の青色が主調の画像が生成されます。つまり、AbyssOrangeMix3の生成結果は他のツールが用いられた可能性が高いので、抽象的言葉をいじるだけで同じ雰囲気の画像が生成できないかもしれません。

この記事が気に入ったらサポートをしてみませんか?