見出し画像

StableDiffusionの呪文分析


最近話題の英語の入力に対して画像を出力するAIですが、
どういう入力に対して、どういう出力がされるのかを多少検証してみたので、結果を共有してみたいと思う

ワードの追加とその効果

まずはもとの完成文を少しずつ入れていき、どういう表現の追加で、どういう出力の変化が発生するのかを検証してみました。

もとの完成形の入力と出力は以下のものになります。

"very cool anime boy black hair boy with glasses, white doctor coat, techowear, cyberpunk style outfit, full body, sharp eyes, detailed portrait, intricate complexity, by greg rutkowski, cushart krentz, artgerm, ross tran, conrad roset, takato yomamoto, ilya kuvshinov. 4 k, beautiful, cinematic dramatic atmosphere, from long shot, distanced,from toe to top "

対して、これを頭の一語から4語のみ では曖昧なままだ。(very cool anime boy)
どうとでも解釈できるものなので、それだけバラエティの幅が広くなる

very
very cool


very cool anime boy 

6-9と、人物の描写が増えてくるに従って、人物数がだんだん減ってくる
very cool anime boy black hair boy with glasses
黒だけだと、その人物が黒がモチーフなのか勘違いし得るが、black hairと表記すると、髪色とちゃんと解釈する。
その後メガネという表記を追記すると、きちんと追加され、この辺りから顔にフォーカスをした画像が増えてくる

very cool anime boy black


very cool anime boy black hair
very cool anime boy black hair boy with glasses

13 words辺りまで来ると、服装の描写が入ってくるが、
白衣と、テックウェアという一見すると矛盾する表現が入ってくる。
これを解決するために、AIはいくつかの選択肢を選んでいる
一つはどちらかだけを採用する。テックウェアのみを着ているときや、白衣だけが特徴的なパターン
もう一つは二人の人物を描写するパターンだ
そして3つ目が、上に白衣を、中にテックウェアを着ているパターンだ
very cool anime boy black hair boy with glasses, white doctor coat, techowear,

very cool anime boy black hair boy with glasses, white doctor coat, techowear,
very cool anime boy black hair boy with glasses, white doctor coat, techowear,
very cool anime boy black hair boy with glasses, white doctor coat, techowear,

18 words辺りで、サイバーパンクという表現の節が入ってくるのだが、
この単語は影響が強いようで、outfitとこれも服装の指定だが、
背景もサイバーパンク系になる傾向がある
もう一つの良さとして、full bodyと入れたことで全身像を描いてくれるようになっている傾向がある
very cool anime boy black hair boy with glasses, white doctor coat, techowear, cyberpunk style outfit, full body

very cool anime boy black hair boy with glasses, white doctor coat, techowear, cyberpunk style outfit, full body
23
25
28
33
37
41
44
46

後半は単語のすべてが毎回適用されているとは思えず、採用されている概念と採用されていない概念が発生してきているようだ
必ずしも一人で描写されるとも限らず、かなりの部分は運によるものではないかと思われる。
今回は毎単語増やすたびに30枚作成させているが、何枚かは制限にかかっているし、乱数を回すことには価値がありそうだ
顔の細かい造形は顔を近くまで描写すると治りがちで、引きの画像だと曖昧になる傾向があるように見られた

順番には意味があるのか?

頭の28語を取り出して、この単語をランダムに順番を入れ替えてみた
それぞれの文言のパターンは保存できていないのだが、
わかったこととしては、一定程度はやはり順番は意味がある
例えば上の実験では出てこなかった黒髪以外の描写が出てきたり、白を基調とするが、白衣を着ていないものの比率が高まったりといったことは特徴として出てきた。
しかし、全体の傾向はあまり変わっておらず、それだけで全く違う描写になることはなかったし、どのパターンにおいても、メガネがないことはほぼなかった

very cool anime boy black hair boy with glasses, white doctor coat, techowear, cyberpunk style outfit, full body, sharp eyes, detailed portrait, intricate complexity, by greg rutkowski,


描写をどの程度指定することができるだろうか

髪色などを指定することができること、全身の描写についても従う傾向があるが、それ以上の指定ができるかをテストしてみる

二人の男性が対称的に向き合っている。
呪文1
Two men facing each other like symmetrically

これはもともとの期待ではなかったので、より顔にフォーカスした絵を書かせるために、表現を追加してみた。
これは結構うまく行っている
だが、必ずしも向き合っていると言うよりは別の方向を向いている描写も多い

二人の男性が顔と顔を対称的に向き合わせている。
呪文2
Two men, face up, facing each other, like symmetrically

このそれぞれの人物の目の色・髪色・肌の色を指定してみる
これはうまくいかない
左右が逆とか、両方同じ色になると言った無視のされ方をしている

二人の男性が顔と顔を対称的に向き合わせている。
左の男は青い目と黒髪、白い肌をしており、右の男は赤い目と白髪、黒い肌をしている
呪文3
Two men, face up, facing each other, like symmetrically, left man has blue eye black hair white skin, right man has red eye white hair black skin

一つの可能性として、前に置いた方が影響が強いという説明があったため、
文章の順番を変えてみた

左の男は青い目と黒髪、白い肌をしており、右の男は赤い目と白髪、黒い肌をしている
二人の男性は顔と顔を対称的に向き合わせている。
呪文4
left man has blue eye black hair white skin, right man has red eye white hair black skin, Two men, face up, facing each other, like symmetrically

結論

結論としてはstablediffusionからは次のような特徴があることが見えてきた
stable diffusionへの依頼はちょうど絵師に仕事を依頼するように描くと良い
書いている描写が増えれば増えるほど精緻となり、描写されてない部分はAIの乱数によって自由に表現される
しかし、構図や誰に何をさせるかと言った文言については半分ぐらいは無視される傾向があり、矛盾する描写についてはAIなりにそれを噛み砕く傾向があるため、そこは枚数を増やすことで対応する必要がある

そして、私のHDDに大量のメガネ男子の画像があふれる事となった
次回はもうちょっと対称を選んで見ることとしよう

この記事が気に入ったらサポートをしてみませんか?