見出し画像

プロンプトに問題がある時のMidjourney

AIお絵描きは「手軽に誰でも数分でびっくりするような凄い絵が描ける」という触れ込みで人心を惑わしておきながら、実際は何十枚何百枚何千枚と描かせても思ったような絵を描くことができないポンコツAIとの無間地獄です。もともと描けないものが多いAIなのでMidjourneyの野郎がポンコツなのか自分のプロンプトがひたすら悪いのか迷うところではありますが、大抵は自分の側に問題があります。

プロンプトに問題がある場合は、次のような症状が絵に現れます。

①デフォルトの顔で出てくる

この顔の女性


②デフォルトの色(緑ピンクオレンジ)で出てくる

これが出たら負け、人生終わった、完敗


③縦横の比率が反映されない

正方形ででてきた


④顔が崩壊している、顔だけ描いてもらえない


⑤後ろを向くためのプロンプトの必然性がないのに、勝手に後ろを向いている


⑥鼻口は描いてくれても、目がよどんでいる


⑦髪の毛がボサボサ、髪型がオカシイ


➇手がグチャグチャ

⑨歯並び最悪

⑩背景が消える、もしくは背景色が緑色

⑪主題の顔が見切れる

⑫画面が暗い・ぼやける


⑬首がオカシイ、首がない、首が長い、首が太すぎる

⑭頭が2段になる


⑮表情が死んでいる、もしくは悪意を感じる

⑯顔にシミが

とにかく、これらの絵が出た時点で人間の負け!


これらの症状はそれぞれに問題が異なっています。

・あからさまに注意は受けないものの密かなMGワードが存在しそれを使用してしまっている。準NGワード的なもの
・組み合わせてはならない画家やイラストレーターの組み合わせ方をしている(現代作家ばかり並べるとか、色に特徴がある画家ばかりを並べたとか画家の持つ特徴を相殺してしまっている)
・スペース、「,」や「.」の不備や記述の法則を無視しているために、AIが混乱している

例えば「白黒の線画」を要求しておきながら「ピンク色の虎」を要求するとこうなります。

pink tiger. 3D, 8K, black and white line drawing, illustration. Kawanabe Kyosai style. --ar 9:16 --testp

しかもこれは浮世絵師の画風を要求しながら3Dとか言っている。一応浮世絵風にしようとしてくれたけれど、「白黒なのかピンクなのか?」で迷ったために虎の身体が崩れています。この崩れは「虎を描けない」のではないので虎の表記を増やしても無意味です。

無理をして何度も生成しているとわけのわからないものばかり作ってきます。Kyosai Kawanabeの実力を全く反映していない。

pink tiger. 3D, 8K, black and white line drawing, illustration. Kawanabe Kyosai style. --ar 9:16 --testp

これを単純に「ピンク色の虎」とだけ記述し、もともと白黒の絵を描いているイラストレーターの名前だけを入れてみましょう。

pink tiger. Artwork by Yoji Shinkawa. --ar 9:16 --testp

ちゃんと描いてくれます。白と黒の線画にしろとわざわざ言わなくても最初から描いてくる。

pink tiger. Artwork by Yoji Shinkawa. --ar 9:16 --testp
pink tiger. --ar 2:3 --testp

画風の指示を入れなければ実写版のピンク色の虎が現れます。そしてどこも崩れていません。余計なことを言わないほうがすんなり描いてくれます。

結局のところ「つじつまの合わないことを要求したとき」に画像が崩れるんです。

・内容がつじつまが合っていない場合
・記述の仕方が悪いせいでAIを混乱させてしまった場合

この2つの原因が考えられます。

内容の辻褄合わせは自分が描いたプロンプトをよく見直せば解決するはずです。記述の仕方が悪いのは自分ではわかりにくいかもしれませんが崩れている人のプロンプトを見る限り「書き方がバラバラ」なのが多いです。

例えば「キャラクターデザイン、透明なプラスチック製の巨大な人形、カラフル、渋谷の街、グリッター、リアルな質感で、3D、8K」というように記述したとします。この場合、AIは「カラフルでグリッター」なのが「人形なのか?渋谷の街なのか?」わからずに通常両方をキラキラで描いてきます。

カラフルな街が優先されると人形は現れない

透明なのかグリッターなのかでも混乱するでしょう。

思いっきりキラキラにしてみたり、透明にしてみたりふり幅が大きくなるはず。

人形だけカラフルにしてバルーンは別に分けたパターン。

とりあえず全部光らせてみたパターンも。アスファルトが光っているのは案外悪くないですね。

キラキラしていいのは人形だけだと思うなら、「プラスチック製の巨大な人形、グリッター。」というように「、」と「。」できちんと分けるべきです。英語なら「,」と「.」ですね。すべての文字を「,」だけで区切っているとAIはどこからどこまでの指示なのかがわからず混乱し、その結果絵を崩してくるようなことになります。

ハッキリとどこからどこまでに適用されて欲しい指示なのかを記述できていないと、延々とわけのわからない絵が生産されまくります。

とりあえずグリッター利かせとけ!と言わんばかりの適当なキャラクター。こんなのは求めていないけれどAIも私が求めているものがプロンプトから読み取れないのでしょう。

なんでこの表情?

「どのような絵なのか。主題となるものは何なのか、そしてそれはどのような特徴があるのか。それ以外に描いて欲しいものは何なのか、そしてそれはどのような特徴があるのか。背景は何か、そしてその特徴は何か。画風の指定やカラー、ピント、ライティングなどの指示。」

というように「,」と「.」をうまく使い分けるとAIは混乱しにくくなります。髪型が崩れるからといって「髪型の指示」をてんこ盛りに出しても改善しない理由はここにあります。


特に「髪型と手」の崩れは、プロンプトが長くなった時ほど起きやすいものです。まず髪型は人のキャラクターの根幹をなすと言ってもよいと思います。

人は「マッドサイエンティスト」と要求したときに「白髪でチリチリの髪の毛が爆発したような髪型のおじいさん」を想像すると思います。マッドサイエンティストという言葉を使わずに「白髪で、おでこがでていて、髪の毛が立っていて、チリチリの剛毛で、白衣を着ているおじいさん」というように細かく指示してもAIはよくわかってくれないのです。

日本人なら大抵の人に「米津玄師」と言えば前髪が長い若い男の人を想像します。AIには「前髪が長い半分顔の隠れた男の人」と指示しても「どのくらい長いのか?!何色なのか?!どんな顔をしているのか?!」迷うらしく全くプロンプトが通りません。

髪の毛や手が崩壊しているときは、この現象が起きていることが多いんです。つまり「細かく指示を出しているせいで、AIの頭がパンクしている」んです。「もっとわかりやすい言い方で言ってよぅ!」とAIは思っているかもしれない。

だからあえてやってみました。「キッチンでホットケーキを焼く米津玄師」と入れると前髪の長い男の人が現れるんですよ。

AIは米津玄師を知っていた!!

Kenshi YONEZU baking hot cakes in the kitchen. Dark, cool, stylish, complex, delicate, difficult. 3D, 8K, black and white line drawing, gold ink splash, pointillism illustration. Yoji Shinkawa style. --ar 9:16 --testp

しかもMidjourneyの苦手な「弓矢」もOKだったり、

Kenshi YONEZU shooting a bow. Dark, cool, stylish, complex, delicate, difficult. 3D, 8K, black and white line drawing, gold ink splash, pointillism illustration. Yoji Shinkawa style. --ar 9:16 --testp

釣りもできます。

Kenshi YONEZU fishing. Dark, cool, stylish, complex, delicate, arcane, steampunk. 3D, 8K, black and white line drawing, golden splash, pointillism illustration. Yoji Shinkawa style. --ar 9:16 --testp
Kenshi YONEZU catching a giant fish. Dark, cool, stylish, complex, delicate, difficult. 3D, 8K, black and white line drawing, gold splash, pointillism illustration. Yoji Shinkawa style. --ar 9:16 --testp

勢いが余って顔が出ちゃったりすることもあるけど。「弓を射る」が「弓で射られる」になってしまっている。でも顔も割とイケメンに描いてくれているじゃない?

Kenshi YONEZU shooting a bow. Dark, cool, stylish, complex, delicate, difficult. 3D, 8K, black and white line drawing, gold ink splash, pointillism illustration. Yoji Shinkawa style. --ar 9:16 --testp
Kenshi YONEZU. Dark, steampunk. 3D, 8K, black and white line drawing, pointillism illustration. Yoji Shinkawa style. --ar 9:16 --testp


これでわかるのは「人物の表記を簡略化できれば動詞が通りやすくなる」ということです。そして動詞が通れば人物の表現にトラブルは起こりにくいということです。どちらが先かというと人物に含まれる要素の方が先だと思います。

AIは「名詞は簡単に理解するけれど、動詞は難しい」という特徴がありますが、このように「デフォルメされた人物像を表すキーワード」をうまく使えば「あれこれと記述を増やさないテク」をとしても使えますし、シンプルで短いプロンプトで崩れにくくて細かい部分まで勝手に忖度して描いてくれるようになります。


そして画家の名前を入れた場合はその画家がよく描いた女性の顔になりがち。同じ指示を出していてもどの画家の顔を採用するかでこんなにも違いが出ます。

Artgerm and Pierre Bonnard and Klimt
Pierre Bonnard, Maurice Denis and Krenz Cuchart style
Artwork by Artgerm and Pierre Bonnard and Klimt

だから画家の組み合わせはとても重要。

画家の組み合わせとは何かというと、こちらのページを見ていただければわかりやすいと思うのですが、

ロートレックは
・色が黄色
・線が太い
・装飾的なデザイン
が特徴ですよね。

ゴーギャンは
・カラフルな色味
・動詞が通りやすい
・人間を描くのが得意
・裸
が特徴ですよね

シャガールは
・造形はテキトー
・色に特徴がある
・物は描くけれど動詞は通っていない
のが特徴ですよね

フェルメールやクリムトもそれぞれに「得意なものと苦手なもの」などがはっきりしています。なんでもオールマイティに描ける画家などいないのです。

・屋外を描くのが上手い
・室内を描くのが上手い
・じっとしている人を描くのが上手い
・動いている人を描くのが上手い
・人の顔を描くのが上手い
・植物を描くのが上手い
・食べ物を描くのが上手い
・女性を描くのが上手い
・顔を描くのが上手い

などなど、いろいろな特徴があります。

現代社会を生きる私たちが絵を描かせようとするとき、昔の人が描いた絵よりもずっとわがままに「あれもこれも」といろいろなものを描かせようとします。となるとAIに指示を出すなら「描かせたいものを描ける画家の名前を入れるべき」です。

「手を描くのが上手い画家」というのがいるので期待したのですが、その人の名前を入れても良い手は描いてもらえませんでした。

Albrecht Dürerでもダメ…。


まだまだAIが上手くなるのを待たなければならないですね。

ここで重要なのが、「顔を描くのが上手い画家の名前」と「背景を描くのが上手い画家の名前」と「デッサンが狂いにくい画家の名前」などを特徴が重なり合わないように組み合わせると、細かい指示を出さなくても勝手に良い絵を描いてくれるということ。

それは「前髪の長い若い男性」を「米津玄師」と言い換えたのと同じで、画家の名前だけで「顔」や「服装」や「背景の絵柄」や「全体に使われる色」が決まったりします。画家によっては頼んでいないのに花をちりばめてきたり、光がパァァァァァっと飛んでいたり。

お洒落な服を着せたいのに指示を出してもどうもうまくいかないという時は、お洒落な服をよく描いていたイラストレーターの名前を入れるだけで勝手におしゃれな服を着せてくれます。服の名前を指定する以上に効果があります。

そして動詞を含むフレーズはできるだけ最初の方に記述するほうが良いです。なぜなら後ろの方だと記述の優先順位が下がってしまうので描いてもらえないことも多くありますし、ほかの単語を入り混じって記述がばらけることがあるのでできるだけ最初の方に。


最近私が頑張っているのが「AIに弓を描かせる」ということ。

ごらんの通りMidjourneyは弓が描けないんです。

なんかぐちゃぐちゃ、指も飛んでる。

凄い目つき

矢も描けません。頭に刺さります。

スマホは持てるのに弓矢が持てない武将ってなんですか???

世界各国のいろいろな弓矢の呼び方や、伝説の弓矢の名前、ゲームに出てくる武器についた特別な名前、弓に似た別の武器の名前などいろいろ入れてみたけどダメ。これは準NG枠なのではないでしょうか。武器はダメなのかなー?拳銃はOKなのに???

それで「動詞が通りやすい画家の名前」をてんこ盛りにしてみると、「棒を持つ」ことができるように。もともとこのAIは「棒すら持てない」ポンコツなんです。当然寿司も握れない。ラーメンもうどんも食べれない程動詞に弱いんです。

Daniel F GerhartzとKyosai Kawanabe、Renoirは動詞画家の3大巨頭ゆえ画風が和風になってしまうし、同じく動詞の通りやすいYoji ShinkawaとKyosai Kawanabeは相性が悪い。だから組み合わせをどんどんテストしていくしかないんです。

その過程でハズレを引いた場合は、こういうお姉さんが出てきます。毎回出てくる同じ顔。

アジア人の場合はたいていが口が大きくて歯茎が見えていたりして、ヒラメ顔。

ゲームをやっているとバッドエンドになることってありますよね。このAIを扱っているときにこのお姉さんたちが出てきたら、「あ~!やられた!」と思います。これぞバッドエンド。見事にハズレを引いた状態。

普段出てこないのに悪いプロンプトの時にだけ出てくる同じ顔の人たち。こういうお姉さんがおそらく何十人もいます。これが出てきた時点でプロンプトの見直しを行います。,が,,みたいに重なったりしているミスがあるときに出やすい顔とかありますよ。

気をつけなければ。


まとめると、

プロンプトに不備がある場合は画像が崩れるが大抵の人はそれに気づきにくい

①ハズレ画像で判断し、プロンプトを修正する
②プロンプトの指示がわかりにくい表記だと崩れやすいので簡潔にまとめて辻褄があうようにしておく
③「マッドサイエンティスト」や「米津玄師」のように簡単に言い換えられる言葉をうまく使う
④画家の組み合わせによって動詞を通しやすくするテクを使う
⑤顔や服装、背景なども画家の組み合わせで指示を通す

これらのテクを使えば、大丈夫!



この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?