A journey across the space of midjourney
お絵描きAIのMidjourneyでニンジャスレイヤーの挿絵を作って遊んでいた際の、希望の絵を取り出すためのメモ書きをまとめておく。
ニンジャスレイヤー
まずは普通に「赤黒の忍者」をキーワードに投入してみる。赤黒を直訳してRed and blackにしてみたが、このワードではツートンカラーの装束になるため、dark redにした。ただdark redでも明るすぎるので青みがかった小豆色になるがmaroonのほうが安定する印象である。
また、画風指定なしでNinjaと入れると低くない確率でアメリカのカートゥーン風のコミカルなタッチで出てきてしまうので、Photo realisticという指定は必須である。
上の図は衣服がちょっとバットマン的な感じで、ニンジャスレイヤーの「伝統的な普通の忍者装束」という感じではなかった。Ninjaというワードは外国のNinjaも含むので、このワードだけで伝統的忍者装束は出せない。画像検索で伝統的な忍者装束に近いものに限定されそうなワードを探したところ、修験道の装束がそれに合致することが分かった。実際、この指定は上手くいく。
また、単にNinjaと入れると高確率で忍者刀を装備してしまうので、これはニンジャスレイヤーと合わない。empty-handedと指定しておくか、または野球ならバットを持っているなどの指定をしなければならない。
これで装束のほうは安定したが、しかし目が描かれていないとニンジャスレイヤーらしさが出ない。文字通り画竜点睛を欠くと言った感じになる。なんとかして目を入れようと"sharp eyes"などの単語を入れてみたが効果がない。
目が出現しやすいワードを探索すると、なんと"angry"であった。怒りこそがニンジャスレイヤーをニンジャスレイヤーたらしめるアイデンティティである……お絵描きAIはそう言ったのである。これは作品の本質を指摘された気がしてドキッとした。"angry"を入れるとmask(メンポ)が恐怖を煽る形になりやすく、これも作品と合致してしまう。本当にびっくりである。
ニンジャスレイヤーを出す呪文は以下の要素から成り立っている。
an empty-handed angry ninja wearing spiny mask and maroon hooded Shugendo-uniform
empty-handed ← 入れないとカタナを持ってしまう。
angry ← 目が入る可能性が上がる。これがないとニンジャスレイヤーらしさが出ない。
ninja ← 全体が安定する。
wearing
spiny mask ← 暫定。改善の余地あり。
and
maroon ← 一番安定する色指定。Red and blackはツートンカラーになる。
hooded ← あったほうが安定する。
Shugendo-uniform ← 二の腕と脛が細くなるシルエットを得るのに必須。
Photo realistic ← これがないと高確率でカトゥーン風の絵が出る
あとは風になびくマフラーなども入れたいが、こちらはまだ安定しない。
エーリアス・ディクタス
最初にbobbed hairと入れてみたが全く安定しない。芸能人の名前を入れてみたが、これは禁じ手である。
ファッション誌を調べたところA-line bob with straight short bangsで安定しておかっぱ頭が出力されるようになった。
ただ、茨型の眉毛タトゥーは学習元がないのか再現不可能であった。goth eyebrowとかgoth eyebrow tatooとか入れてみたが出力される気配はない。またA-line bob with straight short bangsはハリウッド芸能人風の化粧がついてしまい、中身が男なのであんまり化粧しないエーリアスの雰囲気とは違うものになってしまう。化粧っ気を減らすには画風を変えるか詳細度を下げるしかないのだが、このあたりいいコントロール法がないのが現状である。
コトダマ空間
余湖・田畑版の下のコマの表現を目指してみた。
全然無理でした。下の表現が限界。普通はしないイマジネーション的表現は、今の所AIは吸収しきれないとしか言いようがない。
時たま出てくる、世界がコトダマ空間と重なった時の「01の風が」……というような表現も目指してみたが、惨敗。こちらが限界でした。
横綱
「ゴッドハンド・ザ・スモトリ」は好きなエピソードなので、その1シーンを再現したかったのだが、これが上手くいかない。
sumo wrestlerという言葉がバラエティ番組の着ぐるみに引っ張られているのでは?という仮説を元に、その語を使わず間接的に表してみたが、いまいち作り物感が抜けず(左下が一番マシか)。midjourneyくん、筋肉を描くのが苦手……?
なんでもテクスチャ的に扱って繰り返しパターンにしてしまうのは今のニューラル系お絵描きAIに共通した特徴なので、やむを得ないところか。
AIが不得意なこと
現在のAIが得意なことは、AIが出来ないことの補集合といった感じなので、先にAIが苦手なことを列挙していく(中長期的には解決しているかもしれない)。
複数の異なる特徴を持つ人物を配置する
例えば「赤い服の人物と白い服の人物を配置せよ」でも相当に困難で、たいていはツートンカラーの服になったり、前景と背景に色が配分されたりする。
同じような特徴を持つキャラクター(例:ネコネコカワイイ)かモブを出すか、または1人の人物単体で出すのが現在の解決策である。
人物にアクションさせる、表情を付ける
証明写真的なポートレート、モデルが取ってそうな立ち姿はよく学習しており出しやすい。しかし動きを持たせようと思うと途端に不安定になる。「スキーをする」「サーフィンする」程度の指定は可能だが、取れるポーズや構図がかなり限られるため細かいアクションを取らせるのが難しい。「スシを握る」はもちろん、ニンジャスレイヤーで頻出の「半身の姿勢で構えを取る」ことすらかなり困難で、今のAIだけで漫画を描くのはかなりチャレンジングなのは間違いない。
普通はやらないような特殊なシーンを描く
AIが学習したことがなさそうな画像の場合、全く安定しない、または他のワードに引っ張られる傾向がある。ミサイルサーフィン、セスナ、スシを握るシーンなどはいずれも無理だった。
細かい指定をたくさんつける
細かい指定をたくさんつけると、すべてが希望通りに満たされる確率は下がり、さらにそのうちいくつかは無視されるようになる。下の例ではholding a cane with antennae raises his handsが無視されているが、無視されていないものは雰囲気が違っていたのでやむを得ずこれにした。
また、学習時に頻出でないような特徴も無視される可能性が高い。例えばエーリアスの茨眉毛タトゥーが出ないことは書いたが、メイヘムの蛇の目なども指定しても無視される、出せない可能性が高い。やるなら、文ごとの重みづけオプションを使いなす必要があるだろう。
同じチャンネルに"A cat smoking a cigar while riding a white unicorn in space with Saturn in the background"というパターンをしつこく試してた人がいたが、煙型の宇宙猫と葉巻が別々に出るだけで、猫がそれを吸ったりしないしユニコーンは出現すらしていなかった。動詞の扱いは苦手に見える。
また「Jet fighterを描け」等の抽象的な指定なら満足できることが多いが、具体的な機種名を指定するなどの細かい指定を増やすと途端に厳しくなる。
なお、下のチアガールのカーウォッシュも全くうまくいかなかったパターンだが、craiyonではかなりマシなパターンが出力されたので、これはmidjourneyが学習時にエロティックな絵は学習しない等の制限によるかもしれない。
AIが得意なこと
AIが得意なことは、AIが苦手な細かい指定をすることやアクションを取ること以外――つまり、「雰囲気が出ていれば詳細は問わない風景画」や「特定の特徴を満たせばいい人物の肖像画」などである。
midjourneyとサイバーパンクの相性の良さはすでに良く知られたところだが、それ以外にも例えば「ギャラクシー胎内マントラ美男子」などは詳細は問わないので、下のように「美男子」要素だけ落ちているがギャラクシーで胎内でマントラなメガデモっぽい画像が生成されており、これで満足いくならOKである。
雰囲気が出てれば細かいことはいい背景はAIで、微細な表情やアクションなど現状のAIが苦手とする前景・人物は手書きで、というハイブリッドは早速作家に受け入れられているように思う。
またAIはうっすらした共通イメージはあるが具体的映像として固まっていないキャラクターに形を与えるのにも向いているだろう。例えば「ポッシブル・ドミネイション」のサキュバスのように、作中の記述をそのまま入力すればイメージ通りに出てくるような人物はとても楽である。動きがなく雰囲気を出すことだけに注力した肖像画などもAI向きだろう。
画質指定は低くてもいい
自分の場合はAIが出力にくいパターンを好んで出力していたため、ワードを変えて大量に生成するため、品質を落として計算量を節約するオプションを多用していた。具体的には--q 0.25 --stop 50を付けていたが、これを付けると計算量が1/8になる代わりにラフ画レベルのものしか出てこない。
ただ、それでも構図の当たりを付けるのには十分だし、よさそうなものがあればVやUのボタンを押すと勝手に品質が向上する。特にVボタンは計算量が少なくいい構図を取るのに1度は必ず押すくらいで、このボタンを押せば必ず見られる品質では画質が上がるので、実用上、上の品質低下オプションを指定しっぱなしにして問題はなかった。
また、品質を低めにして抽象的にしておいた方が、破綻が少なかったり、見る人の想像で補える部分が増えて小説の挿絵としては適していることも多かった。公式にもUボタンでディテールを追加するのをキャンセルする「Light Upscele Redo」ボタンがあるので、このあたりは制作者側も同じことを思っているのだろう。
この記事が気に入ったらサポートをしてみませんか?