A journey across the space of midjourney

2022年8月13日 00:57

お絵描きAIのMidjourneyでニンジャスレイヤーの挿絵を作って遊んでいた際の、希望の絵を取り出すためのメモ書きをまとめておく。

ニンジャスレイヤー

まずは普通に「赤黒の忍者」をキーワードに投入してみる。赤黒を直訳してRed and blackにしてみたが、このワードではツートンカラーの装束になるため、dark redにした。ただdark redでも明るすぎるので青みがかった小豆色になるがmaroonのほうが安定する印象である。

また、画風指定なしでNinjaと入れると低くない確率でアメリカのカートゥーン風のコミカルなタッチで出てきてしまうので、Photo realisticという指定は必須である。

Photorealistic portrait of an angry dark red ninja standing in the dark. —ar 16:9

上の図は衣服がちょっとバットマン的な感じで、ニンジャスレイヤーの「伝統的な普通の忍者装束」という感じではなかった。Ninjaというワードは外国のNinjaも含むので、このワードだけで伝統的忍者装束は出せない。画像検索で伝統的な忍者装束に近いものに限定されそうなワードを探したところ、修験道の装束がそれに合致することが分かった。実際、この指定は上手くいく。

また、単にNinjaと入れると高確率で忍者刀を装備してしまうので、これはニンジャスレイヤーと合わない。empty-handedと指定しておくか、または野球ならバットを持っているなどの指定をしなければならない。

Distant view of an empty-handed ninja wearing spiny mask and bulky maroon hooded Shugendo-uniform doing parallel turns on skis on the rocky slopes. Photo realistic. --q 0.5
【アルパイン・サンクチュアリ】より

Distant view of a ninja holding baseball bat and wearing spiny mask and bulky maroon hooded Shugendo-uniform hitting home run. Photo realistic. --q 0.5 --ar 9:16
【ノーホーマー・ノーサヴァイヴ】より

Full-body view of an empty-handed ninja with keen eyes wearing spiny mask and bulky maroon hooded Shugendo-uniform running on a treadmill. Photo realistic. --q 0.5 --ar 9:16
【マグロ・サンダーボルト】より

これで装束のほうは安定したが、しかし目が描かれていないとニンジャスレイヤーらしさが出ない。文字通り画竜点睛を欠くと言った感じになる。なんとかして目を入れようと"sharp eyes"などの単語を入れてみたが効果がない。

目が出現しやすいワードを探索すると、なんと"angry"であった。怒りこそがニンジャスレイヤーをニンジャスレイヤーたらしめるアイデンティティである……お絵描きAIはそう言ったのである。これは作品の本質を指摘された気がしてドキッとした。"angry"を入れるとmask（メンポ）が恐怖を煽る形になりやすく、これも作品と合致してしまう。本当にびっくりである。

Close-up frontal view of an empty-handed angry ninja wearing spiny mask and maroon hooded Shugendo-uniform performing karate punch in a dark room. Photo realistic. --q 0.25 --stop 85 --ar 4:3

Frontal view of an empty-handed angry ninja wearing spiny mask and maroon hooded Shugendo-uniform praying his hands. Explosion background. Photo realistic. --q 0.25
【ボーン・イン・レッド・ブラック】アニメイシヨン第1話より

ニンジャスレイヤーを出す呪文は以下の要素から成り立っている。

an empty-handed angry ninja wearing spiny mask and maroon hooded Shugendo-uniform

empty-handed ← 入れないとカタナを持ってしまう。
angry ← 目が入る可能性が上がる。これがないとニンジャスレイヤーらしさが出ない。
ninja ← 全体が安定する。
wearing
spiny mask ← 暫定。改善の余地あり。
and
maroon ← 一番安定する色指定。Red and blackはツートンカラーになる。
hooded ← あったほうが安定する。
Shugendo-uniform ← 二の腕と脛が細くなるシルエットを得るのに必須。
Photo realistic ← これがないと高確率でカトゥーン風の絵が出る

あとは風になびくマフラーなども入れたいが、こちらはまだ安定しない。

エーリアス・ディクタス

◆彼女の名はエーリアス・ディクタス……我々はこのマフラーを知っている！一体何者なのか！◆ pic.twitter.com/NRdhrT8Mir
— ニンジャスレイヤー / Ninja Slayer (@NJSLYR) March 5, 2015

最初にbobbed hairと入れてみたが全く安定しない。芸能人の名前を入れてみたが、これは禁じ手である。

A woman having black bobbed hair with straight fringe as 玉城ティナ, 橋本愛, 木村カエラ, or 広瀬すず. Photo realistic. --q 0.25 --stop 50

ファッション誌を調べたところA-line bob with straight short bangsで安定しておかっぱ頭が出力されるようになった。

Portrait of a Japanese girl who has black hair styled as A-line bob with straight short bangs and creative Gothic eyebrow. Photo realistic. --q 0.25 --stop 50

A Japanese girl who has black hair styled as A-line bob with straight short bangs and goth eyebrow wearing a jacket . Photo realistic. --q 0.25 --ar 4:3

ただ、茨型の眉毛タトゥーは学習元がないのか再現不可能であった。goth eyebrowとかgoth eyebrow tatooとか入れてみたが出力される気配はない。またA-line bob with straight short bangsはハリウッド芸能人風の化粧がついてしまい、中身が男なのであんまり化粧しないエーリアスの雰囲気とは違うものになってしまう。化粧っ気を減らすには画風を変えるか詳細度を下げるしかないのだが、このあたりいいコントロール法がないのが現状である。

コトダマ空間

余湖・田畑版の下のコマの表現を目指してみた。

10 pic.twitter.com/zMv1fSavHF
— njslyr_ukiyoe (@njslyr_ukiyoe) February 7, 2015

全然無理でした。下の表現が限界。普通はしないイマジネーション的表現は、今の所AIは吸収しきれないとしか言いようがない。

Snapshot of a blonde haired woman with black tight bodysuits, texture filled with green-black digital numbers like Matrix movie. --q 0.25 --stop 50

時たま出てくる、世界がコトダマ空間と重なった時の「01の風が」……というような表現も目指してみたが、惨敗。こちらが限界でした。

Snapshot of street composed of polygons with texture filled with green-black digital numbers like Matrix movie. --q 0.25 --stop 90

横綱

「ゴッドハンド・ザ・スモトリ」は好きなエピソードなので、その1シーンを再現したかったのだが、これが上手くいかない。

Back of a sumo wrestler walking to dohyo-ring

sumo wrestlerという言葉がバラエティ番組の着ぐるみに引っ張られているのでは？という仮説を元に、その語を使わず間接的に表してみたが、いまいち作り物感が抜けず（左下が一番マシか）。midjourneyくん、筋肉を描くのが苦手……？

Back of a big muscular man with chonmage hair wearing a Japanese loincloth walking to dohyo-ring --q 0.25 --stop 50

なんでもテクスチャ的に扱って繰り返しパターンにしてしまうのは今のニューラル系お絵描きAIに共通した特徴なので、やむを得ないところか。

AIが不得意なこと

現在のAIが得意なことは、AIが出来ないことの補集合といった感じなので、先にAIが苦手なことを列挙していく（中長期的には解決しているかもしれない）。

複数の異なる特徴を持つ人物を配置する

例えば「赤い服の人物と白い服の人物を配置せよ」でも相当に困難で、たいていはツートンカラーの服になったり、前景と背景に色が配分されたりする。

A red female ninja carrying the aura of a dragon and a white male ninja carrying the aura of a tiger face each other while maintaining their karate stance. --ar 16:9
【ドラゴン・ドージョー・リライズ：奮闘編】#4より

A red female ninja and a white male ninja face each other while maintaining their karate stance. --ar 16:9

同じような特徴を持つキャラクター（例：ネコネコカワイイ）かモブを出すか、または1人の人物単体で出すのが現在の解決策である。

🍣ネオ電🍣メンバーシップ掲示板のニンジャヘッズの間で、AI召喚呪文やパワーワード・コトダマがシェアされ、ネコネコカワイイの生成方法などが解明されつつあるようです。オムラの技術です🍣#midjourney #ウキヨエ https://t.co/oafJpyOeik pic.twitter.com/x1JTPiXpXh
— ニンジャスレイヤー / Ninja Slayer (@NJSLYR) August 11, 2022

人物にアクションさせる、表情を付ける

証明写真的なポートレート、モデルが取ってそうな立ち姿はよく学習しており出しやすい。しかし動きを持たせようと思うと途端に不安定になる。「スキーをする」「サーフィンする」程度の指定は可能だが、取れるポーズや構図がかなり限られるため細かいアクションを取らせるのが難しい。「スシを握る」はもちろん、ニンジャスレイヤーで頻出の「半身の姿勢で構えを取る」ことすらかなり困難で、今のAIだけで漫画を描くのはかなりチャレンジングなのは間違いない。

Distant view of an empty-handed ninja with keen eyes wearing spiny mask and bulky maroon hooded Shugendo-uniform making sushi. Photo realistic. --q 0.25 --stop 50 --ar 9:16
【ファスト・アズ・ライトニング、コールド・アズ・ウインター】より

普通はやらないような特殊なシーンを描く

AIが学習したことがなさそうな画像の場合、全く安定しない、または他のワードに引っ張られる傾向がある。ミサイルサーフィン、セスナ、スシを握るシーンなどはいずれも無理だった。

A ninja standing on a flying missile taking a surfer's posture. --q 0.25 --stop 50
【サツバツ・ナイト・バイ・ナイト】より

Distant view of an empty-handed ninja wearing spiny mask and bulky maroon hooded Shugendo-uniform standing on the wing of light airplane. Photo realistic. --q 0.5 --stop 50
【フジ・サン・ライジング】より

細かい指定をたくさんつける

細かい指定をたくさんつけると、すべてが希望通りに満たされる確率は下がり、さらにそのうちいくつかは無視されるようになる。下の例ではholding a cane with antennae raises his handsが無視されているが、無視されていないものは雰囲気が違っていたのでやむを得ずこれにした。

A mad shugendo-priest wearing Chinese hat in dingy monochrome tunic and holding a cane with antennae raises his hands and is surrounded by pillars of white laser light.
【オア・ザ・シークレット・オブ・ダークニンジャ・ソウル】より

また、学習時に頻出でないような特徴も無視される可能性が高い。例えばエーリアスの茨眉毛タトゥーが出ないことは書いたが、メイヘムの蛇の目なども指定しても無視される、出せない可能性が高い。やるなら、文ごとの重みづけオプションを使いなす必要があるだろう。

同じチャンネルに"A cat smoking a cigar while riding a white unicorn in space with Saturn in the background"というパターンをしつこく試してた人がいたが、煙型の宇宙猫と葉巻が別々に出るだけで、猫がそれを吸ったりしないしユニコーンは出現すらしていなかった。動詞の扱いは苦手に見える。

また「Jet fighterを描け」等の抽象的な指定なら満足できることが多いが、具体的な機種名を指定するなどの細かい指定を増やすと途端に厳しくなる。

なお、下のチアガールのカーウォッシュも全くうまくいかなかったパターンだが、craiyonではかなりマシなパターンが出力されたので、これはmidjourneyが学習時にエロティックな絵は学習しない等の制限によるかもしれない。

Two cheer girls wash a car. / midjourney
【ポッシブル・ドミネイション】より

Two cheer girls wash a car. / craiyon.com

AIが得意なこと

AIが得意なことは、AIが苦手な細かい指定をすることやアクションを取ること以外――つまり、「雰囲気が出ていれば詳細は問わない風景画」や「特定の特徴を満たせばいい人物の肖像画」などである。

midjourneyとサイバーパンクの相性の良さはすでに良く知られたところだが、それ以外にも例えば「ギャラクシー胎内マントラ美男子」などは詳細は問わないので、下のように「美男子」要素だけ落ちているがギャラクシーで胎内でマントラなメガデモっぽい画像が生成されており、これで満足いくならOKである。

Galaxy Womb Mantra Beauty Boys
【ドリームキャッチャー・ディジタル・リコン】より

雰囲気が出てれば細かいことはいい背景はAIで、微細な表情やアクションなど現状のAIが苦手とする前景・人物は手書きで、というハイブリッドは早速作家に受け入れられているように思う。

またAIはうっすらした共通イメージはあるが具体的映像として固まっていないキャラクターに形を与えるのにも向いているだろう。例えば「ポッシブル・ドミネイション」のサキュバスのように、作中の記述をそのまま入力すればイメージ通りに出てくるような人物はとても楽である。動きがなく雰囲気を出すことだけに注力した肖像画などもAI向きだろう。

A muscular guy with sharp eyes in a black balaclava and tight clothing is typing a keyboard in cyberpunk room, photo realistic 4k ultra high def.
【ポッシブル・ドミネイション】より

画質指定は低くてもいい

自分の場合はAIが出力にくいパターンを好んで出力していたため、ワードを変えて大量に生成するため、品質を落として計算量を節約するオプションを多用していた。具体的には--q 0.25 --stop 50を付けていたが、これを付けると計算量が1/8になる代わりにラフ画レベルのものしか出てこない。

ただ、それでも構図の当たりを付けるのには十分だし、よさそうなものがあればVやUのボタンを押すと勝手に品質が向上する。特にVボタンは計算量が少なくいい構図を取るのに1度は必ず押すくらいで、このボタンを押せば必ず見られる品質では画質が上がるので、実用上、上の品質低下オプションを指定しっぱなしにして問題はなかった。

また、品質を低めにして抽象的にしておいた方が、破綻が少なかったり、見る人の想像で補える部分が増えて小説の挿絵としては適していることも多かった。公式にもUボタンでディテールを追加するのをキャンセルする「Light Upscele Redo」ボタンがあるので、このあたりは制作者側も同じことを思っているのだろう。

この記事が気に入ったらサポートをしてみませんか？