Stable Diffusionで制作したイラスト紹介と制作プロセスまとめ

2022年8月31日 01:11

今回は自分が直近Stable Diffusionで制作したイラスト画像を紹介しつつ、今求められる新たな「創作」の話と制作プロセスをまとめていきたいと思う。

制作プロセスについて

制作プロセスの流れ

まず上記のイラストを見ていただきたい。これはStable Diffusionだけで生成された無加工、一発出しの画像だ。私は一切絵を描くことができない。だがこうして脳内にあるイメージを具現化できる手段があるのはありがたいし、素晴らしいと思う。

ここ最近、MidjourneyやらStable DiffusionやらDalle2やらのAI画像生成ツールばかりに没頭していて感じるのは、これらは次世代の「創作行為」だということだ。私が主にやっている制作プロセスは以下の通りだ。

①どういう画像を作りたいのかイメージする
②Promptの考案・出力
③Promptの修正・FIX作業
④運・乱数の壁(ガチャ)
⑤膨大な画像の厳選
⑥上記を気に入るまで繰り返す

たったこれだけ？と思う人もいるかもしれない。しかしやってみれば分かるが実際に自分が理想とする画像を生成するのは血反吐を吐くような作業を伴う。いい加減に単語をぶち込めばいい物が出来ると思っている人も多いかもしれないがこれは偏見だし大間違いだ。
全プロセスについて解説していく。

①どういう画像を作りたいのかイメージする

まず最初はシンプルにどういう画像を作りたいか、という着想・構想が必要になる。アイデア出しだ。
おおまかに以下を決めておくといい。

・人なのか物体なのか
・人の場合、髪の色/服
・背景には何があるか
・リアルな画像なのか、イラストタッチなのか

ある程度構想がまとまったらDeeplなどの翻訳ツールに頼りつつ、英語化しよう。その単語が機能するかしないかの指標は言語をENGにして、画像検索してみてその単語の画像が大量に出てくるかでだいたい判断できる。

②Promptの考案・出力

ある程度構想がまとまったら画像をイメージ通りに出すための原型となるPrompt作成を行う。とにかく具体的に、濃く指示することが求められる。イメージを構成するために必要な単語を強い順にピックアップして構成する。
LexicaやReddit、公式discord鯖などで他人のPromptを引っ張ってきてもいいのだがそれだと0から1を生む能力が育たないので今回は省く。

構文

<主題>, <主題の状況>, <主題の背景>, <主題を描くスタイル> ,<調整ワードA>, <調整ワードB>, …

例：
portrait of beautiful girl(最も強調したい要素), platinum blonde hair (主題の状況) ,detailed eye and lips(主題の状況), in the snowfall(主題の背景), by Makoto Shinkai(イラストのスタイル), wallpaper(調整ワードA), trending on Artstation(調整ワードB), …

私がよく使う構文は上記のものだ。出来るだけ強調したい要素を優先して前側にする。無駄な単語はできるだけ削った方がいい。もちろん例外はあるが、この形が安定してイメージを伝えやすい。

③「Promptの修正・FIX作業」

ここは知識があるかないかでかなり差が付くため非常に技術介入度が高い、と私は感じている。しかも作業は地味を極める、出力画像を見ては単語の影響力を検証しつつ比較しまた追加したり消したり…裏で翻訳ツールを動かしながら情報収集…
最初に入れたPromptとはかけ離れたものになることも多い。

おすすめなのは単語力を付けたり、Promptをある程度テンプレ化したり、単語の影響力をあらかじめ把握しておくとこの時間を短縮できる。(私はスプレッドシートに単語の効能をまとめている)
ただ地味で面倒な作業には変わらない。このプロセスは実際に絵を描く時の下絵から具体的に加筆・修正していく作業に近いと思う。

④「運・乱数の壁」

いいPromptであればあるほどいい物が生まれる確率はもちろん高くなるが、試行回数はやはりそこそこ必要になる。粗悪なPromptならなおさらだ。
もちろん自分が意図しない要素で上振れ画像が出力される場合もあるので、何とも言えないが基本的にはソシャゲのガチャみたいなものでSSRを引くために皆頑張っている。

だいたいPromptが固まったら100枚くらい出してみて、10枚くらいに絞りいいものがないか確認するといい。よさげなseed値を見つけたら、繰り返し生成してみることで好みの画像を引ける確率が上がる。

100枚以上出してピンとくるものがないのであれば③「Promptの修正・FIX作業」に戻った方がいい。

⑤「膨大な画像の厳選」

①～④を繰り返していると画像の数は何百枚といった数になることもある。
厳選もやはりその人なりのセンスが必要だし、物理的にも膨大な量を厳選するのはそこそこ骨の折れる作業になる。

これらの①～⑤を繰り返しながら満足するものを引き当てられたら終わりだ。
さて、完成した画像はAIによって簡単に作り出せると言えるだろうか？
そして「創作行為」ではないと言えるだろうか？

こうした一連の作業はPrompt Engineeringと呼ばれ、将来的には専門化していき職業なると予想されている。実際すでにPromptが売買されているマーケットも誕生している。
法的な課題はあるものの、私はこれらを次世代の「創作行為」であると考えている。

脳内でイメージできるものは作れる

今まで説明してきたものはtext2imgの話だが、img2imgではもっと具体的なイメージを制作可能だ。指示絵から肉付けしていく作業が可能になる。左が元となった指示絵で右が一旦の完成形だ。
桜の位置が違ったり、謎に空が赤かったり若干初期イメージとは違う部分はあるもののこんな酷い下絵でも、根気強く長く修正し続けていくと右になる。しかもまだ自分は初心者なので、続けていけばもっと上手く画像を作ることができるだろう。これは凄まじい技術の進歩だ。

text2imgよりも指示絵がある分、作りたいイメージに沿って画像を生成できる。おそらく脳内でイメージできるものは何でも作れるのではないか？という気がしている。