NovelAI : お絵描きAIは「Japanese KAWAII」を描けるのか?その3
こんにちは、こんばんはteftefです。ここ2ヶ月でお絵描き AI の進歩の速さによって生み出されたレッドオーシャンを見て絶望しています…(論文)。今回は流行りのアニメイラスト生成 AI の NovelAI を使ってみた感想と Prompt の工夫点、これらについて書いていこうと思います。ついでにStable Diffusion とMidjourney とも比較してみようと思います。
NovelAI はこちらのリンクから
そして導入法はぜひこちら(↓)をご参照ください。なるだけ詳しく書いてみましたので初学者の方でも簡単に遊べるようになると思います。
作品紹介
とりあえず知ってるキャラから
というわけで早速、ふっと目に留まった Twitter に乗っていた Prompt を参考に生成してみました。原神というゲームのキャラクターの甘雨ちゃん (Ganyu)です。適当にセーラー服でも着せてみました。
なんというか、これほんとにキャラクターがそのまま出てくるのがすごいですね、今までの AI だとそのキャラクター"風"の絵が出てきました。
ついでに胡桃(Hutao)も生成してみました。
あれ、でもこれはなんか胡桃"風"な気もするが、まあ甘雨ちゃんと違って予測変換に出てこなかったんですよね。あんまりデータがないんでしょうか?というより、セーラー服 (sailor dress)がなんか違う気がしたので、sailor dress を抜いてみました。続いて刻晴 (Keqing) です。
はい、やっぱそうですね、sailor dress を抜いた結果、今回はちゃんとうまくいきました。シードを変更したというのもありますが、"風"ではなくなりました。そしてなぜか限定コスチューム。
夏のワンピースは至高
続いて夏に白いワンピース(肩出し)を生成してみましょう。今回は背景をこだわりを入れ、手にものを持たせたり、髪飾り、帽子などの複雑な要素を入れてみました。
タピオカを持たせたかったのですが、難しいだろうと思って holding a drink にしたら、これは持つというよりは上から photoshopで張り付けたみたいだなww。でも夏の感じがうまく表現できているし、ヤシの木の影がちゃんとあってすごいと思いました。
すこし Prompt を変更してもう 1 枚
これも ”The 夏”って感じの絵ですね。影もしっかり作られているのが個人的にすごく高評価です!手の指が 6 本なのは今に始まったことではないので、目を瞑りましょう。
雪の舞う道路で信号待ち
細かい装飾品などの出来がいいので、今度は雪を舞わせ(粉雪のレイヤーを被写体のレイヤーの上にしたらどうなるか試したかった)、マフラー、傘、手を振るポーズを追加。
傘が消えてしまったか!!柄の部分があるけど…
それ以外はほぼ文句がないほど、少しノイズがあるが、そこは簡単に治せそうです。一つ気になったのが 「red scarf」 これマフラーを指定した予定なんですけど、英語で「scarf」はセーラー服のリボンとマフラー両方とも刺してしまうのでは?と。
冬はつとめて
なんかタイトルが意味わかんなくなってきました…まあ置いといて
雪の降る寒い早朝、友達待ちでしょうか?凍えた手を吐息で温めるポーズはなんか良いですよね(ねっ!!)。というわけで早速生成。
うーん、なんか違う―… でも、「snowing」と「sigh」を入れてるだけで冬の吐息が白くなっているのはとても素晴らしいと思います。自然言語処理でこういうことをやるのはとても難しんですよね。
ベースができたのでこれに手を加えていきます。
今回の大当たりはこちらです!!いいですね!文句のつけようがないです!!
では少しリボンの色を変えてみます。
おおおーーーー!!完璧!!
ヤンデレちゃんを生成したい
返り血を浴びさせましょう。なんか血の付いたナイフでも持たせてみましょう!!髪型は安定のツインテールで
いい感じに病んでますね!!少し口元がゆがんでしまったので「 beautiful lips」を追加しました
全体的な感想と考察
正直、クオリティーはものすごく高いです。例えば目の中の光の反射、影のつけ方などが想像以上でした。しかしやはり手の指の数、足がつながっていない。飾りなどの細かい部分の装飾がまだまだ下手な気がします。あと、この記事書いてると癖(fetishism)がばれるなww
ここからは少し学術的な話を少々…
読み飛ばしていただいても大丈夫です…
個人的な考察ですが、AIは規則的(離散的)な概念を描くのが苦手なのでしょう。そもそも画像生成は GAN も Diffusion model (拡散モデル)もノイズから生成されます。このノイズの1か所のみを書き換えても、出力に何か大きな変化がせるわけではないんです。しかもそのノイズのどの部分をどのように変えたら特定のパーツが変化するのかというのが依然、不透明です。特徴空間をうまく(このうまくというのが難しい)設計してあげるあるルートを通ってノイズを変更することで出力をきれいに変化させることができます。この技術は StyleGAN2 でも使用されていて、研究が進められています。
ここからは推測の域なのですが、入力ノイズや潜在空間を観測するには大きな矛盾点があると思っています。 というのもミクロで見る(ここでいうとノイズの1か所のみを書き換える)と変化は少ないのですが、このノイズが大量に集まった全体的なマクロ視点で見ると、なんかわからないが、ある特定の部分を変えたら変化したというのが現状です。そもそもノイズ生成は確率分布に基づいてるため、ある一点を変更しても大きな変更にならないです。そのため人間がそのノイズを意図的に変更することが難しいのです。そのためマクロ視点では変化が起きているがミクロ視点を覗くと何が起こっているかわからなくなるという感じです。というのも暗闇(ここでいうとノイズ)に何が起こっているかを調べたいのにそこにランプの光(ここでいうと生成画像)を入れて調べても本質的なものはわからないわけです。(なんとなく量子に似てる?)まあ意味わからないと思います。(主自身もちゃんとわかっていない)
次回予告と宣伝
今回はここまでです。次回も続いて NovelAI の作品を見ていきたいと思います。次回はいろんな方からリクエストをいただいたので様々なジャンルを紹介できそうです。最後まで読んでいただきありがとうございました。最後に少し宣伝です。主のteftefが運営を行っている discord サーバーを載せます。このサーバーでは Midjourney や Stble Diffusion のプロンプトを共有したり、研究したりしています。ぜひ参加してお絵描きAIを探ってみてはいかがでしょう。(teftef)