見出し画像

どうせ2日で終わる日記-63-(DALL・E2すげ~~~)【8/1-8/7】

マナ。

DALL・E2すげ~~~

Twitterでは今お絵かきAIがバズりにバズっている。
まあバズるのも頷けて、彼らはこれまで見たことのない精度で画像を生成している。
半年ほど前にDream by WOMBOというイラスト生成AIが話題となったが、これはどちらかと言えばまだ抽象画のようなイラストがほとんどだった。
ところが、今流行っているmidjourneyやDALL・E2などは本物と見間違える程の性能を誇っており、人間も容易にその画像の示す意味を読み取れるレベルにまで発達している。

今回、DALL・E2のアカウントを取得することができたので、実際に使ってみることにした。
今はmidjourneyの方が流行っている気がするが、まあ折角アカウントが取れたんだし、ということでDALL・E2を使ってみた感想を述べようと思う。

…さて、今しがたさらっと言ったが、アカウントを取るのに実はそれなりに時間がかかった。
というのも、アカウント作成自体は無料なのだが、そもそもアカウントを作成するための権利を発行してもらわなければならない。
そして、ただいま絶賛大盛況のため、発行にはしばらく時間がかかる。
僕が7月末に応募した時は一週間ほどで申請が通った。
聞いていた話だと一カ月近くかかった、というようなことも聞いたので、もしかしたらある程度落ち着いてきているのかもしれない。

まあ何はともあれ申請後一週間ほどでアカウントが発行できた。
どうやら無料アカウントは初回50回までは無料のようで、そこから毎月15回分のクレジットが発行される、という形式のようだ。
聞くところによると、というか実際やってみても思ったのだが、狙った画像を生成するのはそれなりに難しく、ちょっとしたノウハウみたいなものが必要になったりする。
そういう訳で、あまり試し撃ちをすることもできず、かなり慎重になりながら文章を入力して画像を生成してみた。

DALL·E 2022-08-07 23.14.31 - 荒廃した世界に一人で立つ金髪の美少女

上は初めて生成した画像だ。「荒廃した世界に一人で立つ金髪の美少女」で入力したのだが、なんだかイメージショット風の黒髪の女性が生成されてしまった。
すでにこの時点で服などはよくできてるし、背景なんかも大変に素晴らしい出来だ。
しかし、僕が見たいのはあくまでも女の子のイラストなので、今回は残念ながらお呼びではない。

何回か挑戦してみたのだが、どうにもうまくいかない。
キャラクター名ならどうかと思い、「レミリア・スカーレット」と入力してみた。

DALL·E 2022-08-07 23.18.34 - レミリア・スカーレット

トンカツ on the ラーメンという優雅さのかけらもないデブ飯が生成されてしまった。
「博麗霊夢」などでも試してみたのだが、鳥や城の画像が生成されるばかりで、人ですらないものが多く生成されてしまう。
恐らく、学習したデータの中に「博麗霊夢」という固有名詞が無かったのだろう。言葉を分割する段階で、これが名前と認識されずに分解されて覚えられてしまったのかもしれない。

ともかく出来ないものは仕方ない。
しかし、かといってこれ以上の無駄撃ちは出来ない。

ということで先人の知恵を借りるべくTwitterで生成が上手くできている人の文章をマネすることにした。
色々上手く生成できている画像があるのだが、その中で一つ目を引く単語があった。
それは、英語で注文をした後に、"pixiv"という単語を単体で入れているものだった。
確かに原理的には、画像と文章がセットであればあるほどそれに共起されて生成されるのだから、pixivという場所を指定することでイラストが生成されやすくなる、というのはあり得ない話ではない。
僕は早速”The cute girl with golden hair and black eye. She wear white shirt, pixiv.”と入力した。すると……

画像3

うおあああああああ!!!

できたああああああああああああああああああ!!!!!!!!!!!!

今まで「イラスト」と入力しても効果が無かったのが、「pixiv」と入れるだけでこんなに簡単に生成されてしまうのか!
こうなったらもう後は話は早い。
良い出力が得られるような入力を微調整を行いつつ探っていけばよい。
幸い、この出力も悪くない出力だ。

そうして僕は何度か調整を行った。
調整、といってもhairをshort hairとしたり、white shirtsをschool uniformにしたりというものだ。
そしてついに……

画像4

こっ……こっ……

これだよこれ!!!!これを待ってたんだ!!!!!
ついにもはやAIが作ったとも見分けられない画像を生成することに成功した。
眼の形や距離、視線の方向、髪の形や流れ、ハイライトの位置……
どこをとってもAIが作ったと判別するのは難しい、とても可愛らしい女の子を生成することに成功した。
因みに、この時は"The cute girl with golden short hair and black eye. She wear white school uniform, pixiv."と入力した。

こんな感じで何回か作っていくうちに色々とコツを掴んだので、いくつか生成に成功したものを載せておく。
もし今後生成するときのためのノウハウとしてもらえれば幸いだ。

画像5

Hatsune Miku sing a song with smiling on the stage, pixiv.

画像6

The cute girl who is high school student sleeps on the Tatami, pixiv.

DALL·E 2022-08-07 23.36.33 - 顔を赤らめて恥ずかしがって頬に手を当てている可愛いロリっ娘狐の女の子のpixivのアニメイラスト

DALL·E 2022-08-07 23.36.26 - 顔を赤らめて恥ずかしがって頬に手を当てている可愛いロリっ娘狐の女の子のpixivのアニメイラスト

DALL·E 2022-08-07 23.36.20 - 顔を赤らめて恥ずかしがって頬に手を当てている可愛いロリっ娘狐の女の子のpixivのアニメイラスト

顔を赤らめて恥ずかしがって頬に手を当てている可愛いロリっ娘狐の女の子のpixivのアニメイラスト(3つとも同じ文で生成)

DALL·E 2022-08-07 23.38.38 - 顔を赤らめて恥ずかしがって頬に手を当てている露出多めで可愛いロリっ娘狐の女の子のpixivのアニメイラスト

顔を赤らめて恥ずかしがって頬に手を当てている露出多めで可愛いロリっ娘狐の女の子のpixivのアニメイラスト


いかがだっただろうか?
特に最後の二つ、ロリ狐娘のやつとかかなり凄くないだろうか?普通に滅茶苦茶可愛い……
白い子の首に何かグロテスクな何かが巻き付いていたり、女の子+狐、というパターンもあったりするが、基本的にその中でも作画が異常に崩壊していたり、人間が意味を汲み取れない画像は無い。
やってみて分かったが、ただ「ロリ狐娘」と入力しても狐のイラストが生成されるだけで、「可愛い」「ロリっ娘狐」「女の子」と人間であることを強調するとうまく生成されるようだった。
特に、恐らく「女の子」と言う部分がよく効いているようなので、是非とも参考にしてほしい。

総括だが、基本的に写真に関しては初手から本物と遜色ない画像を生成できそうな能力を有していた。
イラストに関しては、こちらからの繊細な調節は必要だが、上手くハマればかなりの精度を期待できた。
なお、今回仕組みについては話さなかったが、恐らくこの根本的なメカニズムとしては去年発表された画像と文章の類似度を測ることのできるAI「CLIP」の力が大きいのではないか、と考えている。
GANと呼ばれる教師なし学習による画像生成はそれなりに研究が進められているが、このCLIPの登場により格段にこのGANの学習が正確になったのではないか、と予想している。詳しくは「画像生成 CLIP」なり、「GAN CLIP」なりで検索して欲しい。僕も予想しているだけなので、本当の事は知らない。


という訳で、DALL・E2はとんでもない性能を有していることが分かった。
生成できる画像の枚数には限界があるが、絵が描けないけど絵が欲しい!という方は是非とも活用してみて欲しい。
僕も研究発表用のスライドで困ったらこれを使おうと思う。

それでは最後に「涼宮ハルヒの憂鬱」で生成した画像と共にお別れしよう。


DALL·E 2022-08-08 00.03.52 - 涼宮ハルヒの憂鬱


それでは。

この記事が気に入ったらサポートをしてみませんか?