画像生成AIの"目的地"を考える

2022年10月18日 01:46

MoguLiveでVTuberと画像生成AIをめぐる状況について、事実ベースで現状を紹介する記事を書いた。
実は書いている途中では、自分の見解もまぁまぁ詰め込んでいた。けれども記事の目的は「情勢のレポート」だなと思ったので、清書中にそのあたりは全部消していた。

ここは自分の日記なので、カットしたものとか含めて、画像生成AIについての自分の所感を書き残しておく。

MidJourneyの有料プランを3日で使い切った話

「共産主義のポスター風」でそれっぽくなるのか「寿司の映画」で試してみたけど、たしかになるわ、すげえ#midjourney pic.twitter.com/U8CDdWvN5r
— 浅田カズラ✑バーチャルライター (@asada_kadura_vb) August 2, 2022

僕は「MidJourney」にめちゃくちゃハマった。さわり始めてから即座に10ドルプランに課金したものの、上限クレジットをわずか3日で使い切ったほどだ。いま考えれば異常な速度だ。調子に乗ってMoguLiveの記事にも使った。こういうのを世間では「悪童」と呼ぶ。

大局的に見れば、オープンソースで世に解き放った「Stable Diffusion」の方がEpicだと思うけど、ユーザーフレンドリーな「扱いやすいサービス」はどれかと言えば、意外と「MidJourney」じゃないかと思う。なにせあれはDiscordで動く。サーバーに入るだけで試せた。「Stable Diffusion」をローカルに入れようとAnaconda環境を作ろうとして地獄を見た非エンジニアは多いだろう。

連作「knight in the Chinatown」#midjourney pic.twitter.com/Q65IBMK2b0
— 浅田カズラ✑バーチャルライター (@asada_kadura_vb) August 2, 2022

しかし、なぜハマったのか。当時は「イメージが脳内から出力されるから」と考えていたのだけど、「NovelAI Diffusion」と対面してから気づいたことがある。僕が「MidJourney」を3日間使い倒したのは、ことばに紐づくおぼろげなイメージに、自分でも予測のつかない絵が与えられたから、だろうと。

「NovelAI Diffusion」に"目的地"を求めてしまった、という気づき

「little girl illust, silver hair, red eyes, witch costume」

「NovelAI Diffusion」は"驚異的"だ。かなりアバウトなキーワード指定でも、おおむねそれらしい美少女イラストを何十枚でも何百枚でも吐き出す。「人物イラスト素材」がほしいだけなら練習も学習もいらない。イラストがほしい人にとっては希望に、イラストを描く人には驚異に映るだろう。

けど、僕個人はこれを「回す」ことに楽しさは感じなかった。正直あまり使い込めていない。その間に世間では「魔導書」なるものすら作られているので、注目度が高いことはわかる。おそらくVTuberファンアートに用いられているのも「NovelAI Diffusion」だろう。

上掲自撮りから「NovelAI Diffusion」でimg2img出力。プロンプトは「gril, light blue hair,double knot, yellow eyes, sailor dress, cardigan, sitting on sofa」

一方で、「VRChat」のスクショからimg2imgするのは楽しかった。その理由を自分なりに考えて、「元のスクショが一番イラスト化されているもの」という"目的地"が設定されているから、と気づいた。

いや、img2imgでなくとも「NovelAI Diffusion」使用時の"目的地"は存在する。「自分の理想の美少女イラストを出力する」だ。けれども自分には、その"目的地"へ向かうことにさほどモチベーションが出なかった、ということだと考える。

連作「knight in server room」#midjourney pic.twitter.com/b7Bx5gpCdo
— 浅田カズラ✑バーチャルライター (@asada_kadura_vb) August 2, 2022

「MidJourney」を回すとき、僕はふわっとしたキーワード以上のプロンプトを設定していない。「knight in the Chinatown」やら「knight in server room」やら、アバウトなコンセプトだけを入力し、うまい具合に出てきたものをupscaleして保存している（あるいは、variationを生成する）。

たぶんこれは、目的の画像を求めているのとはちがう。抽象的で、ぼんやりしたイメージに、"いい感じ"の具体性が宿ることを楽しんでいるのだ。まるでイラストレーターに、お題だけ伝えて制作物の到着を待つかのように。

深津：あなたはStable Diffusionを「画像生成」のためのツールというよりも「画像検索」の代替物と考えているのですね。

モスターク：引用元を探すといった用途を除いては、何かを作りたい、レポート用に何かを取り込みたい、といった時に利用するのが画像検索です。

Stable Diffusionは言語を理解するため、「ピエロになったボリス・ジョンソン」、「レゴラスになったロビン・ウィリアムズ」、「火星に着地したテスラ車」といった具合に画像を作成すれば、画像検索の必要はありません。自身の思考を検索し、画像に変換するようなイメージです。

私にはアファンタジア（視覚的なイメージを頭の中で思い浮かべられないこと）という症状があります。例えば「砂浜」と聞いても、それを頭の中で思い浮かべられません。なのでStable Diffusionは私のような症状を持つ多くの人々にとっては素晴らしい発明だと言えます。頭の中で感じていたことを初めて見ることができるのですから。

【CEO直撃】THE GUILD深津氏が画像生成AI「Stable Diffusion」開発元に聞く、AIビジネスの“新時代” - DIAMOND SIGNAL

「Stable Diffusion」を世に放ったStability AIのCEOは、画像生成AIを「お絵描きツール」ではなく、「"存在しないもの"も探せる画像生成AI」と捉えている。
空想の車のデザインや、ありえない風景。そうしたものすらAIにキーワードを与え、イメージを作ることで、脳内から擬似的にイメージを「検索」する、そういう世界が彼の目には映っているのだと思う。

だが、AIの出力結果は現状、「想定内」と「想定外」が混在している。いずれ、少ないプロンプトで「想定内」だけを生み出す画像生成AIも生み出されるだろう。
ただ僕自身は、「想定外」が生み出される楽しさも捨てがたいと感じる。技術の叡智にuncontrollableなものを求める傾向は、なかなかに非合理的な気もするが、「想像の外」を創り出す力もまたアートだろう、という気はしている。このへんはたぶん、個人差が生じるところなのだろうけど。

何の目的でAIに画像を作らせるのか？

「想定内」を求めようと、「想定外」を求めようと、画像生成AIは技術であり、ツールでしかない。いまのところ（そしてまだしばらくは）「神」にはなり得ない。たぶん。

そして、ツールから出力されたものである以上、それは自分の成果物とは個人的には感じない。せいぜい「素材」だと思う。よって、「素材」を組み合わせて「作品」を創り出すことに意義は感じるが、「素材」そのままを「作品」として発表する行為には、僕は強い意義を感じない。

「NovelAI Diffusion」に「Fan-art of VTubers」を描かせたもの。誰？

スタート地点に戻る。VTuberのAIファンアートに対して、僕は「立ち絵素材を提供している」ようにしか見えなかった。その意義を見出だせない。技術や時間を費やしたどうのこうのより、生み出されたものの本質を鑑みれば、「推しへ贈るもの」にはなり得ないように感じる。
「pixiv」に100件以上もAI製イラストを連投するアカウントにも、同様の感情を抱いた。怒りとか、鬱陶しさとか、呆れといった感情以前に、「意味があるの？」という疑問を抱いたのだ。

ただ、「表現」ではなく、「注目」を目的とするならば合点はいく。素材であっても、質が非常に高ければ注目は集められる。イラストなどの創作物は、ファンにとってはコミュニケーションの媒介としても機能し得る。AIファンアートが生まれた経緯には、「推しに注目してほしい」という強い動機が眠っているのではないか。

AIイラストのファンアート、
気持ちは嬉しいけど使用とか色々が難しいから
わたしに対して自分では書けないけど、どうしてもファンアートとか目に止まるものを送りたい！って方は
長文の愛のリプちょうだい🎁

長文嫌でも目に止まるから読むよ❤

画用紙にかいた絵でもいいよ！見るよ！
— 天神子兎音 Kotone@⛩️ (@kotonegami) October 11, 2022

その意味で、子兎音さまの言及は非常に正鵠を射るものだと感じた。ファンアートは応援の気持ちを伝え、注目を得る営みであるとするなら、稚拙なイラストでも、長いテキストでも代替可能だ。むしろ、「等身大の自分」が出力できるものこそが、最も正直な気持ちを伝えられるのではないか……と。子兎音さま本人にも、このあたりの心持ちは聞いてみたい。

【10/18追記】
あとあと読み返していて、AI製の絵を「素材」と認識していた自分に驚きつつ（しかしそこまで違和感もない）、じゃあプロンプトとかめちゃくちゃ調整して時間かけてできたものも同様に「素材」として見るのか、それとも「作品」として見るのか、ふと疑問として出てきたので自問した。

たぶん、素朴な感想としては「そこまで手をかけたら作品かも」。と同時に、「手で描いたイラストとはカテゴリーは違うと思う」という素朴な感想も得た。
たぶん、プロンプトを考え、組み合わせ、打ち込む行為に、ある種のエンジニアリング的な側面を見ているような気がする。「ツールを動かすエンジニア」ではあるけど、「手を動かすイラストレーター」ではない。そんな認識。ただ、これも時間が経てば「AIを動かすアーティスト」という見え方に変わる予感もある。「メディアアート」というものが生まれたように。

"Diffusion"は止められない

上節のようなことも書いたが、僕自身は画像生成AIには肯定的だ。万人に「イメージを出力できる力」はあっていいと思うと同時に、それ以上にすでにイラストを描ける人が、自分の技量をコピーした「ゴースト」を作ることで、様々な作業を効率化できることで生み出されるものが多いと考えている。
「Stable Diffusion」を真にファインチューニングするべきは、イラストレーター本人である、という持論だ（そう感じるクリエイターは多数はじゃないだろう、という見込みはある）。

また、「Stable Diffusion」がこれほどオープンとなった時点で、画像生成AIの拡散と発展を止めることはもうできないのだろうと思う。「NovelAI Diffusion」がリークされた件もあるけど、全世界的に強硬的な対策が打たれない限り、拡散は続くだろう。

なので、僕らが現実的に行うべきは、みんなの倫理と創作観を公開し、すり合わせることで、統一的なルールとモラルを導き出すことなのだろうな、と考える。それを100%実現するのは非常に容易ではないだろう。なのできっと、誰かが割を食う結果になってしまうのだろう、という予感もある。

だからこそ、遠ざけるのではなく、近づけていくことが必要なんじゃないだろうか。ラッダイト運動は現に起きた。だけど産業革命も現に起きた。大きな流れをみんなが意識し、少しずつ歩み寄れたらいいな……という、希望的な観測を結びに書き残す。

その上で蛇足

やっぱ一回くらいはオモコロチャンネルくらいネタにし倒すのが、ちょうどいい免疫のつけ方じゃないかしら。

この記事が気に入ったらサポートをしてみませんか？