お絵かきAI黎明期の思い出

2022年12月10日 23:42

KMC Advent Calendar 2022 の11日目の記事です。よろしくお願いします！

お絵かきAI、人気だと思います。

とくに萌え系イラストに関してはNovel AIが覇権を握っているのではないでしょうか（2022年12月現在）。

Pixivで「Novel AI」のタグを検索すると現時点でおよそ14万件ヒットしました。ちなみに私がたまに検索する「褐色」タグは11万件でした*。作品数だけみても他の競合サービスを抑えて圧倒的です。

いまや「はやい、やすい、うまい」の要求を完璧といっていいほどに叶えてくれるお絵かきAIですが、黎明期のころは今ほど便利な存在ではありませんでした。

黎明期の個人的な思い出話を語るので興味のある人はぜひ覗いていってください。技術的な話はほどんどしません（できません）。

*それも最近の投稿はほとんどがNovel AI製です

黎明期って？

そもそもお絵かきAIがこれほど広まったのは2022年8月22日のStable Diffusionの公開（オープンソース化）があったからです。

今まで秘匿されていたお絵かきAIの中身が公開されたことで個人の有志や企業によって次々と改良モデルが生みだされていきました。

https://twitter.com/kuronagirai/status/1567955183136821249?s=20&t=sxz1mGJsAJRvQH1twK75Fg

9月9日時点の勢力図がこちらです。まさに群雄割拠。

Stable Diffusionの大きな欠点として「萌えイラストに弱い」というのがありました。学習データがリアル寄りだったので…
そのためStable Diffusion公開以降はいかに萌えイラストに特化したモデルを作るかの勝負がアツかったですね。図にNovel AIはありませんが孤独に爪を研いでいたはずです。

個人的な感覚ではWaifu Diffusionが当時最もポピュラーでした。
有志によって（無断転載イラストで）大量学習が行われたモデルで、Stable　Diffusionよりは比較的出来の良い萌えイラストが生成できました。

図のとりんさまAIやNovel AIとは違って企業が囲っているわけではないので常に更新されては公開されてましたし、なにより完全無料だったのが嬉しかった。

私のいう黎明期は萌えイラスト生成の覇権がこのWaifu DiffusionからNovel AIに移るまでの期間を指しています。大体2022年9月～10月初週までです。

もちろん今もすさまじく進化を続けている界隈ではありますが、Novel AIという企業製のAIが有料サービスとして十分大衆に受け入れられた時点で、ひとつの転換点を迎えたのかなと思います。

思い出

・人が少ない！

なによりも、当時は人が多くありませんでした。
やってみようにもPCスペック等の制限により環境を整えるのが面倒でしたし、クオリティ自体も注目を集めるほどにはなっていなかったのだと思います。

SNS、匿名掲示板、discordとインターネットの各地に小規模なコミュニティが存在したのでそこで細々と知見を共有しあっていました。

海外で発足した知見共有用のdiscordサーバは特に国際的で活発でした。
日本人の割合はそれでも2割程度と多かったので、南米出身の管理人が気を使って日本語オンリーのチャンネルを作ってくれたのは面白かったです。

ただ日本語チャンネルといってもトピックごとに細分化もされていない雑多チャンネルのようなもので、議論が荒れがちで私はあんまり馴染めませんでした…今の様子は知りません。

・プロンプトが足りない！

一般的なお絵かきAIではテキストで描かせたいものを指示してそれに基づいてイラストが生成されます（今更ですが）。そしてその命令文をプロンプトと呼びます。

プロンプトの長さには制限がありました。プロンプトの長さ制限自体は今のNovel AIでも存在しますが、Waifu Diffusionに限らず当時のお絵かきAIはこの制限がずっと厳しかった…

もう少し具体的にいうと入力されたプロンプトはAIに読み込まれる際に「トークン」という単位に分解されます。
例として"A sound mind in a sound body."というテキストをトークンに分解してみると…

['a', 'sound', 'mind', 'in', 'a', 'sound', 'body', '.']

こうなりました。全部で8トークンです。
当時のWaifu Diffusionは75トークンが限界でした。

当時の（今も？）一般的なプロンプトの書き方としては

全体の画風（"beautiful anime" とか。NovelAIだと"masterpiece"が定番みたいですね）
イラストの主題（"1girl looking at viewer" とか）
主題のディティール（”black shorts”とか"hair with pigtails"とか）

を順番に羅列していきます。
75トークンしか使えないとなると、画風や主題を羅列するだけでトークン数を使い切ってしまい、癖（へき）の詰めどころである主題のディティールを指定できないこともしばしば…
ちなみに上の例でも見た通りピリオド(.)やドット(,)も1トークンにカウントされるので、プロンプトを羅列するときはドット(,)ではなくきちんと空白で区切ってトークン数を節約している人もいた。泣けます。

絵文字を使うとトークンの節約になる！と流行った時期もありましたが、
絵文字がAIに読み込まれる際は記号と英数字から成る文字コードに変換されるのでむしろトークンを喰う結果になっていました。

虹の絵文字🌈(文字コードは 🌈)をトークン化すると…
['&', '#', 'x', '##1', '##f', '##30', '##8', ';']
8トークンにもなってしまう！

文法的に意味の通るプロンプトでないと（適切にトークン化するのは）難しい。*

それでも絵文字が含むニュアンスは多種多様なので、絵文字によっては思わぬ効果を生んだかもしれません。
💦の絵文字だけでえっちな絵が出てくるのは笑いました。

*トークン化に使うツールによって結果は異なります

・顔が破綻する！

背景が多少破綻していても別に気にしないのに、人物の顔がおかしいとなると人間はとたんに敏感になります。顔がウリの萌えイラストならなおさらです。人間である以上、仕方のない習性なのでしょう。しかしAIにそれを理解させるには時間を要しました。

……顔の破綻は今のAIでも完全に克服したわけではないですが、当時はもっと切実な問題でした。
Novel AIレベルの人物イラストが出来ていたなら多分ＬＲ（レジェンドレア）扱いです。

なんとか出来の良い顔にするために、人々は画風の指定をモリモリにしました。

先述した通り「全体の画風」・「イラストの主題」・「主題のディティール」という風にプロンプトを指定していくわけですが、「全体の画風」をより詳細に指定することで、安定しなさすぎる顔のクオリティをマシにする試みがみられました。

"8k wallpaper"、”scenery”　などは単純に高解像度にしようとしていますね。"trending art on pixiv"、”kyoto animation”、"Princess_Connect"などは、ちゃんとしたイラストに関連深そうな固有名詞を入れることでちゃんとさせようとしています。

これらのプロンプトが盛りに盛られてなんとか顔のクオリティがましになった状態でした。

”loli dwarf”を入れることで可愛い顔を安定して出せることを発見した人もいました。

これは当時その方のプロンプトを一部拝借して作成したイラストです。
キュート。

当然かわいい顔のためにはそれなりのトークン数を犠牲にする必要があります。Novel AIは特定の絵柄を集中学習している（と思われる）ので一定のクオリティを保つことに成功しています。余分な画風指定のトークンも必要なくディティールの指定に専念することができる点で圧倒的に便利です。

一方で全く顔のクオリティが安定しなかったWaifuDiffusionは確かに不便でした。しかし、各々がプロンプトを工夫して一種の「画風」を獲得していくさまは見ていて面白かったです。

・二次創作ができない！

（これに関してはちょっと話が複雑になります）

自分の好きな版権キャラクターを好きなシチュエーションでイラストにしたい…そんなskebのような願望をAIで叶えたいと思った人は多いでしょう。

当時は版権キャラクターを再現するのは最難関でした。

まず素直にキャラクター名をプロンプトに指定しても再現は絶望的です。
髪色とか一部要素が近づく程度。

AIお絵かき(stable diffusion, waifu diffusion, midjourneyなど)の基本理論をもとに、狙った絵を作り出すコツ。

DALL-E2製作者の解説（https://t.co/7PhmcffKu9）を聞いて、今まで腑に落ちなかったところがだいぶ解決したので自分なりの解釈をば。 pic.twitter.com/MKIb33IVOD
— RIZ@AI illustrator (@roiyaruRIZ) September 14, 2022

とにかくキャラクターの固有名詞に期待してはいけないみたいです。
初音ミクとかは比較的再現してくれるんですがそれでも物足りない…

そんな感じでくすぶりつつも、9月上旬くらいまでは「Textual Inversion」なるものが二次創作の手段として利用されていました。

具体的な手順は↑の記事を見てください。
簡単にいうとAIモデルの表層を追加学習するよ！という手法で、自分が用意した画像（例えば初音ミクの画像数枚）と特定のワード（例えばMiku）を紐づけることを目的としています。

ただ効果は期待したほどではなく、特定イラストレーターの画風を模すには使えるかも…という評価でした。ちなみに日本で話題になった「mimic」はこの手法を利用したものと思われます。

もっと良い方法がほしい──
そして9月中旬ごろに「DreamBooth」の活用が本格化します。

DreamBoothはもともと合成画像生成を想定して開発された手法らしいのですが、版権キャラクターの学習に転用できないかということで版権キャラクターを学習させたモデルが現れるようになりました。

Textual Inversionと大きく異なる点のひとつがその学習範囲です。
表層を追加学習するだけのTextual Inversionとは違い、AIの脳みそ（モデル）をまるごと再学習してしまうのがDreamBoothです。私の理解では。

とはいえ丸ごと学習させる分求められるPCスペックも尋常ではなく、初期のころは同じく尋常ではない有志が作成した学習済モデルがたまに投稿される程度でした。

有名どころでいうとVtuberの「がうる・ぐら」を学習させたモデルなどです。Vtuberは学習データ内のアングルが固定されていて学習に向いていそうですね。

その後DreamBoothの軽量化が進み、個人が任意の版権キャラクターを学習させることも容易になりました。
9月下旬から10月の初週までは色んな版権キャラクターの学習済モデルが出回っていた記憶があります。

そして企業バトルへ──

10月3日、Novel AIに画像生成機能が実装されました。
彼らは独自の技術を磨いており、他サービスの弱点を克服していました。
そのハイクオリティーな作品群が与えた衝撃はこれまでになく強大で、AIイラストが大衆化したのもこの時が境だったのだと思います。

執筆時点ではNovel AIが大きなシェアを獲得したままですが、niji journyなる新勢力もβテストを終えてサービスを開始しており企業同士の覇権争いは今後も続くと思われます。

↑のサイトを見て分かる通り、pixivで人気が出そうな絵柄を一通り網羅できていそうです。
ちなみにniji journyの開発元はStable Diffusion公開以前にMidjourneyというお絵かきAIを運用していたことで有名です。

AIが進化し続ける一方、私はというと10月ごろから卒論に追われすっかりお絵かきAIに疎くなってしまったのが現状です。

こういうのを作りたい！という強い動機もなかったので、時代の変化に身をおけて満足した、というのもあります。

ですが、せめて「こんな時代もあったなあ」と懐かしめる程度には記録を残したかった。

これからも早すぎる世の中の変化に圧倒されるかもしれませんが、そんな中にあっても、少しだけ穏やかに「あの頃」を思い出せたらいいなと思います。

おわり！

この記事が気に入ったらサポートをしてみませんか？