おれと画像生成AI

2023年12月7日 01:48

画像生成AIが流行りだして１年以上が過ぎた。
そろそろ昔のことを忘れてきそうなので、個人的に自分が画像生成AIに触れてきたこれまでを振り返りたいと思う。つまりは備忘録である。

まずは自分の立ち位置。
一言でいうと、「古参だがガチ勢ではない」となる。
最新の情報にはほぼついていけていない。

自力で絵は描けない。小説とゲームシナリオは書いたことがあり、プログラミングも少しだけわかる。

Disco Diffusion

初めて画像生成AIに触れたのは、２０２２年８月初旬で、Disco Diffusion（以下DD）だった。今となっては誰も使っていないAIだ。
一応、Stable Diffusion（以下SD）の前身と言ってもいいのだろうか（確か、DDの開発者が別会社に移ってSDの開発にも携わっているはず）

もはやすでにうろ覚えなのだが、Twitter（去年はTwitterだった！　嗚呼！）でMidjourney（以下MJ）で作った画像がぽつぽつと流れてきて、画像生成AIの進化を知り、そこからMJと違って「無料で使える」というDDの存在を知った。

Google colaboratoryで動かせるということで、Pythonの心得はなかったがとりあえず触って動かしてみた。

当時、日本語でDDの解説をしているウェブサイトはほぼなく、YouTubeにあった英語の解説動画を字幕付きで見てなんとかパラメーターの意味をぼんやりと理解したのを覚えている。

ゲームの素材や小説の表紙に使えるかも、というようなことを当初は考えていたはずだ。

１枚生成するのにかなり時間がかかり、しかも現在のものと比べると大いに見劣りする出来栄えだが、とにかく楽しかった。

「言葉が絵になる」という未知の体験に夢中になったのだ。

Stable Diffusion

そして、SDがやってくる。

StableDiffusionのリリース文の「This release is the culmination of many hours of collective effort to create a single file that compresses the visual information of humanity into a few gigabytes. 」にある、「人類の視覚情報を圧縮して数ギガバイトに！」が未来感あって好きだ。

初日からGoogle colaboratoryに苦労しつつコードを組んで動かした。
日本語解説がその後どんどん出てきたので急がなけりゃもっと楽だったと思うのだけど、その時は乗り遅れられねぇ！って気持ちだった。

DDに比べると生成速度が早く、結果、色々なプロンプトを次々試せるのが楽しかった。

この頃からずっと、各所からコピペしたり解説記事を読んだりして作った自作のGoogle colaboratoryのノートブックを使っている。

四苦八苦してプログラムを組むこと自体も楽しみの一部だと思っているからだが、そのせいで後々、技術の進歩スピードにどんどんと置いていかれることになる。

10月にSD1.5がリリースされた。この辺りからプロンプトを自動で保存するコードを組んだ（pngのメタデータではなく、別途テキストファイルに、だが）ので記録が残っている。

SD1.5で作成
プロンプト masterpiece highly detailed oil painting of solo beautiful girl detailed beautiful face reading book Sitting elegantly in a wooden chair dark medium hair and wearing high school uniform black stockings large breasts On Cafe Terrace german romanticism by Artist Akihiko Yoshida by Artist Range Murata trending on pixiv trending on Artstation feet out of frame dutch angle award Nプロンプト amateur, poorly drawn, ugly, flat, signature, watermark, username,conjoined twims, siamese twins, stacked torsos, totem pole, istock, stock photo, too many limbs, chibi, weird eyes,nsfw, owres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,missing fingers,bad hands,missing arms, long neck, Humpbacked, cross one's legs

「本を読む女の子」のイラストを生成しようとして諦めたりしていた。足が三本あるし、まともに本も読んでいないが、これでもマシなほうである。手足どころか、顔が複数あるトーテムポール状態のクリーチャーが生成されることもよくあった。

ここから1年経つと、さほど苦労せず↓が出力できるようになってしまうのだから、もはや恐ろしくなってくる。

Bing Image Creatorで作成
プロンプト：壁に寄りかかって本を読んでいる少女。アニメ系の画風。ビビットなカラーリング。少女はショートカットでパンキッシュな服装をしている。

とはいえ、この頃の素のSD（追加学習していない1.4か1.5）でも、うまくいけばそれなりに見栄えの良いものを作成することができ、だからこそ大いにのめり込んでいくことになる。

素のSDは何かに特化してない分、プロンプト次第で多様な表現が可能だった。
追加学習を施して一点特化したモデルより多様な手法をミックスできるモデルのほうが楽しみの幅が広いように思う。

SD追加学習モデル

SDのリリースからしばらくして、追加学習をしてよりクオリティを高めたモデルが次々と登場する。

おれがよく触っていたのは「seek.art_MEGA」と、もう公開されていない「8528-diffusion」、その後は「waifu-diffusion1.5」のbeta2、さらにその後は同beta3を使っている。

8528-diffusionで作成　好きなモデルだったがいつの間にか非公開になっていた

WD beta2 生成した画像をさらにI2Iしてキラキラした雰囲気にするのにハマっていた

Chat GPT

昨年の12月頃にChatGPTが登場した。画像生成と関係ないじゃないか、と言われそうではあるが（現在は、Chat GPT内で画像生成もできるが…）、おれには大いに関係があった。

前述したように、なんとかかんとかWebUI、とかではなく曲がりなりにも自力で組んだPythonのコードで画像生成をしていた。Pythonの知識なんてほぼほぼ無いのに、である。

そんなおれのもとに、ChatGPT師匠が現れたのだ。聞けば何でも教えてくれるし、サンプルコードも見せてくれる。最高の先生である。

そんな先生の指導の元、
・pngのメタデータへのプロンプトと使用モデル名の保存
・減色
・GIFアニメの作成
・指定色のグラデーション画像を生成し、それを元にI2Iする
などの機能を実装した。

特にグラデーションからのI2Iはおれの好きなタイプの画像を生成する役に立った。

control netとか

control netにはハマらなかった。単に面倒だったというのもあるが、その頃にはすでに、言葉からランダムに画像を生成すること―――即ち、理想のビルド（言葉の組み合わせ）を見つけ、それを使ってレアアイテム（理想のイラスト）を手に入れるというスキルビルド＆トレハンゲーム―――に夢中になっていたからだ。

Bing Image Creator(Designer)

そして2023年12月現在。
おれがハマっているのはBing Image Creator (いつのまにかDesignerに名前変わった？)である。

プロンプト：looking at viewer.　煙草を吸っている。メイドをイメージしたパンキッシュでタイトなシルエットの服装をした凛々しい女性が、石畳の美しい通りを歩いている。ミディアムヘア。黒い瞳。イヤリング。中世風の書店街。最新のアニメと水彩画をミックスした2020年代の画風。星空。美しい空模様。人物へフォーカス。ハッピーな雰囲気。スチームパンク。ビビッドなカラーリング。Atrium structure.

内部ではDALL·E 3を使っているらしいが、まず品質がよく、環境を準備する必要もなく（なにせ天下のマイクロソフトの提供だ）、そして何より素晴らしいのは日本語でプロンプトを作っても良いというところだ。

いちいち単語を英訳したりしなくて良く、直感的に入力できるのがすばらしい。（もちろん、英語でも良いし、日英混ざっていても大丈夫だ）