おれと画像生成AI
画像生成AIが流行りだして1年以上が過ぎた。
そろそろ昔のことを忘れてきそうなので、個人的に自分が画像生成AIに触れてきたこれまでを振り返りたいと思う。つまりは備忘録である。
まずは自分の立ち位置。
一言でいうと、「古参だがガチ勢ではない」となる。
最新の情報にはほぼついていけていない。
自力で絵は描けない。小説とゲームシナリオは書いたことがあり、プログラミングも少しだけわかる。
Disco Diffusion
初めて画像生成AIに触れたのは、2022年8月初旬で、Disco Diffusion(以下DD)だった。今となっては誰も使っていないAIだ。
一応、Stable Diffusion(以下SD)の前身と言ってもいいのだろうか(確か、DDの開発者が別会社に移ってSDの開発にも携わっているはず)
もはやすでにうろ覚えなのだが、Twitter(去年はTwitterだった! 嗚呼!)でMidjourney(以下MJ)で作った画像がぽつぽつと流れてきて、画像生成AIの進化を知り、そこからMJと違って「無料で使える」というDDの存在を知った。
Google colaboratoryで動かせるということで、Pythonの心得はなかったがとりあえず触って動かしてみた。
当時、日本語でDDの解説をしているウェブサイトはほぼなく、YouTubeにあった英語の解説動画を字幕付きで見てなんとかパラメーターの意味をぼんやりと理解したのを覚えている。
ゲームの素材や小説の表紙に使えるかも、というようなことを当初は考えていたはずだ。
1枚生成するのにかなり時間がかかり、しかも現在のものと比べると大いに見劣りする出来栄えだが、とにかく楽しかった。
「言葉が絵になる」という未知の体験に夢中になったのだ。
Stable Diffusion
そして、SDがやってくる。
StableDiffusionのリリース文の「This release is the culmination of many hours of collective effort to create a single file that compresses the visual information of humanity into a few gigabytes. 」にある、「人類の視覚情報を圧縮して数ギガバイトに!」が未来感あって好きだ。
初日からGoogle colaboratoryに苦労しつつコードを組んで動かした。
日本語解説がその後どんどん出てきたので急がなけりゃもっと楽だったと思うのだけど、その時は乗り遅れられねぇ!って気持ちだった。
DDに比べると生成速度が早く、結果、色々なプロンプトを次々試せるのが楽しかった。
この頃からずっと、各所からコピペしたり解説記事を読んだりして作った自作のGoogle colaboratoryのノートブックを使っている。
四苦八苦してプログラムを組むこと自体も楽しみの一部だと思っているからだが、そのせいで後々、技術の進歩スピードにどんどんと置いていかれることになる。
10月にSD1.5がリリースされた。この辺りからプロンプトを自動で保存するコードを組んだ(pngのメタデータではなく、別途テキストファイルに、だが)ので記録が残っている。
「本を読む女の子」のイラストを生成しようとして諦めたりしていた。足が三本あるし、まともに本も読んでいないが、これでもマシなほうである。手足どころか、顔が複数あるトーテムポール状態のクリーチャーが生成されることもよくあった。
ここから1年経つと、さほど苦労せず↓が出力できるようになってしまうのだから、もはや恐ろしくなってくる。
とはいえ、この頃の素のSD(追加学習していない1.4か1.5)でも、うまくいけばそれなりに見栄えの良いものを作成することができ、だからこそ大いにのめり込んでいくことになる。
素のSDは何かに特化してない分、プロンプト次第で多様な表現が可能だった。
追加学習を施して一点特化したモデルより多様な手法をミックスできるモデルのほうが楽しみの幅が広いように思う。
SD追加学習モデル
SDのリリースからしばらくして、追加学習をしてよりクオリティを高めたモデルが次々と登場する。
おれがよく触っていたのは「seek.art_MEGA」と、もう公開されていない「8528-diffusion」、その後は「waifu-diffusion1.5」のbeta2、さらにその後は同beta3を使っている。
Chat GPT
昨年の12月頃にChatGPTが登場した。画像生成と関係ないじゃないか、と言われそうではあるが(現在は、Chat GPT内で画像生成もできるが…)、おれには大いに関係があった。
前述したように、なんとかかんとかWebUI、とかではなく曲がりなりにも自力で組んだPythonのコードで画像生成をしていた。Pythonの知識なんてほぼほぼ無いのに、である。
そんなおれのもとに、ChatGPT師匠が現れたのだ。聞けば何でも教えてくれるし、サンプルコードも見せてくれる。最高の先生である。
そんな先生の指導の元、
・pngのメタデータへのプロンプトと使用モデル名の保存
・減色
・GIFアニメの作成
・指定色のグラデーション画像を生成し、それを元にI2Iする
などの機能を実装した。
特にグラデーションからのI2Iはおれの好きなタイプの画像を生成する役に立った。
control netとか
control netにはハマらなかった。単に面倒だったというのもあるが、その頃にはすでに、言葉からランダムに画像を生成すること―――即ち、理想のビルド(言葉の組み合わせ)を見つけ、それを使ってレアアイテム(理想のイラスト)を手に入れるというスキルビルド&トレハンゲーム―――に夢中になっていたからだ。
Bing Image Creator(Designer)
そして2023年12月現在。
おれがハマっているのはBing Image Creator (いつのまにかDesignerに名前変わった?)である。
内部ではDALL·E 3を使っているらしいが、まず品質がよく、環境を準備する必要もなく(なにせ天下のマイクロソフトの提供だ)、そして何より素晴らしいのは日本語でプロンプトを作っても良いというところだ。
いちいち単語を英訳したりしなくて良く、直感的に入力できるのがすばらしい。(もちろん、英語でも良いし、日英混ざっていても大丈夫だ)
外出先でスマホからアクセスすることもできて、「スキルビルド&トレハンゲーム」として最高に手軽で楽しい。
毎日付与されるブーストを使い切ると生成が遅くなるが、そのぐらいでないと一日中張り付いてしまいそうなので丁度良いとすら思う。
センシティヴな画像は出せないが、別に求めてないし問題ない。
そんなわけで、最近は自作のPythonコードを起動することも少なくなった。
Image Creatorで生成したものを、Stability AIのClipdropにあるUNCROPで横長にし、waifu2xでアップスケーリングしてPCの壁紙にするというのが最近のフローである。(場合によっては間にSDを経由して画像を調整しても良いが、そこまでするのは稀だ)
―――と、いうわけで、画像生成AIに触り初めて1年半の今のところの到達地点はこんな感じである。
気が向いたら、Image Creatorのプロンプトについて記事を書く(かも)
この記事が気に入ったらサポートをしてみませんか?