【AIイラスト】いろいろ調べてみた【情報収集】

2022年10月22日 16:51

Twitterの動向とかを見ていると、だいぶ出遅れた感は否めないですが、AIイラストについていろいろまとめていきたいと思います。
また、調べている最中のいろいろなことをメモとして利用した記事になりますので情報としては整理されていません。いろいろな情報が散らばっていますが、もし誰かの役に立てばうれしいです。

2022/10/22の私の調査開始時いろいろな情報
・趣味で絵を描く
・とりあえずNovel AIにTabletで登録。5枚くらいいじってみて「すげー！」となった。

どんな種類があるの？

今、最も話題の画像生成AIサービス　1位は(2022年10月21日 12時08分公開)
https://www.itmedia.co.jp/news/articles/2210/21/news107.html
この順位は記事数だったりTweet数だったりで集計してるみたいですね。おそらく有名どころは抑えているでしょうし、Midjourney、Stable Diffusion、mimic、DALL・E2、Novel AI、ERNIE-ViLGあたりを調べていこうと思います。
時系列的にはDALL・E2→Midjourney→StableDiffusion→Novel AIなんですかね。
StableDiffusionがオープンソースで公開されてからはforkして派生して登場しているみたいですね。
みんな大好きお絵描きばりぐっどくんとNovel AIはちょっと触りました。

DALL・E2(https://openai.com/dall-e-2/)

2022年4月に研究者・専門家向けに提供が始まった画像生成・編集AI
2022年7月に一般向け
宇宙飛行士が白い馬にまたがって宇宙空間にいるイラストってここ発だったんだ
人工知能研究団体・OpenAIが2021年に発表したコンピュータービジョンシステム「CLIP」をベースに作られている
画像認識AI「CLIP」：画像を要素として分解している模様。「貯金箱(piggy bank)」を認識する際、CLIPは、「finance(経済)」と「人形、おもちゃ(doll,toys)」などの異なる要素を掛け合わせることで認識とかは面白いなぁと
I spent $15 in DALL·E 2 credits creating this AI image, and here’s what I learned
https://pub.towardsai.net/i-spent-15-in-dall-e-2-credits-creating-this-ai-image-and-heres-what-i-learned-52f352912025
prompt engineering：プロンプトを設計して目的の結果を得るプロセス。インプットが「言葉」なわけだから、そりゃそうか。でもCLIP時点で画像から要素を抽出することも可能なので、インプットが「画像・イラスト」→「言葉」にすればいいってこともある？現実では「言葉で説明するより書いちゃったほうが早い」ってこともあるし。
作りたいものがあって、それを言語化して、試してというプロセスはどうしても必要。
DALL-E 2を組み込んだMicrosoft Designerが発表されたとのこと。2022年10月12日https://designer.microsoft.com/。「文章を理解してそれっぽいデザインの画像を作成する」っていうのはとっても相性よさそう。ほぼ使い捨てのパワポの写真とか。先に原稿書いておいてそこから画像生成して画像だけポンと張っておけばなんか話せそう。
生成されたイラストを見てるとアート系に強そう。ちょっと自分のイラストとはマッチしないかも？でも商用利用として利用可能とのことなので、背景とかには使えそう。イラスト風の森とか背景書くのをサボって利用とか。写真を加工してイラスト風にするのとどっちがいいのかな。いまファンタジー絵描いてること多いからよさげ
https://note.com/yubais/n/n185da32f9227
画像を部分的に削除して、そこにイラストを補完してくれる機能もある様子。ある程度文脈を押さえて理解もしてくれる様子。
ウエイティングリスト？一般公開直後は人気があって制限がかかっていたようだが、現在(9/28以降)は解放されている様子。
価格帯は？ $18 の無料クレジットが付与される様子。一旦Microsoft Designerのベータ版使えるなら試してみる。
Twitterでの制作物みるとStableDiffusionとかNovel AIとかのがあってそう。「アート」っぽい。新しい構図を得るために使うっていうのに使うにも少し違う印象。
画像生成AI「DALL·E 2」、絵画の枠外を描き足す新機能Outpaintingを追加
https://www.techno-edge.net/article/2022/09/06/242.html
似た形でいろいろ外も描いてくれるとのこと。ちょっと楽しそう。これは使ってみると面白いかも。MV的な動画作ってるともちょっと広い絵が欲しいなぁってときもあるので、そういった時に使えるかも。

Midjourney(https://www.midjourney.com/home/)

https://github.com/midjourney/docs
2022年7月13日にオープンベータ版
Discord上で動くツールなんだ！となる。25枚までなら無料利用もできるようなので使ってみる。文字入力→ボタンポチポチで更新とかもっかいつくって！とかもできるのはハードル低くていい。
アートのコンクールで賞をもらった話は少し盛り上がった記憶。
画像生成AIのMidjourney創業者が語る「AIアートが起こす混乱と未来」
https://forbesjapan.com/articles/detail/50610
Midjourneyのミッション：人類という種の想像力を広げようとしている。結構否定的なインタビューというか質問内容だった。世の中の今の文脈としてはそんな感じもする。
メモ：結局「やりたい」「つくりたい」があって初めて生かせるという点は今のところそう。それでもたとえば文脈にあったLINEスタンプを自動で生成して…ってことになればもう一部になって「絵は自分で書くもの」ではなくなっていくのかもしれない。絵というものを作る手段が増えた印象。紙に書いてたのが、写真が出てきて、デジタル絵が出てきて、デジタル絵もいろいろなアプリがあってすでに色塗りとか自動でもやってくれたり、3Dモデルも写真とって…ってしなくてもデジタル世界で自由に配置できて、その選択肢の一つとしてのツールってニュアンス。自分は結構助かりそう。
絵の大会にはレギュレーションみたいなものができてくるのかなーとか。ツールが違えばそりゃアウトプットも変わるでしょと。優劣ではなくて。2倫のmotoGPと4輪のF1のタイムとか、オリンピックの100m走で人と馬が走ってもね…とか。それでどちらかのものが下ってわけでもないと思う。

StableDiffusion

GitHub：https://github.com/CompVis/stable-diffusion
ローカルPCに構築して利用できる模様。一応うちのPC3060Ti積んでるので動くかな？(Most NVidia GPUs with 6GB or more, at 512 x 512 AMD)https://stability.ai/faq
Colaboratoryでもサクッと構築できるのね？ちょっと見てみる。
DreamStudio β（オンライン版 stable diffusion）もある模様。先にこっちで使ったほうがいいかもしれない。
環境構築方法
https://zenn.dev/robes/articles/8ea32494d40f06
今まで見たような絵のほかの部分に対して、それっぽいものを補完していくみたいなのはこれでもできる(というかもう基本機能なのか)
Waifu Diffusionという学習モデルをイラスト特化にしたものがある様子
https://digitallife.tokyo/archives/2022/10/waifu-diffusion-stable-diffusion-web-ui-automatic1111.html
https://digitallife.tokyo/archives/2022/10/stablediffusion-web-ui-novelai.html
ちょっと体験できるデモサイトを触ってみた
https://huggingface.co/spaces/stabilityai/stable-diffusion

オープンソースなので日本語でプロンプト指定できるサイトもある。https://memeplex.app/
けど、なんとなく中で日本語→英語翻訳→インプットだろうし、英語入力でノウハウためていったほうが今後の使いまわしもよさそう。呪文とかそういった系
StableDiffusion : テキストから画像を生成する機械学習モデル
https://medium.com/axinc/stablediffusion-%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%81%8B%E3%82%89%E7%94%BB%E5%83%8F%E3%82%92%E7%94%9F%E6%88%90%E3%81%99%E3%82%8B%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%A2%E3%83%87%E3%83%AB-aa3676787a09
データセットで変わるから、何をぶち込むかでシンプルに出力結果が変わるのか。StableDiffusionのデータセットはLAION-5B(https://laion.ai/blog/laion-5b/)というものらしい。学習モデルも公開されているから、ローカルPCで構築することもできるし作成もできると。
CLIPによるText Encoderと、UNetによるAutoEncoderを使用し、LatentDiffusionModel（拡散モデル）によってtext2imageを構築…とかなるとしっかり機械学習的な何かを学ばないと理解できないね。単語→特徴ベクトル→イメージデコーダから画像を生成
環境構築にGoogle Colabを推奨してる人もいる。ローカルにGPUない人とか、環境作り直しとかサクッと試すのに便利だからかな？料金形態とAWSとかローカルで構築した時の感じは比較しておきたい(一応そこそこPC
持ってるので、これで構築でもよさそう)
ローカルに構築できるという点でいろいろフットワーク軽くできそうなイメージの一方で、面倒かなぁとも思ってたけど(はじめのうちは環境構築で苦戦してる記事を多く見た)、この2-3か月で一気にいろいろ整備された印象。
結構難しいのかなと思っていた同一モデルでの複数画像生成も行けそう
【StableDiffusion】同一人物のさまざまな表情画像を生成するには？
https://egatech.net/stablediffusion-facial-expression/
シード値という概念があるのね。一度生成された画像からシード値→シード値を指定して実行

StableDiffusionからforkされたもの

https://www.activitv.com/entry/stable-diffusion/
を参考。あんまりITになじみがない人はforkって概念が理解しづらいかもしれない。コードが公開されているので、自分にとってもっと使いやすいように一部改修とか追加とか、派生していくイメージ
Memeplex
日本語で生成できるもの。今のところ無料で利用できる。サクッと日本人が試すのには向いていると思う。
お絵描きばりぐっどくん
LINEで友達追加するとサクッと使える。これもとても便利。使ってるとたまに「もうむりっす」って言ってくる。
Stable Diffusionのモデルで2次元が得意なモデル
trinart_stable_diffusion_epoch3：https://huggingface.co/naclbit/trinart_stable_diffusion
trinart_stable_diffusion_v2：https://huggingface.co/naclbit/trinart_stable_diffusion_v2
waifu-diffusion：https://huggingface.co/hakurei/waifu-diffusion
もともとhttps://waifulabs.com/はキャラデザの参考に使っていたりしたので、waifu-diffusionは出来よさそう(名前かぶってるし出所にたようなところだよね？(出典調べてない)
waifuモデルとtrinartモデルの割合調整みたいなことができる仕組みもある。がっつり2次元とアートの割合調整みたいなことができるイメージ？
https://github.com/eyriewow/merge-models
AUTOMATIC1111
txt2img・img2img動作できるの強いでしょ。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/blob/master/screenshot.png
ちょっと使ってみたい
justinpinkney
インプットした画像を元にバリエーションを生成してくれるとのこと。mimic的なイメージ？使ってみる。
rinnakk
日本語で入力できるSD。りんなちゃん嚙んでるの？
https://github.com/rinnakk/japanese-stable-diffusion
生成した画像から動画を作成（Deforum）
これはそのうち使ってみたい。
あとはimg2promptみたいなサービス(https://replicate.com/methexis-inc/img2prompt)もある結構便利そう。AUTOMATIC1111で構築すれば解決しそう？

Novel AI(https://novelai.net/)

2021年6月15日にベータ版が公開され、もともとは小説を生成するサービスとして登場したが、2022年10月3日に画像生成機能が実装。img2imgもできる。
流行した点としては日本のアニメっぽいイラスト生成に強い(Danbooru)。
とりあえず便利。とても便利。色ラフを入れて文章を入れたら「それそれ！」というイラストを出力してくれる。
元素法典は驚きました(https://docs.qq.com/doc/DWHl3am5Zb05QbGVs)。というかなんだこの知識データベース。プロンプト職人ができるのかな？とか思ったらそれすらも不要で「プロンプトはこれだよ」となる。ほしい画像を手に入れる方法はもうすでにあるからあとは何を作りたいか、何をきれいだと思うかみたいなところに集約される？
調べた印象として、元データがDanbooruなのとimg2imgもできるという点でAUTOMATIC1111のSaaSってイメージ。環境構築なし、ユーザー登録のみでワーッと作れるので一気に流行→ノウハウがたまっていくっぽ。確かに登録してから作るまでとても速いし、どんなサーバー使っているのかわからないけど1枚の画像の生成速度がとても速い。
サクッとほしい画像が作れるのは楽でいいです。この文章のアイキャッチ用に作成した画像もNovel AIで作りました。いままでnoteのみんなのイラストから探していたのですが、それより手間が少なく作成できます

A girl thinking in front of a computer,illustration,kawaii,glasses.

mimic(https://illustmimic.com/)

なんかわけわからないレベルで拒否反応を受けていた印象
10月中にベータ版2.0を公開するとのこと(もう使える？)
Stable Diffusionを使ったものではないとのこと。
どう変わっていくのか結構楽しみなので使ってみようと思う。

考察系の記事

｢神絵AI｣はアーティストの仕事を奪うか？ユーザー動向からMidjourney、StableDiffusionのビジネス活用を考える – ビジネスインサイダー寄稿記事掲載
https://www.paloaltoinsight.com/2022/09/22/businessinsider-52/

AI画像生成ツール「Stable Diffusion」「Midjourney」を使ったイラスト集が早くも発売

もう紙の本も出るのね。

Stable Diffusionの国別モデルを作る予定です。日本の大手IPホルダーとの対話も予定しています。日本人は創造することが大好きです。私たちのウェブサイトの訪問者の3分の1が日本人であるのは、そのためだと考えます。
試してみる

https://signal.diamond.jp/articles/-/1407?fbclid=IwAR21C2CImImehsneRVZsz-lkLA8C2TQ1j4IZcAIBKMqCo4EM416tZuKpETU

にゃるほどとなるなど。

とりあえずやってみようと思ったこと

少し量が多いのと、これからもどんどんいろいろ出てきそうなので、気になったものだけ触っていく。

AUTOMATIC1111+Waifu Diffusionで環境構築
https://github.com/justinpinkneyに自分の絵を入れてどんな感じになるのか確認
ユーザー登録済みなので、Midjourneyをいじってみる
今月分のNovel AIの課金分を使っていろいろ試す
mimicの登録申請

所感

ネット記事とかを見てると「話題性に乗ってブログのPV増やしてやろう」「Twitterでいいねを増やそう」みたいなものがとっても多い印象。きっとこの人たちはそのうちいなくなる。多分そのうち「文章から音楽が！」とか「イラストから動画が！」ってツールが流行ったらそっちに流れるのでは？
バズ狙いでない人たちの中には「自分で絵が描ける」っていうシンプルな喜びを感じてる人も結構いる印象。みんな作るの好きなんじゃんという。ただ、絵描くのって勉強とか練習とか、シンプルに1枚描く時間がかかったりするのでいままでできなかった人が、その人の持ってる何かと結びついてできるといいなぁと。病院のイラスト付きの注意事項とかも専門の知識を持っている人がこういったツールをつかってイメージしたものに近いものを出力できるようになれば、とかとか。
「AIに書いてもらって人間はもういらないね」っていう人は、もう多分人を貶めないといけない病気の人だから仕方がない。きっと写真ができた時も「これで風景がはいらないね」とか「車があるんだから早く走れても意味ないよ」とかずっと言ってる人だと思う。ノイズとして切り捨てていい。
すごい絵師さんたちはわからないけど、自分みたいに趣味でちょこちょこかいてるくらいの人はとっても助かりそう。描きたいもの、作りたいものがふわっとあって、デザインアイデア、構図、なんかヒントないかなー、って時に使って「あぁ、これいいね」ってパターン(いまのpintarest的な使い方)。こういったイラストをいい感じに仕上げてほしい(自分で描くと10時間くらいかかってしまうので)って時に8割くらいまでもっていってもらって微調整するとかそういったパターン(ココナラとかで安価で依頼している部分)は今すぐにでもできそう。

とりあえずいろいろ楽しめそうなので、触ってみたいと思います。

この記事が気に入ったらサポートをしてみませんか？