stable diffusion : お絵描きAIは「Japanese KAWAII」を描けるのか？その2

2022年8月27日 18:46

　こんにちはteftefです。今回もstable diffusion です。今回は前回と違いimg2imgを試してみました。stable diffuionは自然言語のキーワードを入力するとその意味に沿った画像が生成されます。前回はこの入力する自然言語を深掘りし、「KAWAII」を生成しました。今回も目標は「KAWAII」とし、画像をもとに、そこに自然言語で要素を追加していく方法を試しました。

前回やったこと

前回の記事はtext2imgつまり言語から画像を生成することをしました。ほとんど無から生成してることと一緒なので、どうしてもおかしいところがあったりうまくいかない部分がありました。その中でも比較的高い確率で「KAWAII」を生成した入力は
ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー
『a kawaii young girl with brown long hair wearing sailor-style uniform, full body, beautiful face,black short skirt, geta,AK-47, whole body, arknights, genshin impact, pixiv』
ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー
『a kawaii young girl with brown long hair wearing white long dress,Genshin impact styl,makoto Shinkai,beautiful face,thick coating painting, full body, whole body, pixiv,flower blooming』
ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー・ー
でした。

a kawaii young girl with brown long hair wearing sailor-style uniform, full body, beautiful face,black short skirt, geta,AK-47, whole body, arknights, genshin impact, pixiv

a kawaii young girl with brown long hair wearing white long dress,Genshin impact styl,makoto Shinkai,beautiful face,thick coating painting, full body, whole body, pixiv,flower blooming

promotはこの2つをもとに生成していきます。

img2img

コードの用意

まずはこちらのサイトから

https://colab.research.google.com/github/patil-suraj/Notebooks/blob/master/image_2_image_using_diffusers.ipynb#scrollTo=JlUXXh7MEFPA

前回同様、Hugging Face Hubにログインし、トークンを獲得し、それをコピーしておきます。上から実行していくと入力をさせるところがあるので、そこに入力します。124行目目まで実行したらここで自分の画像URLを取得します。
ここで2点ほど注意があります。

UnidentifiedImageError: cannot identify image file

透明部分(アルファチャンネル)の情報があるとを吐く。
Google Drive に保存した画像では読み込まれずエラーを吐く。

1つ目の解決法はこちらを参考にしました。
フォルダに保存した画像を右クリック⇒編集⇒名前を付けて保存でjpgに直します。もしくは拡張子をそのままjpgに直しても大丈夫です。
2つ目の解決法はDiscordに乗せることです。主はdiscordの1人チャンネルを作り、アップロードし、画像のリンクを取得しました.

それと画像が768×512にリサイズされるので横長長方形画像を選んだほうがいいです。そして全てstrength=0.75です。

実行

ver1

著作権フリーイラスト画像と有名人の写真をダウンロード用意して実行してみました。

分裂した….だと！！
なんででしょう、いきなり分裂しました…
右側の女の子は元画像の面影が残ってる。ぱっと見はかわいいんだけど2秒後に違和感、なんだろう、顔や目が歪んでいる…
セーラー服スタイルは細かい部分を除けばとてもよくできている。
手の指の本数がおかしかったり、変な部分から生えているのは今まで通り。

ver2

背景がさみしいので「flower blooming」を追加しました。

a kawaii young girl with silver hair wearing white long dress,Genshin impact style,Mika Pikazo,makoto Shinkai,granblue fantasy, beautiful face,thick coating painting, full body, whole body, pixiv, hq

全部前を向きました…
　2枚目は素晴らしい！あたり！(個人的にめっちゃ好きです)
しいて言うなら左手の先がおかしいが、ここは加筆修正すればいいかな。
　3枚目はシード1024で生成するとHSFW contentと怒られるので1023で生成した。なんか顔がww。顔と左手が要加筆修正。このファッション好き。
　4枚目これはグラブルをもとに生成、ちょっと鼻が大きすぎるかな。でも今までの2つとは異なる画風。

ver3

それでは有名人を入力してみましょう。まずはガッキー

うん、ちょっと寄り目すぎるな…
でもさすがガッキー、これは「KAWAII」ではなく、「美しい」。

ver4

はしもとかんな、AKはpromptから消した

a kawaii young girl with brown long hair wearing sailor-style uniform, full body, beautiful face,black short skirt, whole body, arknights, genshin impact, pixiv,flower blooming

これはシードを変えた。数値はメモリ忘れた…
やはり口元と手の加筆修正は必要。
雰囲気がガラッと変わった。そしてこの制服デザインめちゃめちゃ好きです（笑）

考察

img2imgで生成された絵は全体の雰囲気がとてもよくなる、また輪郭だけは元の絵とすごく似ている。しかし、
分裂したり
(これは多分元画像が顔写真なのに、full body指定しているからだと考えられる)
後ろ向きの画像が前向きになったり
(beautiful faceを入れたので顔が重視されたと考えられる)
してしまう。これらはpromptを調整すれば治ると思う。

　しかし、手の指の本数や口と鼻の位置はうまくいかない。以前、DALLE-2にお題として「2」を入れてみたら、3や5、さらには数字ですらない画像が出てきた。また「人間の手」を入れたら本数が6や7さらには3本など様々が生成された。AIは規則的なものや数というものが苦手なのだろう。自分たちは数字やアルゴリズムなど、規則正しいもので動いているというのに、それを生成できないのは実に滑稽だ。私たちの脳が画像を見て数や規則性を理解できるのは何か特別なのだろう。さすが人間様（笑）。しかし笑っている場合ではない。ここ最近のお絵描きAIは7月にDALLE-2、8月初めにmidjourney、8月終わりにstable diffusionととてつもない速さで公開され、様々なクオリティが高い作品が生成されている。そう遠くない将来、数や顔のパーツなど細かい部分も描いてしまうAIが登場すると思う。
　アートを生業としている人、これからアートの世界に飛び込もうとしている人、アーティスティックな趣味を持つ人、Youtubeを楽しむ人、カメラマン、ストリーマー…多くの人が画像や映像と多少の関係を持っている。AIが人の技術を超えたとき、果たしてこのAIと共存するのか、それとも相いれない関係になるのかの選択を迫られるだろう。(命にかかわるほど重要な決定ではないが…)今のうちに考えを持っておくべきだと主は思う。
　私たちはお絵描きAIのシンギュラリティの真っ最中にいるのかもしれない。

この記事が気に入ったらサポートをしてみませんか？