stable diffusion 練習 ちび動物キャラをつくる

stable diffusionを好きにいじり倒せる環境が整ったので、しばらくテーマを決めて練習していこうと思う。
もちろんこれはただの備忘録である。それをなぜわざわざ公開するかというと、なんかもったいないからである。
マジもんの初心者の試行錯誤の過程など興味ある人はわずかだとおもうが、同じくマジもんの初心者にとっては参考になることも多少はあるだろう。

美少女絵を極めたいわけではないので(初心者の時点からこんなことを言うのもアレだが)、幅広いテーマをとって練習していく。
今回のテーマは「ケモ系ちびキャラ」だ。

いろんなパターンがだせるよう試行錯誤していく

ケモ系特化のモデルもあるらしいが、いったん手元のモデル(Abyss Orange Mix2)でチャレンジしてみる。このモデルにできることできないことも知っておきたいので。
https://note.com/kiuxi/n/n312abeee5131

<prompt>anime cat
<prompt>anime cat <negative>flat color, flat shading, shadow, nsfw, retro style, bad face, bad fingers, bad anatomy, missing fingers, low res, blurry, cropped head, signature, watermark, username, artist name, text
<prompt>solo anime style cat,japanese anime, kitty charactor <negative>girl,flat color, flat shading, shadow,retro style, signature, watermark, username, artist name, text

いくつか試して気づいたのだが、同じプロンプトでも全く違う結果が出力される可能性がある。バッチ回数を増やして試してみる。

p:solo cat, standing,anime style,anime charactor n:girl,flat color, flat shading, shadow,retro style, signature, watermark, username, artist name, text

全然違う結果が出る。これならバッチ数はある程度増やしてテストしたほうがよさそう。

p:a very cute chibi anime cat, standing,anime style,anime charactor n:girl,flat color, flat shading, shadow,retro style, signature, watermark, username, artist name, text

調べたところ以下の単語が使い勝手よさそう
Kemono:日本のケモキャラ寄り
Furry:海外のケモキャラ寄り
Anthro:日本のアニメ風かつより人間寄り
Yiff:えっちなやつ

Chibi だと二頭身キャラが出る。
二頭身直訳であるところの、Two heads highは機能しなかった

紆余曲折あっていい感じになってきた

p:best quality,a cat,standing,Kemono,Furry,illustlation,Chibi,Japan n:Yiff,Anthro,3D,Disney,Lolita,nsfw,flat color, flat shading, shadow,retro style, signature, watermark, username, artist name, text

ネガティブプロンプトの、特にLolitaと3Dが効いたっぽい。あとはnsfwとyiffも大事そう。
これでも別に成功率3/4ではない(上記は偶然っぽさある)ので、確定でアニメ絵を排除するのは難しいが、さらにネガティブプロンプトにgirlを追加する、プロンプトにanimalを追加するなどで1/2くらいの確立までは持って行けた。

こうなってくると、服を着せたり背景を調整してバリエーションを出したい。
まずはデニムとTシャツを着せようとしたが、普通に服装を指定するとそちらに確率が持っていかれて、人間の姿になってしまう。

Prompt Editingなし

しからばprompt editingにチャレンジが上策。

[fur:Tshirts and jeans:0.4]を足すといい感じのやつが!

あとはこれをimg2imgに送れば、あとはガチャをひくだけという感じに。
(img2imgの方では、ノイズ除去強度0.6にしたうえで、Tshirts and jeansとだけ入力し、prompt editingをいれない方が確実に服を着てくれた。

これでいったん目標は達成!
でいいとして。実際prompt editingを使うより、素体動物キャラから雑ペイントでimg2imgした方がいいんじゃないかとか。そもそも素体もさっと手書きしてからimg2imgした方が、人間っぽいキャラをひかなくていいんじゃないかとか。その辺を次は実験してみる。

prompt editingを使わずに、手書き+img2imgでやる方法を試す。
ipadに元画像をインポートして、アイビスペイントで襟巻を消してTシャツとジーンズを履かせる。

元画像 さっきのTシャツ着てたやつは、これのseedを使ってtxt2imgしている
このレベルならipad使わずwebUIのスケッチを使ってもよかったのではとは思うが、、、

するとこんなのが出てきた

best quality,a cat,standing,animal,Kemono,Furry,illustlation,Chibi,Japan プロンプトにTshirtsなどは入れなかったが、わりといい感じになった

最後のやつがいい感じだが、タートルネックになっているのが気に食わない。これを今度はinpaint機能で修正してみる。タートル部分を塗りつぶし、crew neck T-shirtをプロンプトに追加。

三枚目とかいい感じ!
なお、Tシャツの柄は全然いい感じにならなかった。Tシャツの柄を狙ったとおりにする方法は別で考える必要がありそう。

次は、最初から手書きの方が早いんじゃないかという実験。目当ての猫素体をひくまで結構試行錯誤したので。

これが私の画力の限界である。
これに以下のプロンプトをいれてimg 2 imgする。
best quality,a cat,standing,animal,Kemono,Furry,crew neck T-shirt,illustlation,Chibi,Japan
nega:  Yiff,Anthro,girl,3D,Disney,Lolita,nsfw,flat color, flat shading, shadow,retro style, signature, watermark, username, artist name, text

ノイズ除去強度によって大きく結果が変わるが、比較的可能性空間を限定したうえでの結果を出せるように思う。特に、背景、服の柄などは元イメージに忠実度が高い。これは、用途を決めたうえで画像出力するときには、役に立つ気がする。
これ、じゃあ服に色とか塗って、背景適当に着色したらいい感じになるのでは?

これでさっきとプロンプトを変えずに試してみる。公園で遊ぶスポーティーなファッションの猫ちゃんになるのでは?

0.75
0.8
0.85

ところどころいい感じのはあるが、思ったより品質が下がった気がする。色があることで不自然に感じる要素が増えたのかも。これなら、背景とか服についても指定してあげた方がいいのかも。プロンプトをいかに変更する。
best quality,a cat,standing,animal,Kemono,Furryillustlation,Chibi,Yellow crew neck T-shirt,jeans,playing in a park, beautiful sky

0.75
0.8
0.85

服装の指定が細かくなることで、人間である可能性を強めに考慮するようになる節はあるが、かなり思ってた結果に近づいた。色を付けるなら色の意味も指定したほうがよさそう。
ちなみに、白黒の元絵で、プロンプトでは色など指定するとどうなる?

0.75
0.8
0.85

ホワイトバランスがかなり白寄りになってかわいい!が、指定とは違う結果(白Tになったり、青空が見えなかったり。)が多くなる。
プロンプトが複雑になるとどんどん全部を忠実に守るのは難しくなるので、ある程度元絵でコントロールするのはありっぽい。

というわけで、はじめてのstable diffusion、二頭身ケモキャラの製作でかなり色んなことが知れた。しかしまあ、やればやるほど、疑問や好奇心が指数関数的に増すので困る。
これからがんばって上手になるぞー!




この記事が気に入ったらサポートをしてみませんか?