NAIでデルタもんの一枚絵からいろんなポーズを出す

Plat

2024年1月22日 22:52

デルタもんという面白いプロジェクトがあり、AIに関すれば自由に使っていいとのことです。

https://blendai.jp/illust_3d

ですが現状立ち絵は前側と後ろ側の二枚しかなく、LoRA作るのはちょっとつらいです。
そこで、NAI のインペイントを使っていろんなポーズや角度からの絵を作ってみます。

Opus プラン($25/月)が強く推奨されます。Opusプランならインペイントもi2iも一定の画像サイズ内であれば0コストで行なえるので、かなり気軽に実験できるようになります。

方針

danbooru タグに存在する、reference_inset などを利用します。

これはまあ見たらわかると思いますが、何かしらの参考画像が配置されているとつくタグです。このタグを指定すると、公式立ち絵を参考にして描いてくれるようになります。(なくてもいいかもしれないけど、あると打率上がる気がする… 入れて損はないので入れておこう！)

タグの用意

参考画像があれど、タグの指定があったほうが安定するのでタグは必須です。

WD 14 Tagger を使ってキャラクターを表すタグを生成すると楽です。自信がある人は手動でもいいんじゃないかな。

こちらに生成したタグ(MOAT)があります。

1girl, solo, animal ears, tail, green hair, bag, thighhighs, backpack, cat ears, detached sleeves, smile, earrings, jewelry, blue eyes, white background, full body, boots, dress, mechanical tail, hairband, cat tail, android, short hair, simple background

後で使うことになります。

ちなみにこのまま生成するとこんな感じになります

色のタグが少なかったり randoseru 入ってなかったりしますが今回はまあこれでもダイジョブです。安定しなかったら手動でタグ加えたりしてください。

参考画像の用意

832x1216 (横x縦) サイズのシンプル背景画像の端っこに、公式立ち絵を小さく配置した画像を用意します。

NAI で生成

参考画像を NAI にドラッグアンドドロップして周りをインペイントのマスク選択します。「元画像を加える」はオフでいいです。

プロンプトはさっき生成したタグをちょっと変更します。

1girl の後ろに

reference inset, official art inset

を追加して、

1girl, reference inset, official art inset, solo, animal ears, tail, green hair, bag, thighhighs, backpack, cat ears, detached sleeves, smile, earrings, jewelry, blue eyes, white background, full body, boots, dress, mechanical tail, hairband, cat tail, android, short hair, simple background

としました。

プリセットも特に気にしなくていいと思います。

これで生成するとこんな感じで生成されます。

今回は姿勢を指定してないので似たようなポーズになりました。また、猫耳や胸の装飾が似てないのでプロンプトを修正してみます。

1girl, {reference inset, official art inset}, leaning forward, parted lips, arm up, solo, animal ears, tail, green hair, bag, thighhighs, backpack, cat ears, detached sleeves, smile, earrings, {{triangle}}, blue eyes, white background, full body, boots, dress, mechanical tail, hairband, cat tail, android, short hair, simple background

ポジティブプロンプト

ascot, fake animal ears

ネガティブプロンプト

姿勢を指定したり、jewelry を {{triangle}} にしたり、ネガティブに ascot, fake animal ears を追加した。
何回かガチャるとこんな感じ。

雰囲気維持したままほかの姿勢になったと思います。(スカートの三角模様ないけど、これはそこだけインペイントしたら治るレベルなのでヨシです)

姿勢・表情に困ったら、

head tilt
parted lips
leaning forward
contrapposto

とか指定すると雑にいい感じになるかも？

hands on own hips, angry, pout, leaning forward, looking at viewer なデルタもん

LoRA 学習なしの one-shot 生成みたいな気持ちでサクッとバリエーション画像を作れるのは結構面白いです。

もうちょい安定させる

参照画像が一枚だと、やっぱり向きが偏ったり服装が安定しなかったりするので参照画像を増やすとちょっと傾向を変えることができます。

今度は 1216x832 (横x縦) で次のような画像を作ります。

NAI につっこんで右側をインペイント

turnaround, reference sheet, multiple views で三面図にします。

1girl, {turnaround, reference sheet, multiple views}, solo, animal ears, tail, green hair, bag, thighhighs, backpack, cat ears, detached sleeves, smile, earrings, {{triangle}}, blue eyes, white background, full body, boots, dress, mechanical tail, hairband, cat tail, android, short hair, simple background

ポジティブプロンプト

traditional media, ascot, fake animal ears

ネガティブプロンプト

これで何回かガチャをすると、次のように三面図になる。

(正面立ち絵から三面図できるのだけでもちょっとすごい)

そんなに打率低くはないので、細かい部分が違っていたらこれまたインペイントで治せばいいという感覚。

三面図ができたら、再び 832x1216 の画像を用意して次のようにします。

Microsoft ペイントでやった。最低限の機能はあるのでどうにかなる。

これで作った画像を使って最初と同じようにすると結構安定した服で出てくるようになります。

annoyed, shaded face, jitome, furrowed brow, reaching towards viewer なデルタもん

参照画像が増えたことによるメリットとして、服装などが安定しやすくなりますが、絵柄やサイズが引っ張られやすいデメリットがあります。(ネガティブに traditional media を追加した理由はこれ)。

また、指定するタグが参照画像に若干吸われてしまうので、被写体の映る範囲を指定したいときは {{upper body}} や {{cowboy shot}} みたいに、ちょっと強めに指定してあげるといいと思う。

終わり

頑張れば学習されてないキャラクターでも NAI でいろんなポーズや角度のイラストを生成できる例でした。

仕様か不具合かは謎ですが、インペイント用の画像を何回か繰り返すとどんどん劣化していくことがあります。VAEのせいかもしれないですがよくわかりません。謎です。

おまけ

今回生成した画像の zip。ちょっと加工が必要で面倒かもしれないですが、LoRA学習とかに使えるかもしれません。

reference inset, official art inset のみで生成したもの

三面図の作成と三面図で生成したやつ