見出し画像

お絵かきAIで30MS的な。(RoLA編3 ~リシェッタVer2)

こちらの続編。

RoLAの作り方は繰り返しだが、以下動画を参考にさせていただき、”DreamBooth キャプション方式”というもので作成している。

こちらの動画では、途中できあがった教師画像のタグファイルをとくに編集することなく、そのまま学習に使っている。しかしながら、他のLoRAの作り方のを紹介したサイトを見てみると、例えばキャラクターをしっかり学習させたい場合は、顔に関するタグを削除する、と書いてあったりする。
今回はそれをやってみて、リシェッタのLoRA Ver2を作ってみた。

学習素材は前回と同じ。
タグが書き出されたテキストファイルを修正して、概ねこんな感じに。

risv2, 1girl, solo, looking at viewer, simple background, full body

"risv2"はトリガーワード(のつもり)。上の動画ではあまり意味が無い、的な事が言われていたが、念のため。今回は顔のみならず、手足もちゃんと覚えてもらいたいため、顔・体に関するタグはバッサリ削除してみた。
教師画像によってはアングルなどのタグもないものもあり、一番シンプルなものは"1girl, solo, simple background"だけのものもある。ホントに大丈夫だろうか、と不安にはなる。

とりあえず結果は以下のとおり。
上が前回のVer1、下が今回のVer2。左上からLoRAの強度を1→0.1まで変えて作ってみた。

Ver1
Ver2

うーん、ものすごく違うかというと・・・よくわからない。
お腹部分をみるとVer2がしっかり学習してくれた感はあるが、逆に肩の露出はVer1が教師画像に近い。
Ver2の方が全体的に明るいのは、いつかの画像のタグに”dark face"とか、"dark skin"という単語が入っていたのを学習対象から外したせいか?

ちなみに画像は掲載しないが、プロンプトに"Nude"といれて同じ事をやってみた。
Ver1ではLoRAが0.9の時点でほぼ裸になったが、Ver2では0.5。脱がす方では顕著な差が出た。それはそれでなぜだろう?
あ、それとトリガーワードらしき"risv2"はあってもなくてもなんの影響もなく。
結局の所、タグを修正する労力をかけるほどの差はでない、ということか。

本来は胴体・手足に関しては「リシェッタっぽいメカ娘」ではなく、明確に「リシェッタのボディ」にしたいのだけど、やはりこのプラモデルの写真ベースでは難しいのだろうか?
もっと過学習覚悟でやってみようか?

それはそれとして、今日のお気に入りを何枚か。
リシェッタどうかはもうよくわからないけど・・・


この記事が気に入ったらサポートをしてみませんか?