見出し画像

【入門】リアル系顔 LoRA 作成入門

割引あり

【付録に本学習データセットとLoRAファイルを有料でダウンロードできます】

想定する読者

  • Stable Diffusion のリアル系顔 LoRA を作ってみたい人

はじめに

この記事では、過去に生成した好きな「顔」画像を利用して、入門者向け顔 LoRA 作成方法を解説していきます。きっとAIがあなたの好みの特徴を学習してくれるでしょう。必要なものは、

  • 自分で作成した学習用イメージ

    • この記事では筆者が過去に chichipui に投稿したものを利用します

  • GFPGAN のコマンドライン版

    • 修正機能は利用せずに、顔の自動抽出だけに利用します。

    • ※ 別記事で説明していますが、導入は面倒です。無くても Gimp 等の顔切り抜き手作業で問題ありません。

  • NMKD Stable Diffusion GUI

    • LoRA の作成に利用します。

  • Stable Diffusion webUI (forge)

    • 自動タグ付けと、作成した LoRA の動作確認に利用します。

  • Beautiful Realistic Asians v6.0

    • アジア系人物に特化した Stable Diffusion 1.5 のモデルです。

GFPGAN・NMKD Stable Diffusion GUI・Stable Diffusion webUI (forge)のインストール方法

意外にあまり知られていない最も簡単な LoRA 作成方法

筆者が良く使うモデル

学習用素材の準備

筆者の chichipui ページです。アップした画像を学習素材として利用します。

フォルダに画像をまとめます。この28枚の画像で学習を行います。

chichipui にアップした画像

この状態でもそれなりに学習はできるのですが、より良く顔だけを学習するために、顔をアップにした 512x512 解像度のファイルを作成します。

顔を抽出

30枚程度なので、気合いで顔を切り出しても問題ありませんが、GFPGANのコマンドライン版を利用すると、非常に楽に顔を抽出してくれます。

導入は面倒ですが、GFPGANのインストール方法はこちらで解説しています。

さらに回転修正まで行ってくれるので、学習用素材には最適です。

python inference_gfpgan.py -i "C:\GFPGAN\input" ^
	       -o "C:\GFPGAN\output" ^
	       -v 1.3 \
	       -s 1 \
	       --ext png \
	       --bg_upsampler=none

「C:\GFPGAN\input」に画像を保存していれば、それらすべての画像に対して処理してくれます。

output フォルダには「results-gfpgan」フォルダが作成され、さらにそのフォルダ内「cropped_faces」 512x512 イメージが保存されます。

顔を抽出

背景に写った人物も抽出してしまうので、学習したくない画像は削除しておきましょう。

タグ付け

一般にLoRA 学習は、一対の「画像」と「画像を説明するテキスト」を利用して行います。もちろん手動でタグ付けしても問題ありませんが、AIを利用する事もできます。Stable Diffusion webUI (forge) だと「Extras」タブから利用できます。

Stable Diffusion web UI forge Extras

「Caption」をクリックして、先程のフォルダと出力先を入力します。Caption 生成方法として二種類を選べます。Deepbooru は Danbooru タグ(アニメ用)を挿入します。Danbooru を利用していないリアル系のモデルは BLIP の方が良い結果を出します。

フォルダ・バッチ Caption 生成機能
Caption 生成終了
Caption 生成結果

画像とそれを説明するテキストが生成されます。たとえば最初の「00000_00.txt」には

a woman blowing bubbles in the air with her eyes closed and her hair in a bunt, looking to the side, Chen Jiru, high detail 8 k, a poster, net art

が記載されています。正しくプロンプトに追従する高品質な LoRA を作成するには、このタグを調整する必要がありますが、顔 LoRA に関しては、既に顔アップで抽出しているので、それほど拘る必要はありません。作り込んでも髪型やメガネ程度だと思います。さらにトリガーワードを先頭に記載してもいいのですが、インペイント用途で利用する場合は別パラメータで調整できるため、あまり気にする必要はありません。つまり(面倒なので)すべてそのまま利用します。※ 顔 LoRA の場合、基本的に同じ顔なので、タグは生成品質にあまり影響しません

これで学習素材の準備は終了です。

LoRA 作成

NMKD Stable Diffusion で作成します。

base モデルは、Beautiful Realistic Asians v6.0 を利用します。

NMKD LoRA 作成

RTX 3060 で一時間程度で終了しました。LoRA ファイルは models → LoRAs に「favoriteface_1000s_lr0002_640px.safetensors」名で保存されます。

LoRA 確認

Stable Diffusion webUI forge を利用して、作成 LoRA の確認を行います。モデルは学習時と同じ Beautiful Realistic Asians v6.0 です。

作成 LoRA ①
作成 LoRA ②

特徴的な顔(特にまゆげ)が量産されました。

付録

付録として、本記事で利用した学習データセット(若干の修正済み)と顔  LoRA ファイルを有料でダウンロードできます。記事の LoRA との変更点は、配布物としてより適切になるように、ベースモデルを v1-5-pruned.safetensors に変えている事と、次元とファイルサイズ・学習ステップが増えている点です。

本LoRAとBeautiful Realistic Asians v6.0を利用した生成画像

上図 png の生2ファイルをサンプルとして同梱していますので、「PNG Info」タブで読み込み、同じwebUI-forgeのバージョンとモデルを利用すると、ほぼ同じ画像が生成されるはずです。

同梱物
  • 同じ顔が生成できるように、過学習ぎみにしています。ウェイトを0.6程度、CFGも4〜5が適切です。

  • 無くても問題ありませんが、トリガーワードはファイル名と同じで「myfavccpi202404」です。ちちぷい 2024年 4月までの筆者投稿画像という意味でつけています。

  • note でアップロード可能なサイズが 50 MB ですので、7z 形式で6個のファイルに分割しています。すべてダウンロード後に 7-Zip 等で結合&解凍してください。ご不便おかけします。

  • 単体で利用するものではなく、また v1-5-pruned.safetensors モデルをベースに利用していますので、利用する際は、Stable Diffusion等ソフトウェアやモデルのライセンスに従ってください。言うまでもありませんが、実写を利用していなくても、偶然誰かに似てしまう事があります。十分にご注意ください。

  • 【免責事項】

    • 本ファイルの利用によって発生したトラブル、損害等に対して作者は何ら責任を負いません。

    • 内容の変更や公開の中止をする場合がありますが、それによって生じた損害等に対して一切の責任を負いません。

ここから先は

203字 / 1画像 / 6ファイル
この記事のみ ¥ 500〜

この記事が気に入ったらサポートをしてみませんか?