そうだ！AI画像生成をちゃんと勉強しよう💡2章：モデルについて

2024年7月25日 20:08

※勉強しているのは、Stable Diffusion、SeaArt系になります。

「1章：スーパー基礎編」ではAI画像生成の深さを感じ取りました。
今日からは、それぞれを掘り下げて勉強していきたいと思います。

しばらくは前回と同じガイドブックを教材に使いたいと思います。
本日も等身大の私でよろしくお願いします(*⩌⩊⩌*)

具体的に「等身大の私」とは、現在のうすーい知識と経験と、
分からないことはすぐChatGPTくんなどに聞いて記事を書く、
私のことです😙～♪

モデルについて

さっそく勉強開始！

前回学んだ、

モデル
プロンプト
パラメーター

の、「モデル」について掘り下げて勉強したいと思います。

モデルとは？

これも前回と重複しますが、モデルは簡単に言うと、
AIが画像を作るための「計算方法」や「ルール」のことです。

画像生成AIの中核となる部分で、どんな画像を、どのように決めて作るかという重要な役割を果たしています。

モデルは大きく分けて2種類ある

モデルには大きく分けて、「Checkpoint（チェックポイント）」と「LoRA（ローラ）」と呼ばれる2種類があります。

Checkpoint（チェックポイント）

Checkpointは、「ラージモデル」または「ベースモデル」と呼ぶこともできます。

ラージモデルは比較的サイズが大きく、2 GB から 7 GB の範囲で
最終イメージの主なスタイルを決定します。

同じプロンプトでもモデルが異なると出力される画像は全く違うスタイルになります。

Checkpoint比較

共通のプロンプト：silver hair,idol,hair ribbon,standing,long hair,
※パラメータ(？)は、サンプラーというのをEuler aにしたくらいで他はデフォルトのままです。

３枚とも同じプロンプトですが全く違う絵柄の画像が生成されました！

プロンプト以上にモデル選びも大切なんだという事がわかりました。

LoRA（ローラ）

LoRA（Low-Rank Adaptation）はCheckpointよりもサイズが小さく、通常100MB程度です。
画像のスタイルを「微調整」したり、外観や姿勢を修正したりできます。
チェックポイントに重ねるだけでなく、ローラを重ねたり、重みを調整することでさまざまな効果が得られます。

ローラには種類が３つあるみたいです。

・キャラクター LoRA :
外見や体のプロポーション、表情など特定のキャラクターの特徴を捉えることに特化したモデルです。
これらは主に、アニメ、ビデオゲーム、その他のメディアで見られるキャラクターの特徴を再現するのに役立ちます。
キャラクターLoRAは、ファンアートの制作、ゲーム開発、アニメーションやイラストのプロジェクトで非常に価値があります。

・Style LoRA :
特定のアーティストや芸術運動のスタイルを模倣することに特化したモデルです。
これらのモデルは、参考画像を希望する美的スタイルに変換するのに優れており、スタイリゼーションの目的に役立ちます。

・衣服 LoRA :
Style LoRAと同様に、特定の衣服のスタイルやファッションの美学に焦点を当てたモデルです。
特定のファッションスタイルを持つ画像を生成するのに優れており、ファッションデザインやデジタルスタイリングに役立ちます。

Checkpoint と比較すると、Lora はトレーニング時間が短く、「柔軟性」が高く、イメージの制御に優れた効果を発揮できます。

LoRAの例

こちらも共通のチェックポイントとプロンプトで、LoRAだけ変えて試してみました。
プロンプト共通部分：girl,front view,close-up,park,standing,top quality,8K

・キャラクター LoRA

プロンプト：girl,front view,close-up,park,standing,<lora:asuna_(sao)_v1:0.7>,aaasuna,long hair,brown hair,braid,brown eyes,bare shoulders,armor,breastplate,white sleeves,detached sleeves,red skirt,pleated skirt,white thighhighs,top quality,8K

LoRAモデル：Yuuki Asuna 結城明日奈 / Sword Art Online

・Style LoRA

プロンプト：girl,front view,close-up,park,standing,<lora:fufu:1>,fu1fu,charcter doll,chibi,top quality,8K

・衣服 LoRA

プロンプト：girl,front view,close-up,park,standing,<lora:tokyo-3_middle_school_uniform_v102:1>,tokyo-3 middle school uniform,top quality,8K

LoRAモデル：Tokyo-3 Middle School Uniform (Evangelion)

基のプロンプトが同じでもこんなに色々な表現ができるのがLoRAのすごいところですね！

LoRAの注意点

1. SD1.5とSDXLのLoraは併用できません。

2. ほとんどの Lora ではトリガーワードが必要です。
プロンプトにこれらのワードを含めると、Lora が提供する独自の主題やスタイルを強調できます。
これらのトリガーワードは必ずしも必要ではありませんが、安定した画像生成を確実にするためにプロンプトに含めることをお勧めします。

Lora を追加しても効果が顕著でない場合は、次のことを試してみましょう。

1. ローラの重み調整

2. 対応するプロンプトを入力する

『トリガーワードとは』

特定の画像生成やスタイル変換を引き起こすために使用されるキーワードやフレーズのことです。
上の衣服 LoRA の例で言うと「tokyo-3 middle school uniform」がトリガーワードになります。
これらのトリガーワードをモデルに設定しておきプロンプトに入力することで、希望するスタイルや特徴を持つ画像を生成することができます。

モデルについての勉強はこれで完了、ひとつ賢くなった気がします🎵

今回もこちらのガイドで勉強させていただきました👇みなさんもぜひ一読ください。

次回は、「画像生成におけるプロンプト」を勉強したいと思います！

今日のサムネ生成過程（ChatGPT,DALL-E 3）

私「「そうだ！AI画像生成を勉強しよう💡2章：モデルについて」というタイトルのnote記事を書きました。このタイトルに合うような画像を作ってください。要望は、日本の少女漫画のようなタッチで、水彩画のようなカラーリングで16:9で描いてください。」

ChatGPTくん「こちらが「そうだ！AI画像生成を勉強しよう💡2章：モデルについて」のタイトルに合うイラストです。日本の少女漫画のようなタッチで、水彩画のようなカラーリングで描かれています。ご確認ください。」

私「（日本語苦手でかわいいなぁ、採用！）」

以上。

（2024.8.2追記）

おまけの成果ギャラリーvol.2

初めて指示文のようなものを書いて生成してみた画像

こちらもLeonardAI製です ♪
「アニメスタイル、スタイルシート、キャラクターデザインセルリアンブルーの髪の毛、黄色い綺麗な目、チアリーディングと着物を融合させた服、カワイイ、全身、ボブカット、猫耳」
こう日本語で書きました。
今思うと、英語じゃないとダメだったのかなっとｗ
猫耳はがんばっている。