見出し画像

Memeplexの利用(2) AIモデル依存性



0. 更新履歴

ver.0(2023.7.13)
ver.1(2023.8.8) SDXL1.0のデータを追加

1. はじめに

この記事はMemeplexを用いた生成画像のAIモデル依存性に関する記事です。「Memeplexの利用(1)」で記したDiffusionモデルの私の理解に基づいて、同じ条件の画像を10枚単位で生成して比較考察を行います。ただ、何事もある一定以上の水準でなければ “意味がある” と感じられないと思うので、ある程度洗練されたプロンプトを使用することにしました。作成したプロンプトはこのサイトを参考にしました。

Memeplexで画像を生成する際に指定する項目は主に以下の5つです。

(1) AIに描かせたい絵の説明(「プロンプト」や「呪文」と呼ばれます)
→ この資料で使用したプロンプトは後ほど与えます。

(2) 画風指定
→ 現在のMemeplex(2023.7.13)では、「CG」「アニメ」「アメコミ」「イラスト」「キャラクター」「ゲーム画面」「コメディドラマの一場面」「サイケデリック」「テレビ番組の一場面」「ドット絵風」「ニュース番組の一場面」「映画のポスター」「映画の一場面」「写真」「水彩画」「特撮」「浮世絵」「漫画」「油絵」の19種類です。
→ この資料では「イラスト」で固定しました。

(3) スタイル指定
→ 現在のMemeplex(2023.7.13)では、「ハイファンタジー風」「サイバーパンク風」「スチームパンク風」「日本のアニメ風」「日本のSFアニメ風」「ハリウッド映画風」「インド映画風」「ハリウッドSF風」の8種類です。
→ この資料では「日本のアニメ風」で固定しました。

(4) 作風指定
→ 現在のMemeplex(2023.7.13)では、「ローポリゴン風」「4K風」「UnrealEngine5風」「アルフォンシュ・ミュシャ風」「ルノワール風」「エミール・ガレ風」「ダリ風」「カディンスキー風」「ピカソ風」「NASA風」の10種類です。
→ この資料では「4K風」で固定しました。

(5) AIモデル
→ 現在のMemeplex(2023.7.13)では、「BraV5」「Counterfeit-v2」「mitsua-diffusion」「Muse_v1」「OpenJourney-v4」「OpenJourney2」「photorealistic-fuen-v1」「Prtogen_v5_OfficialRelease」「Redshift」「SDHK」「StableDiffusion_v1.5/Inpainting」「StableDiffusion_v2.0」「StableDiffusion-Depth」「trinart」「vintedois-diffusion-v0-1」「WaifuDiffusion1.2」「SDXL1.0 (2023.8.5 追加)」の16種類です。
→ この資料では、全16種類のAIモデルについて比較検討を行います。


【条件の整理】

・プロンプト
[best quality] [masterpiece] [ultra high resolution] [16K resolution] [8K wallpaper] [best light] [dynamic lighting] [extremely cute girl] [smaller face] [big eyes] [detailed face] [detailed skin] [fine finger] [shiny skin] [blue eyes] [gold hair] [smile] [fur trench coat] [orange gloves] [fur hat] [yellow scarf] [snow Christmas] [Christmas tree](入力として、[ ]ごとに改行したプロンプトを与えました)

・画風設定:「イラスト」

・スライル指定:「日本のアニメ風」

・作風指定:「4K風」

AIモデル全16種類

・文章の強さ:0.75

・その他:翻訳不要

・備考:同じ条件で画像を10枚ずつ、合計160枚の画像の生成にブーストモードを使用しました。


結果1:StableDiffusion_v2.0

図1. StableDiffusion_v2.0で生成した10枚の画像


結果2:StableDiffusion_v1.5/Inpainting

図2. StableDiffusion_v1.5で生成した10枚の画像


結果3:BraV5(Beautiful Realistic Asians)

図3. BraV5で生成した10枚の画像


結果4:SDHK

図4. SDHKで生成した10枚の画像


結果5:Counterfeit-v2

図5. Counterfeit-v2で生成した10枚の画像


結果6:OpenJourney-v4

図6. OpenJourney-v4で生成した10枚の画像


結果7:Protogen_v5_Official_Release

図7. Protogen_v5_Official_Releaseで生成した10枚の画像


結果8:mitsua-diffusion

図8. mitsua-diffusionで生成した10枚の画像


結果9:vintedois-diffusion-v0-1

図9. vintedois-diffusion-v0-1で生成した10枚の画像


結果10:trinart

図10. trinartで生成した10枚の画像


結果11:WaifuDiffusion1.2

図11. WaifuDiffusion1.2で生成した10枚の画像


結果12:Redshift

図12. Redshiftで生成した10枚の画像


結果13:photorealistic-fuen-v1

図13. photorealistic-fuen-v1で生成した10枚の画像


結果14:StableDiffusion-Depth

図14. StableDiffusion-Depthで生成した10枚の画像


結果15:OpenJourney2

図15. OpenJourney2で生成した10枚の画像


結果16:Muse_v1

図16. Muse_v1で生成した10枚の画像

結果17:SDXL1.0(2023.8.8 追記)


【考察】

・AIモデルに応じて、ヒトの表現の種類(2次元的か3次元的か)や画像の質(画像を見ていて違和感を覚えるか否か)が異なることがわかりました。個人的に、3次元的よりも2次元のアニメ的な絵に興味があり、CounterfeitやSDHKあたりが相当すると思います。

・AIモデルに応じて、[gold hair (金髪)] [blue eyes (碧眼)] などのプロンプトの反映確率が変化することがわかります。これは、学習データに金髪・碧眼の画像をどの程度含むかに依存すると思われます。

・画像ファイルサイズのAIモデル依存性を図17に示します。特徴として、生成する画像ファイルの種類はjpgとpngの2種類であり、pngファイルの方が10倍ほどファイルサイズであることがわかります。また、jpgファイルの中でも、AIモデルに応じて40〜65KBと画像サイズに違いがあり、これは、AIモデルによる画像サイズの違いが生じる可能性を示唆しています。
(*)SDXL1.0(1024×1024)は画像サイズが他のもの(512×512)の4倍であり、jpeg画像だがファイルサイズが大きくなっている。

2023年8月にMemeplexに追加されたSDXL1.0モデルは他の画像と比べて背景も詳細に描かれており、一線を画する画像を生成できていることがわかります。shi3zさん、ありがとう!!

図17. 画像ファイルサイズのAIモデル依存性