Stable Diffusion, Midjourney, DALL-E 3 生成画像相互比較(1)
皆さん、こんにちは。Browncatです。
これまでアート系生成AIのプラットフォームとしては、主にStable Diffusion(1.5/SDXL)を使用し、時にDALL-E 3(MS Bing Image Creator)も使ってきたのですが、年明けからは新たにMidjourney(nijijourney)の使用も開始しました。
Midjourneyを使い始めると、その生成結果はStable DiffusionやDALL-E 3とは違うようにも見えたのですが、プロンプトを共通にして比較したらどうかと思い、やってみました。
※記事は前後編に分かれており、こちらは前編になります。
事例1:黒いベルベットのドレスの女性
Stable Diffusion
まずは、テスト向けの比較的生成が簡単な衣装・背景プロンプトを用意しました。アール・デコ調の部屋でソファに座り、黒いベルベットのドレスを着ているという設定です。
Stable Diffusion 1.5(Yayoi_mix V2.8b)での生成結果は、以下の通りです。Stable DiffusionのソフトはWebUI Automatic1111を使っています。
またSDXLでの生成結果は、以下の通りです。これはまず、dreamshaperXL(背景描写に強いモデル)で生成を開催し、Refinerにfuduki_mix V2.0(人物描写に強い)を適用して、生成の途中(0.5)からfuduki_mixに切り替えて生成したものです。
Midjourney
それでは今度は同じ衣装・背景プロンプトを用いて、Midjourneyで生成します。
Midjourneyは各バージョンによって表現が割に異なるといわれています。
そこで、V5.2とV6.0の両方で生成してみます。原稿執筆時点では、デフォルトはV5.2で、V6.0を生成する場合には、「/settings」で設定を変更するか、生成時のパラメータ設定で「--V6.0」と明示する必要がありました。
まずV5.2で生成してみます。
続いてV6.0で生成してみます。パラメータで「--v 6.0」と指定した以外は、V5.2と全く同じプロンプトと設定です。
確かに、同じMidjourneyでもV5.2とV6.0はだいぶ画風が異なります。個人的には、V6.0のほうが好きです。
DALL-E 3
続いて、同じ衣装・背景プロンプトを用いて、OpenAIの画像生成AI「DALL-E 3」で生成します。
DALL-E 3で生成するには、OpenAIの生成AIプラットフォーム「ChatGPT 4」を用いるか、Microsoftの「Bing Image Creator」を利用するかが選べます。今回は両者に違いがあるか確かめるため、両方生成します。
まずはChatGPT 4の適用結果です。
続いてBing Image Creatorによる生成結果です。
Bing Image Creatorに比べ、ChatGPT 4は、アールデコ調のデザインが比較的に強めに出ており、背景のボケ(bokeh)度合いはBing Image Creatorのほうが強いです。
一方、人物の表情はわりに両者に共通しています。
まとめると、同じDALL-E 3の技術でも、 ChatGPT 4とBing Image Creatorでは、画質に若干の違いがみられます。
結論(前編)
プロンプトが同一なら、プロンプトの指示はどれでも画像に現れます。しかしながら、プラットフォームによって絵柄がかなり異なり、同一プラットフォームでもバージョンやプロバイダが違うと、やはり絵柄が変わります。
(後編に続く)
この記事が気に入ったらサポートをしてみませんか?