見出し画像

Stable Diffusion, Midjourney, DALL-E 3 生成画像相互比較(1)

 皆さん、こんにちは。Browncatです。
 これまでアート系生成AIのプラットフォームとしては、主にStable Diffusion(1.5/SDXL)を使用し、時にDALL-E 3(MS Bing Image Creator)も使ってきたのですが、年明けからは新たにMidjourney(nijijourney)の使用も開始しました。
 Midjourneyを使い始めると、その生成結果はStable DiffusionやDALL-E 3とは違うようにも見えたのですが、プロンプトを共通にして比較したらどうかと思い、やってみました。
※記事は前後編に分かれており、こちらは前編になります。


事例1:黒いベルベットのドレスの女性

Stable Diffusion

 まずは、テスト向けの比較的生成が簡単な衣装・背景プロンプトを用意しました。アール・デコ調の部屋でソファに座り、黒いベルベットのドレスを着ているという設定です。

wearing a black velvet dress sitting on the sofa in art deco room

 Stable Diffusion 1.5(Yayoi_mix V2.8b)での生成結果は、以下の通りです。Stable DiffusionのソフトはWebUI Automatic1111を使っています。

黒いベルベットのドレスの女性(Stable Diffusion 1.5)

 またSDXLでの生成結果は、以下の通りです。これはまず、dreamshaperXL(背景描写に強いモデル)で生成を開催し、Refinerにfuduki_mix V2.0(人物描写に強い)を適用して、生成の途中(0.5)からfuduki_mixに切り替えて生成したものです。

黒いベルベットのドレスの女性(SDXL)

Midjourney

 それでは今度は同じ衣装・背景プロンプトを用いて、Midjourneyで生成します。
 Midjourneyは各バージョンによって表現が割に異なるといわれています。
 そこで、V5.2とV6.0の両方で生成してみます。原稿執筆時点では、デフォルトはV5.2で、V6.0を生成する場合には、「/settings」で設定を変更するか、生成時のパラメータ設定で「--V6.0」と明示する必要がありました。
 まずV5.2で生成してみます。

黒いベルベットのドレスの女性(Midjourney V5.2)

続いてV6.0で生成してみます。パラメータで「--v 6.0」と指定した以外は、V5.2と全く同じプロンプトと設定です。

黒いベルベットのドレスの女性(Midjourney V6.0)

 確かに、同じMidjourneyでもV5.2とV6.0はだいぶ画風が異なります。個人的には、V6.0のほうが好きです。

DALL-E 3

 続いて、同じ衣装・背景プロンプトを用いて、OpenAIの画像生成AI「DALL-E 3」で生成します。
 DALL-E 3で生成するには、OpenAIの生成AIプラットフォーム「ChatGPT 4」を用いるか、Microsoftの「Bing Image Creator」を利用するかが選べます。今回は両者に違いがあるか確かめるため、両方生成します。
 まずはChatGPT 4の適用結果です。

黒いベルベットのドレスの女性(ChatGPT 4)

 続いてBing Image Creatorによる生成結果です。

黒いベルベットのドレスの女性(Bing Image Creator)

 Bing Image Creatorに比べ、ChatGPT 4は、アールデコ調のデザインが比較的に強めに出ており、背景のボケ(bokeh)度合いはBing Image Creatorのほうが強いです。
 一方、人物の表情はわりに両者に共通しています。
 まとめると、同じDALL-E 3の技術でも、 ChatGPT 4とBing Image Creatorでは、画質に若干の違いがみられます。

結論(前編)

 プロンプトが同一なら、プロンプトの指示はどれでも画像に現れます。しかしながら、プラットフォームによって絵柄がかなり異なり、同一プラットフォームでもバージョンやプロバイダが違うと、やはり絵柄が変わります。

(後編に続く)


この記事が気に入ったらサポートをしてみませんか?