Stable Diffusion, Midjourney, DALL-E 3 生成画像相互比較（1）

2024年2月2日 01:35

　皆さん、こんにちは。Browncatです。
　これまでアート系生成AIのプラットフォームとしては、主にStable Diffusion（1.5/SDXL）を使用し、時にDALL-E 3（MS Bing Image Creator）も使ってきたのですが、年明けからは新たにMidjourney（nijijourney）の使用も開始しました。
　Midjourneyを使い始めると、その生成結果はStable DiffusionやDALL-E 3とは違うようにも見えたのですが、プロンプトを共通にして比較したらどうかと思い、やってみました。
※記事は前後編に分かれており、こちらは前編になります。

事例1：黒いベルベットのドレスの女性

Stable Diffusion

　まずは、テスト向けの比較的生成が簡単な衣装・背景プロンプトを用意しました。アール・デコ調の部屋でソファに座り、黒いベルベットのドレスを着ているという設定です。

wearing a black velvet dress sitting on the sofa in art deco room

　Stable Diffusion 1.5（Yayoi_mix V2.8b）での生成結果は、以下の通りです。Stable DiffusionのソフトはWebUI Automatic1111を使っています。

　またSDXLでの生成結果は、以下の通りです。これはまず、dreamshaperXL（背景描写に強いモデル）で生成を開催し、Refinerにfuduki_mix V2.0（人物描写に強い）を適用して、生成の途中（0.5）からfuduki_mixに切り替えて生成したものです。

Midjourney

　それでは今度は同じ衣装・背景プロンプトを用いて、Midjourneyで生成します。
　Midjourneyは各バージョンによって表現が割に異なるといわれています。
　そこで、V5.2とV6.0の両方で生成してみます。原稿執筆時点では、デフォルトはV5.2で、V6.0を生成する場合には、「/settings」で設定を変更するか、生成時のパラメータ設定で「--V6.0」と明示する必要がありました。
　まずV5.2で生成してみます。

続いてV6.0で生成してみます。パラメータで「--v 6.0」と指定した以外は、V5.2と全く同じプロンプトと設定です。

　確かに、同じMidjourneyでもV5.2とV6.0はだいぶ画風が異なります。個人的には、V6.0のほうが好きです。

DALL-E 3

　続いて、同じ衣装・背景プロンプトを用いて、OpenAIの画像生成AI「DALL-E 3」で生成します。
　DALL-E 3で生成するには、OpenAIの生成AIプラットフォーム「ChatGPT 4」を用いるか、Microsoftの「Bing Image Creator」を利用するかが選べます。今回は両者に違いがあるか確かめるため、両方生成します。
　まずはChatGPT 4の適用結果です。

　続いてBing Image Creatorによる生成結果です。

　Bing Image Creatorに比べ、ChatGPT 4は、アールデコ調のデザインが比較的に強めに出ており、背景のボケ（bokeh）度合いはBing Image Creatorのほうが強いです。
　一方、人物の表情はわりに両者に共通しています。
　まとめると、同じDALL-E 3の技術でも、 ChatGPT 4とBing Image Creatorでは、画質に若干の違いがみられます。

結論（前編）

　プロンプトが同一なら、プロンプトの指示はどれでも画像に現れます。しかしながら、プラットフォームによって絵柄がかなり異なり、同一プラットフォームでもバージョンやプロバイダが違うと、やはり絵柄が変わります。

（後編に続く）

この記事が気に入ったらサポートをしてみませんか？