見出し画像

MidjourneyとStable DiffusionとDALL-E3を比べてみた 001


【Prompt】 
modern painting, beautiful lady, purple, watercolor


Midjourney #001

Midjourney #001

Stable Diffusion #001

Stable Diffusion #001

DALL-E3 #001

DALL-E3 #001

【評価】
・「近代画」としてはMidjourney
・「水彩画」の表現はStable Diffusion
・DALL-E3は最もプロンプトに忠実で、Purpleベースのモノトーンの出力。

【考察】
・結局、学習する際に「どのような画像を」「どのようなワードで」学習させるかによるが、Midjourneyは近代画家を含む約5,000人の作品を無断で学習させているため、プロンプトによってはある特定の画家の作品に似た出力に偏る傾向があるのではないか。
・Stable Diffusionは、MidjourneyよりもAIモデルとしてVAEモデル(の拡張モデルとしてのDiffusion model)を忠実に再現していると考えられる。(もちろんデフォルトパラメータでの場合)
・DALL-E3は使い始めたばかりで、まだ特徴が良くわからない。もっとたくさんのプロンプトで使い込んでいくうちにわかってくるかも。DALL-E3に関する最新の論文をご存じの方は教えてください。

【条件】
●Midjourney V6
modern painting, beautiful lady, purple, watercolor --ar 16:9

●Stabel Diffusion realisticVisonV51_v51VAE.safetensors
Prompt: modern painting, beautiful lady, purple, watercolor
Width: 320, Hight: 180, Hires.fix, Refiner
Batch count: 4, Batch size: 1
Samplling method: DPM++ 2M Karras
Sampling steps: 20
CFG Scale: 7

●DALL-E3
modern painting, beautiful lady, purple, watercolor --ar 16:9

【補足】
・Diffusion modelとVAE(変分オートエンコーダ)は元画像を学習し新しい画像を作成するという似た特徴はあるが、違いは元画像の学習方法。 VAEでは次元圧縮して、そこから新たな画像へと復元する。 一方、Diffusion modeでは元画像を圧縮しない。
・Diffusion modelは生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。 また部分情報から残りを復元したり、条件付けで生成を制御したりすることもできる。

この記事が気に入ったらサポートをしてみませんか?