Blog - 2023/10/04 最新の画像生成AI「DALL·E 3」とMidjourney、Fireflyを比較してみた

2023年10月5日 03:59

Microsoftが提供している「Bing Image Creator」で「DALL·E 3」が利用可能になったので検証してみました。今回の検証は簡易的なものです。
MacBook ProにインストールしたMicrosoft Edgeを使用。

最初に100ブースト（クレジット）提供されますが、あっという間に使い切ってしまい、生成速度がかなり遅くなったので、初日は1時間くらいで終了（24時間後、100ブースト補充されたので検証の続きを行いました）。

まだブーストが残っているのに、生成時間が遅くなることがあります。
「これは弊社側が負担します！イメージの作成に通常よりも時間がかかっています。ブーストは使用されません。」と表示されていましたが、15分経っても生成されないので中断。

ヘビーユーザーの皆さんは、MidjourneyやRunwayでもGPU消費に悩まされていると思いますが、高速・無制限生成したいなら高額プランを契約するか、Stable Diffusionを自分のマシンで動かすしかない。
Adobe Fireflyも11月からクレジット制限が適用されるので（無料ユーザーはすでに適用されている）、本格的に使いこなしたい人は生成クレジットの追加購入を覚悟しなければいけませんね。

Midjourneyで使用したプロンプトを入力して比較検証

ファーストインプレッションは「表現力が大幅に向上している！」です。Midjourneyの過度に美化されたイメージに慣れてしまったので、あまり期待はしていませんでしたが、想像以上に良い印象です。
以下が、最初に生成したイメージ。

プロンプト：

closeup, side view profile photography, film still, 1000, colorful acrylic resin rods, ceiling, soap bubbles, pure white wall, Blue paint drips, ice rose flowers, floor, cute Russian girl, transparent vinyl jacket

生成画像の共有リンク

プロンプト：

film still, close-up, super detail, maximal facial detail, 18 year old Russian boy who is a super cool fashion model, He has short white hair in the Y2K fashion, Y2K Aesthetic Worldview, party kei

生成画像の共有リンク

プロンプト：
※Midjourneyで使用したプロンプトをそのままペーストしていますので、DALL·E 3には無意味なパラメータを含みます。

film still, Super cute Japanese young woman with giant wings attached, sci-fi movie world view, He has long black hair and wears a bright red coat, He is deep in the jungle::2 A lot of tropical fish are floating, A highly saturated and colorful world view, High-end photography for luxury brands

生成画像の共有リンク

生成した画像とプロンプトの履歴は、古いものから消えていくので以下の生成画像のプロンプトは参照できませんでした。残しておきたい生成画像（+入力したプロンプト）は、共有リンクの取得をお奨めします。

DALL·E 3はテキストも生成する

以下のプロンプトの「troublemaker」を文字として認識していますので、生成された画像に「TROUBLEMAKER」の文字が表現されています。

プロンプト：

troublemaker, girl gang, Y2K, photography

左：生成画像の共有リンク
右：生成画像の共有リンク

権利侵害を回避するためのIPブロックは、Fireflyより少々緩いようです。ただ、MidjourneyやFireflyでは問題なく生成できるプロンプトが、DALL·E 3ではブロックされることがあります。各社、コミュニティガイドラインの差異はありますが、総じて厳しいです。

プロンプト：

film still, Y2K Aesthetic, A very pretty singer of J-POP sings, Singing on stage with a super cute set

生成画像の共有リンク

上記のプロンプトに含まれていた「idol（アイドル）」がブロックされました。MidjourneyやFireflyではこのワードが含まれていても生成できます。

今後、利用者が増加していくと、不適切な画像の生成も増えて、トラブルが発生する度にガイドラインを厳しくしていくことになるはず。
営利企業が提供する生成AIは「安全」を優先しますので、自由に生成したいなら、Stable Diffusion一択で、自分のマシンで動かすしかないでしょう。

Midjourney、Fireflyと比較

同じプロンプトを使って比較してみました。今回は簡易な検証なので、検証サンプルとして有効な若い女性を対象にしています。

プロンプト：

film still, Super cute 20 year old Japanese Mariko, Her black hair is long hair, She is Y2K fashion, Harajuku Tokyo

生成画像の共有リンク

Midjourneyの美学システムは圧倒的ですが、DALL·E 3も良好です。
Fireflyは有名人や人気キャラクターなどを生成できないように調整されていますので、グラビアを中心とした写真表現や日本の漫画・アニメスタイルのイメージがほぼ生成できません。ガチャを回し続けて、近いイメージをリファレンスにしながら何度も繰り返すことになりますので難易度がかなり高いです。
とはいえ、ベータ版がリリースされた3月頃の生成レベルが半年で大幅に向上していますので、今後の追加学習で生成しやすくなるでしょう（それでもグラビア美少女のようなイメージの生成は無理だと思いますが...）。

MidjourneyのAesthetic Systemはレベルが違うので、比較するのは時期尚早かもしれません。単語1つでも、小学生が適当に入力してもクリエイティブなイメージを生成するMidjourneyは「誰がやっても美しい絵を生成してしまう」問題を抱えています…(良い意味です)

現在のDALL·E 3（Bing Image Creator）にはバリエーション機能がないので、毎回一発勝負となりますが、高確率でMidjourneyに近いイメージを生成します。ブロックの頻度はFireflyと同じくらいですが、人気キャラクターに寄ったイメージが生成されることがあるので注意は必要かもしれません。

プロンプト：

angry, film still, super detail, 2020s, a photorealistic Cool 70 year old man , maximal facial detail, shot on fujifilm XT4

She closes her eyes and cries, film still, super detail, 2020s, a photorealistic 18 year old , maximal facial detail, shot on fujifilm XT4

プロンプト：

shiny/glossy, High-end photography for luxury brands, androgynous, A thousand long acrylic resin rods hang from the ceiling, Super cool 18 year old Russian boy fashion model, He has long white hair and wears a bright blue coat, One fashion model in a gorgeous suit made of transparent vinyl comes walking down the red carpet

生成画像の共有リンク

プロンプト：

a young woman in a colorful dress stands in front of balls, in the style of japanese photography, saturated stripes, shiny/glossy, photobash, exaggerated facial features, karencore, smooth lines

プロンプト：

Androgynous, Large number of long colorful tubes entangled, Colorful paints rain down, A world of vividly colored paints, A super cool 24 year old Russian fashion model young man, shiny/glossy, captivating gaze, lifelike figures, smooth lines, unexpected fabric combinations, Muddy currents of color, The walls of the room painted with colorful paints

プロンプト：

Red, Large amounts of colorful confetti fly through the air, 1000 long colorful acrylic resin rods hang from the ceiling, A lot of soap bubbles are floating, pure white wall, Blue paint drips from above, Many ice rose flowers are blooming on the floor, Super cute Japanese girl wearing a stylish transparent vinyl jacket, Front-facing full-body shot, Ultra-definitive photo taken from directly above a wrinkled transparent vinyl placed on a plain white floor

プロンプト：

film still, Ultra-realistic live action with ultra-high resolution, The time is the near future, 2100 AD, A super cute 24-year-old Russian female detective is being interrogated in an old hotel room, She has short hair and wears a black leather jacket, Her bangs are beautiful, The room is furnished with cyberpunk equipment

DALL·E 3で生成した画像をRunway Gen-2でビデオ生成してみました。
カスタムカメラコントロールとモーション値、プロンプトによる指示で動かしています（Runwayもたった2か月でここまで進化しました）。

再生時間：38秒

コンテンツ認証

Fireflyで生成された画像には、コンテンツ認証情報が埋め込まれますが、DALL·E 3でも同様にコンテンツ認証情報（Content Credentials）が付加されます。作成された日時やAIモデルなどの情報を知ることができます。

参考：AI があなたの毎日を支援する、Microsoft Copilot を発表

Content Credentials: 生成 AI に対する責任あるアプローチを維持するため、暗号化手法を使用して、Bing が作成する AI 生成画像には、目に見えない電子透かし (最初に作成された日時を含む) を追加する新しい Content Credentials が含まれるようになります。また、ペイントと Microsoft Designer でも Content Credentials がサポートされる予定です。

AI があなたの毎日を支援する、Microsoft Copilot を発表

ChatGPTと連携可能な「DALL·E 3」には、まだ私たちには見えていない大きな可能性を秘めている可能性があります。画像生成の全く新しい利用方法が発見されるかもしれません。
世界中の生成AIヘビーユーザーたちが24時間体制で検証していますので、コミュニティの情報は注意深く見ていきたいと思います。

手の表現精度はDALL·E 3でも変わりませんが…

手（指）や関節、歯、群集など、画像生成AIが苦手とする表現は、Photoshopによる「後処理」で修正することができますので、プロンプトで試行錯誤するより圧倒的に効率的です。
最新のPhotoshopに生成AI機能が実装されたことで、生成後の安定したワークフローになりました。AIと人間の共同作業で「何とでもなる」というフェーズに入った感じですね。

更新日：2023年10月4日（水）／公開日：2023年10月4日（水）

この記事が気に入ったらサポートをしてみませんか？