見出し画像

新画像生成AIのDALL-E 3は何ができるのか?

9月20日に、OpenAIが新画像生成AIのDALL-E 3を発表しました。
DALL-E 3はChatGPT上で使用することができ、10月初旬に有料のChatGPT PlusとEnterpriseのユーザーに提供される予定です。

今回、このDALL-E 3は何ができるのかについて解説します。



1.DALL-E 3の概要

(1) DALL-E 3の特徴

DALL-E 3は、OpenAIが2021年1月に発表したDALL-E、2022年4月に発表したDALL-E 2に続く第3弾の画像生成AIです。

DALL-E 3の特徴は以下の2点です。

  1. 高い文章読解力で、複雑なプロンプトにも忠実で正確な画像を生成できる

  2. ChatGPTと統合され、ChatGPTに話しかけるだけで自動的に画像を生成できる

(2) プロンプトに忠実で正確な画像

以下のような複雑なプロンプトにも忠実で正確な画像を生成できます。

出典:https://openai.com/dall-e-3

DALL-E 3は、従来のシステムよりもニュアンスやディテールを理解し、ユーザーのアイデアを非常に正確な画像に簡単に変換することができます。
そのため、ユーザーはプロンプトエンジニアリングを学ぶ必要がなくなるとOpenAIは述べています。

また、同じプロンプトを使用しても、以下のようにDALL-E 3の画像品質は、DALL-E 2 より大幅に改善されています。

プロンプト:An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula.
(和訳)星雲の爆発のように描かれた、バスケットボール選手のダンクシュートを表現した油絵。

出典:https://openai.com/dall-e-3

(2) ChatGPTとの統合

DALL-E 3はChatGPT上に構築されており、ユーザーがChatGPTに話しかけるだけで、ユーザーの要求に合わせたプロンプトを自動的に作成し、画像を生成することができます。
また、ChatGPTに依頼することによって、生成された画像を微修正することもできます。

なお、BingAIチャットには以前から画像生成機能があり、ChatGPTとDALL-E 3の連携がそれよりも使い勝手がよくなるかどうかがポイントです。

ChatGPTの操作画面

(3) 安全対策

DALL-E 3には、これまでと同様に暴力的、性的、差別的なコンテンツの生成を制限する措置が取られています。

  • 有名人の画像や有害なバイアスを含んだ表現を制限

  • モデルのストレステストを行うレッドチームと協力してリスク評価やリスク軽減に取り組む

  • 存命アーティストの画像スタイルのリクエストを拒否。AIのトレーニング対象から自分の作品を除外可能にするなど

なお、DALL-E 3で生成した画像は商用可能です。


2.DALL-E 3とMidjourneyの生成画像比較

以下は、同じプロンプトで生成したDALL-E 3の画像とMidjourneyの画像の比較です。なお、実際のプロンプトは英語で、その和訳を記載しています。

(1) 心臓のイラスト

プロンプト:嵐の海の中、台座の上に立つ半透明のガラスでできた人間の心臓のイラスト。太陽光線が雲を突き抜けて心臓を照らし、その中に小さな宇宙が見える。

上段DALL-E 3 下段Midjourney

(2) 建物のイラスト

プロンプト:大きなガラス窓のある近代建築の建物は、夕暮れの穏やかな海を見下ろす崖の上に位置している。

(3) 磁器になった女性

プロンプト:黒髪に銀色の筋を入れたアジア系の中年女性が、割れた磁器の海の中に複雑に入り込み、分裂しているように見える。磁器は、光沢と艶消しの青、緑、オレンジ、赤が調和したスプラッター・ペイントの模様で輝き、動きと静止の超現実的な並置の中で彼女のダンスを捉えている。彼女の肌色は、磁器のような淡い色合いで、その姿に神秘的な雰囲気を添えている。

上段DALL-E 3 下段Midjourney

(4) 葉っぱの演奏

プロンプト:中秋の名月の柔らかな光に照らされた素朴な森の中で、それぞれが伝統的なブルーグラス楽器を演奏する擬人化された紅葉で構成された民族音楽バンドの2Dアニメーション。

(5) ライチの椅子

プロンプト:トロピカルな壁紙を背景に、でこぼこした白い外装と豪華な内装を持つ、ライチにインスパイアされた球体の椅子の写真

(6) トンガの女性ダンサー

プロンプト:深い黒の背景の前で、トンガの豊かで輝く肌をした中年の女性が、嵐のように流れる巻き毛をバックに、渦を巻いている。彼女の服装は、大理石や磁器の破片が渦を巻いているようだ。散らばった磁器の破片の輝きに照らされ、夢のような雰囲気を醸し出すダンサーは、断片的に見えながらも、調和のとれた流動的なフォルムを保っている。

上段DALL-E 3 下段Midjourney

(7) ヤドカリの写真

プロンプト:濡れた砂の中にいるヤドカリのクローズアップ写真。近くに海の泡があり、殻のディテールと砂の質感が強調されている。

上段DALL-E 3 下段Midjourney

Midjourneyの画像も十分に美しいが、DALL-E 3の画像の方がプロンプトに忠実で正確です。

この章の内容は、以下のツイートを参考にしました。


3.ChatGPTとの連携

以下の動画は、OpenAIがChatGPTとDALL-E3でどんなことができるか説明した公式の解説ビデオです。

最初にChatGPTに「私の5歳の子供が『超すごいひまわりハリネズミ』のことをしきりに言っているが、それはどのようなものか?」と入力すると、4種類のプロンプトが自動的に作成され、それぞれのプロンプトに対応した4枚の画像が表示されます。

次に4枚のうちの1枚を選んで、「娘が言うには、名前はラリー。もっとこういうの見せてくれる?」と入力すると、その画像に似た画像が新たに4枚表示されます。

そして、「娘はこれらの画像を大好きになるだろう!ラリーの家を見せてくれる?」と入力すると、ラリーとそのかわいい家の画像が表示されます。

ChatGPTに「ラリーはとてもかわいい!どうして超すごいのだろう?」と聞くと、「ラリーは心優しく、親切なことで草原中に知られているから」などと理由を教えてくれます。

今度は「ああ...ラリーが "優しい心 "を持っているところを見せてくれる?」とChatGPTに入力すると、楽しそうに笑うラリーの元に多くの仲間が集まってくる画像が表示されます。

それから、「ステッカーをデザインしてくれる?」と依頼すると、4枚のステッカーのデザインが表示されます。

また、「これは素晴らしい...。これをベッドタイム・ストーリーにしてくれる?」と頼むと、ひまわりハリネズミのラリーを主人公にしたショートストーリーを作成して表示します。

最後に「これ大好き。最後にラリーに会えるかな...彼が幸せな夢を見ているときに?」と入力すると、楽しそうな夢を見ながら眠っているラリーのイラストが表示されます。

このようにChatGPTと会話しながら、画像を生成することができます。


4.Bingとの連携

Bing Image CreatorBingAIチャットでは、以前よりDALL-Eによる画像生成が行われていましたが、今年9月末よりDALL-E 3が利用できるようになりました。

(1) 日本語プロンプトに対応

「忍者になったシーズー犬」のような簡単な日本語のプロンプトで指示通りの画像を生成することができます。

忍者になったシーズー犬

(2) 画像中に文字を表示

入力した文字を画像中に表示することもできます。

Color manga frame of one Japanese female enjoying ramen noodle 🍜 deliciously , with chopsticks in one hand, perfect anatomy, with caption yummy

このプロンプトは、以下のツイートを参考にしました。

但し、日本語の文字表示はまだ難しいようです。
プロンプト:「風林火山と書かれたTシャツを着ている美しい女性の画像を描いてください。」

(3) 表現が難しい画像の生成

DALL-E 3は、表現することが難しい抽象的な内容の画像も生成することもできます。

Generate an image that represents the following sentence. "They encountered fragmented memories, emotional echoes, and cognitive dissonance, where they witnessed digital structures caught in an existential dilemma, unable to reconcile their coded existence with their longing for something more."

意味不明なプロンプトで、こんなに美しい画像を生成できます。

物理法則の限界領域

表現できない最先端の物理学理論もこのとおり。

対称性の破れと相転移

(4) パワポ資料やブログ記事用のイラスト作成

Bing Image Creator「フラットデザイン」と指示することで簡単にパワポ資料やブログ記事用のイラストを作成することができます。
プロンプト:「化学実験をする研究者のフラットデザインのイラスト」

化学実験をする研究者のフラットデザインのイラスト

このプロンプトは、以下のツイートを参考にしました。

(5) 4コマ 漫画の作成

Bing Image Creatorに4コマ漫画を描いてもらいました。
プロンプト:「かわいい子犬を主人公にしたセリフ入りの4コマ漫画を描いてください。」

かわいい子犬を主人公にしたセリフ入りの4コマ漫画を描いてください。

次に、BingAIチャットにストーリーも一緒に考えてもらいました。
プロンプト:「かわいい子犬を主人公にした4コマ漫画のストーリーを考えて、それを基に、セリフ入りの4コマ漫画を描いてください。」

すると、一発で4種類の4コマ漫画画像が生成されました。以下の画像は、その中の1枚です。

なお、Bingが4コマ漫画用に作成したストーリー(プロンプト)は以下の通りでした。

かわいい子犬が主人公の4コマ漫画。
ストーリーはこうだ: 子犬が朝起きると、飼い主がソファで寝ている。子犬は飼い主の顔をなめて起こそうとするが、飼い主は動こうとしない。子犬は外に出て近所を探検することにする。様々な動物や人に出会い、楽しいことや困ったことを経験する。家に帰ると、飼い主がまだ寝ていた。子犬は飼い主に飛びかかり、大声で吠え、ようやく飼い主を起こす。飼い主は子犬を抱きしめて寝坊を詫びる。子犬は喜び、再び飼い主の顔をなめる。台詞と効果音は日本語。

原文は英語で上記は、DeepLによる日本語訳

まだ4コマ漫画で正確にストーリーを表現するところまでは行かないようです。

(6) 本格的な漫画の作成

DALL-E 3で本格的な漫画の1ページを生成している人もいます。

右下の画像に日本語のセリフを入れたもの

筆者も真似してやってみました。
プロンプト:「高校生とその友達が登場する日本のラブコメディの漫画の1ページ」
以下は、このプロンプトで生成した4種類の画像です。

高校生とその友達が登場する日本のラブコメディの漫画の1ページ

5.まとめ

BingのDALL-E 3画像を見たところ、DALL-E 3画像は日本語入力にも対応しているようです。
但し、入力した文字を画像中に表示する場合は、日本語だと英語のようには上手くいかないようです。

ChatGPT上で文章と合わせて画像を生成できれば、様々な使い方ができそうです。
例えば、絵本を作ったり、キャラ設定したChatGPTとの対話中にキャラクターの表情を示す挿絵を挿入したり、ChatGPTがゲームマスターを務めるテーブルトークRPGの途中でイメージ画像を表示させたりすることが考えられます。
また、プレゼン資料を作成しながら、資料に入れるイラストを作成したり、ストーリーに合わせて漫画の画像を描いたりすることもできそうです。

OpneAIは、DALL-E 3を発表する際に「ユーザーはプロンプトエンジニアリングを学ぶ必要がなくなる」と豪語しました。
これを聞いた時には、オーバーな発言だと思っていましたが、実際に、入力した文章の指示通りの画像を簡単に生成できるDALL-E 3の実力を目の当たりにすると、プロンプトエンジニアリング=プロンプトの工夫が必要なくなるというOpenAIの主張も、まんざら嘘ではないようです。

これで、また、画像生成の世界が大きく変わることでしょう。

この記事が気に入ったらサポートをしてみませんか?