話題の画像生成AI「DALL-E3」を使ってみた！

2023年10月20日 20:45

2022年から注目されているのが生成AIだ。生成AIとは、システムの操作時に入力や処理などを促す文字列（プロンプト）に応答してテキスト、画像等を生成することができる人工知能システム。

AIは1960年代から注目されているが、2022年に登場した生成AIは大きく世界を変えたといっても良いだろう。筆者も生成AIの登場に驚いて、生成AIを動かすためにパソコンを買い替えたほどだ。

生成AIで注目されたのが執筆、音楽、イラスト、動画等、人間しかできなかったと言われているクリエイティブなコンテンツが、気軽に生成できるということで注目されたということ。

その中でも、大きな衝撃を与えたのが画像生成AIだ。これは、名前の通り生成してほしい画像を文章で入力すると、AIがその文章に沿った画像を出力する生成AI。2022年にアメリカ企業が中心に「Midjourney」「Stable Diffusion」が一般向けに公開されたことにより、一気に注目されることとなった。

特にStable Diffusionは、高性能なGPU（グラフィックボード）を搭載したゲーミングPCなら、ローカル環境でも使用できるのが注目された。画像生成AIを動かすことができるパソコンは高価だが、インターネット環境が不要で拡張性が高く、出力画像や使用時間に制限がないため、少なくない人が高価でもローカル環境を構築している。

そんな、画像生成AIの中でも2023年10月現在、話題となっているのが「DALL‐E3」だろう。

DALL-E3は、AI研究や開発を行っているアメリカの非営利団体「OpenAI」が開発している画像生成AI。2021年1月にOpenAIによるブログの投稿で登場したDALL-Eの3代目にあたる画像生成AI。

画像生成AIでDALL-E3が注目されているのが生成する画像の破綻が非常に抑えられているということだ。この理由に関しては、外部記事を見てもらうほうがわかりやすいが、Stable Diffusionと比較して写実性が向上したとのことだ。但し、この写実性の向上により独創的が下がったと言われている。

（外部記事）

DALL-Eアーキテクチャは何故描写の崩壊が抑えられているのか？｜とーふのかけら (note.com)

どのくらい精度が高いのかと言うと、今迄、画像生成AIの欠点と言えたラーメンを食べる人の生成が簡単に行うことができると言えばわかるだろう。

2022年10月頃に、ラーメンを食べる女の子を生成AI（Novel AI）で描いてもらうと、素手でラーメンを食べるという奇妙なイラストが話題となった。しかし、DALL-E3は、いとも簡単にラーメンを食べる女の子を出すことができ、他のAIとの格の違いを感じさせた。

また、生成を行うプロンプトに関しては、一般的な画像生成AIで主流の英語だけでなく日本語にも対応。曖昧な表現でもChatGPTが内容を訳してプロンプトに変換するため、画像生成だけを楽しむのであれば、誰でも楽しく使うことができる。

2023年10月19日時点でDALL-E3は、有料版のChatGPT Plusに加入しているか、無料のMicrosoft Bing Image Creator、Bing Chatで使用することができる。

Bing Chatを使うには、Microsoft Edge ブラウザをインストールしたあと、Microsoft アカウントでサインインを行うと使用可能だ。但し、Bing Chatで生成される画像はBing Image Creatorで生成された画像なので、Bing Chat＝Bing Image Creatorだと思っていいだろう。

Bing Image Creatorでラーメンを食べる女の子を描く。多少おかしい画像もあるが精度は高い

Bing Image Creatorは無料で使うことができるが、画像サイズに制限があったり、画像生成を素早く行うためのブーストの数が制限されている、生成された画像は商用利用できないという問題がある。

Bing Image Creatorでラーメンを食べる女の子を描いた後に別のポーズを出してと命令したら、全く違う画像が出た。

また、画像生成したあとに画像を修正する指示を行うと、全く違う画像ができる頻度が後に述べるChatGPTのDALL-E3と比較して多い。そのため現時点ではBing Image Creatorの画像生成はDALL-E3をお試しで楽しむのが良いだろう。

ChatGPT PlusでDALL-E3を使用した女の子がラーメンを食べるイラスト

ChatGPTのDALL-E3は有料会員のChat GPT Plusでしか使えないが、画像サイズを変えたり、使用する限りでは素早く画像生成を行う制限が緩く、ほぼ制限なしで画像を生成することができる。

また、画像生成したあとに画像を修正する指示を行うと、全く違う画像ができる頻度が、Bing Image Creatorよりも比較的少ない。そして、ChatGPT PlusのDALL-E3で生成された画像は商用利用できるのは非常に魅力的だ。

画像生成AIの中では生成精度が高いDALL-E3。高価なパソコンが不要で、複雑なプロンプトを考えなくても綺麗な画像が生成されるため初心者にはお勧めの画像生成AIだが欠点もある。

最初に気になるのが画像生成を拒否するフェイク、著作物対策が強いこと。DALL-E3は、フェイク画像生成問題として、性的、暴力的な画像生成やフェイクニュースとなる可能性が高い画像が生成できないように対策が取られている。DALL-E3のように気軽に画像生成ができるAIなら、このような機能は必要だが、一般的な使い方でもこのような保護機能が強すぎることがある。例えばワンピーススカートを履いた女性を生成しようとしてもなぜか生成できないということもある。

また、Stable Diffusionのように自由度が高い画像生成を行うのは厳しい。例えばStable Diffusionだと、同じキャラクターの別の違う画像を生成する場合、プロンプトを工夫するのに加えて、制御要素の１つであるSEED値を固定して似たようなキャラクターの生成を行ったり、拡張機能であるControlNetを導入して「線画」を使ってポーズの指定（canny）や、「棒人間」を使ってポーズを指定（openpose）、元画像の絵柄を保持して画像を生成する（reference）ことで、ある程度思い通りの画像を作ることができる。

しかし、DALL-E3は、Stable DiffusionにあるSEED値の指定ができない。SEED値に関してはChatGPTに質問すると答えるが、SEED値を指定して同じプロンプトを使用して画像生成を行っても、同じ画像を出すことはできない。また、Chat GPT PlusのDALL-E3は修正して欲しい内容を入力すると、画像を直してくれると言われているが、直さずに全く違う画像が出るということが少なくない。

DALL-E3は画像生成AIにある程度親しんでいる人からすると物足りないと思う部分があるが、簡単に綺麗な画像が生成できるため、他社の画像生成AIの一歩先を行ったと言えるだろう。

文：松本健多朗

追加記事

画像生成AI「DALL-E3」に、画風の指定ができる「gen_id」が登場　どのように編集できるのか？｜エッジプレス (note.com)