DALL·E3 VS Stable Diffusion、未来を描くのはどっち！？

2024年5月1日 23:16

こんにちは！
私は記事を書く際に、いつもCopilotを通して画像生成AIであるDALL·E3を使用し、挿し絵やサムネイルの素材を用意しています。
他にも無料で利用できる画像生成AIはあり、Stable Diffusionが代表的です。

そこで今回は両者それぞれの特徴と、使用した感想について書いていこうと思います。

DALL·E3について

DALL·E3はChatGPTの開発である、OpenAIの生み出した画像生成AIです。
Copilotから簡単に利用することができます。
あらゆる言語に対応した対話形式で生成することができる、高い汎用性が売りの優等生です。
センシティブな画像を生成してくれない、ちょっとお堅い真面目ちゃんでもあります(笑)

特徴

対話形式で簡単に利用できる
日本語でのプロンプトに対応している
端末の性能を問わず利用できる
プロンプトに対する画像の精度が高い
ユーザーのフィードバックを得られる

個人的には4、5が特にStable Diffusionとの差別化を語る上で重要だと感じました。
詳しくは後ほど説明しようと思います。

Stable Diffusionについて

Stable Diffusionは、テキストやから高品質な画像を生成する画像生成AIです。
ミュンヘン大学のCompVisグループが開発し、2022年に初めてリリースされました。
高スペックのPCが必要になるなど利用するためのハードルは高いですが、様々なプラグイン(追加機能)を導入することにより、高品質な画像を思いのままに生成できます。

特徴

圧倒的な高品質、高解像度の画像を生成できる
image2image(参考画像からの生成)が可能
プロンプトを英語で書き並べる必要がある

特に画像からの生成ができることが、最大の長所だと感じました。
たとえば次のように棒人間を準備すれば、任意のポーズで人物を描くこともできます。

これは私がWindows付属のペイントで描いた、棒人間の画像です。
これを元にStable Diffusionで水着の女の子を、アニメ風に描いたものが次の画像です。

あまりにも高クオリティ…これはもう、圧倒的にStable Diffusionの勝ちで良いのでは！？

しかし意外かもしれませんが、私はDALL･E3の方に未来を感じています。

DALL･E3は今後も進化し続けていく

DALL･E3とStable Diffusionの決定的な違い。
それは先にも述べたようにDALL･E3が「ユーザーのフィードバックを得ている」ところだと思います。

どういうことかといいますと、DALL･E3は生成した画像に対して、ユーザー側が良いと感じたか悪いと感じたか、また悪い場合はどのような場所が悪かったのかという情報を収集しています。

生成された画像の上に、その絵を評価するボタンがありますよね。
ユーザーがこれを押すことで、DALL･E3は「人間はこういうものを山と認識しているんだな」というように学習し、精度を高め続けるわけです。

対してStable Diffusionはこのようなフィードバックを得る手段を持たないため「人間が好きそうなものを機械的に生成する」というタスクを実行しているだけなのです。

「その解釈はおかしいよ！」
「指の本数がおかしいよ！」
「素手でパスタを食べるのはおかしいよ！」

こういった人間側の意見を反映できるか否か、それが両者の雌雄を決する大きなポイントになると私は考えています。

皆様は生成AIについて、どのような意見をお持ちですか？
私はAIの能力が正しく活用され、人類が明るい未来を切り拓くことを願っています！

今回も最後までご視聴いただき、ありがとうございました。
スキやコメントをいただけると、大変励みになります。

この記事が気に入ったらサポートをしてみませんか？