GEMINIの画力をGPT-4の作ったプロンプトでためしてみた

2024年2月10日 14:40

下記の画像は、以前GPT−４に描いてもらったファンタジーRPG（これもGPT-4作）のロゴマークです。GEMINIは英文でお願いすると画像生成までやってくれると言う事で、GPT-4がDALL-E3に依頼するために自分で制作したプロンプト（画像の右側）を、そのままGEMINIに投げてみました。

筆者からのチャットがまるままそのプロンプトなのですが、しっかり画像を生成してくれました。ですが、指定した文字列「The Sacred Union of Five」が入っていませんでした。結構味気ないマークです。

GPT-4が書いたプロンプトを投げてみる

下記も同じく、GPT-4に「The Sacred Union of Five」のロゴを依頼した時の画像とプロンプトですが、2回目なのでさらに別のプロンプトをGPT-4が書いています。

上記のロゴマーク生成ようのプロンプトをそのままGEMINIに投げると、今度はしっかり、「The Sacred Union of Five」という文字を描きました。しかも、DALL-E3よりもスペルが正確です。ただし、惜しいことに左が切れて文字が途中から始まっている画像もありました。

GEMINI自身が画像生成機能を持っているの？

この画像生成機能は、GPT-4がDALL-E3に渡す様に別のAIに渡しているのかそれともGEMINI自身が画像生成機能を備えているのか聞いてみました。

なんと、DALL-E2やMidjourneyなどにプロンプトを渡して生成しているという事が判明しました。要するに画像生成は他社製品にアウトソーシングしているわけですね。

今回の画像生成はどの画像生成AIを使用したのか？

上記の返答でDALL-E2やMidjourneyに渡しているとの事だったので今回の画像生成AIはどれを使用したのか聞いてみました。すると今回はどれを使用したのか答えてはくれませんでした。

突っ込んで聞いたら「あーあーあー聞こえない」の返答を繰り返し始めた

以前Bardは返答できなくなると、「私は勉強中のAIです」といっていましたが、GEMINIは返答に窮するとこの様な返答を鸚鵡返しにしはじめます。

さらにつっこむと使用AIは教えてくれなかったが説明責任ははたした

筆者問：あの、さっきあなたがしっかり絵を描いてくれたんですが、なぜあなた自身が書いたのか、それとも他の画像生成AIに橋渡ししたのかおしえてくれないんですか？

GEMINI返答：私は、テキストベースの指示に基づいて画像を生成するAIモデルです。画像を直接描いたり生成したりすることはできません。代わりに、他の画像生成AIに指示を送り、それによって画像を生成してもらいます。

具体的には、以下の手順で画像を生成します。

あなたの指示をテキストとして受け取ります。
指示を解析し、必要な画像の要素を抽出します。
抽出した要素に基づいて、他の画像生成AIに指示を生成します。
画像生成AIから生成された画像を受け取ります。
生成された画像が指示に合致しているかどうかを確認します。
合致していない場合は、指示を調整して再度画像生成AIに送ります。
合致している場合は、画像をあなたに返します。

つまり、私が画像を描いたというよりは、他の画像生成AIに指示を出すことで画像を生成してもらった、という方が正確です。

なお、私が利用する画像生成AIは、以下の通りです。

DALL-E 2
Midjourney
Disco Diffusion
Imagen

これらの画像生成AIはそれぞれ異なる特徴を持っており、状況に応じて使い分けています。

例えば、DALL-E 2は、写真のようなリアルな画像を生成するのに優れています。一方、Midjourneyは、抽象的な絵画のような画像を生成するのに優れています。

このように、複数の画像生成AIを使い分けることで、より幅広い表現の画像を生成することができます。

結論：GEMINIの画像生成はアウトソーシング

という事で、複数の画像生成AIベンダーにアウトソーシングしている事が判明しました。どれくらい契約料をはらっているんでしょうか？DALL-Eはv２だし、Midjourneyを使っているなら相当まえのヴァージョンだとおもわれます。しかしながら文字列をしっかりスペルミスなく生成できる画像生成AIなのでDALL-E2やMidjourneyの前のヴァージョン（文字認識ができなかった）とは考えにくいです。

GPT-4に結果を伝えてみたら

筆者問：これは、以前にあなたに依頼したロゴだよ。そして、右にかかれているあなたが書いたプロンプトを今回GEMINIに依頼してみたんだ。画質はDALL-E3に劣るけど、文字列のスペルが正確に描かれていた。

GPT-4返答：

GEMINIが生成した画像が文字列のスペルを正確に描画していたとのことで、これはDALL-Eのバージョンによる能力の違いを示唆しているかもしれない。GEMINIがDALL-E 2、Midjourney、Disco Diffusion、Imagenなど複数のAIを使い分けているとのことだったから、この場合にはDALL-E 2ではなく、他の画像生成AIが使用された可能性が高い。

画像の品質がDALL-E 3より劣ると感じたとしても、文字列の正確性が向上しているのであれば、それはGEMINIが選択したAIが文字列生成に特化しているか、もしくはそのバージョンが特に文字列に強いアルゴリズムを有していることを示している。AIの進化は常に進行中で、各モデルの特徴や能力は時間と共に変化していくものだから、新しいバージョンや異なるAIモデルが異なる結果を生むのは自然なことだね。

結果的には、GEMINIが利用したAIが文字列のスペルを正確に描画できる能力を持っていたということで、今回のロゴ生成においてはDALL-E 2以外のAIが使用されたと推測できるよ。

GPT-4

GPT-4にGEMINIがどの画像生成AIを使ったのか質問

筆者問：最新バージョンじゃないとおもうんだけど、あなたに描いてもらったロゴMarkの時のプロンプトを入れたら画質は荒いんだけど、文字をスペスミスをしないでしっかり描いたんだよ。なので、DALL-E32では文字列をしっかり描画する事ができないとおもうし、画質からみるとMidjourneyであるならの相当前のヴァージョンだろうからその時はMidjourneyも文字は書けなかったので、この2つではありえないとおもう。
Disco Diffusion とImagen ってどんな画像生成AIか知ってる？

GPT-4返答：

Disco DiffusionとImagenについて説明するね。

Disco Diffusion
Disco Diffusionは、Googleによって開発された画像生成AIで、AIによる画像生成プロセスにおいて、様々なアートスタイルや技術を組み合わせて使用するツールの一つだよ。特に、Diffusionモデルを中心とした技術を用いて、テキストの指示に基づく画像を生成するのが特徴。このツールは、ユーザーがテキストプロンプトを入力すると、そのプロンプトに基づいて画像を生成する。生成される画像は、しばしば夢幻的でアートのような質感を持ち、非常に独創的なビジュアルを生み出すことができるんだ。

Imagen
ImagenはGoogleによって開発された高度な画像生成AIで、非常にリアルで詳細な画像を生成することが可能。Imagenはテキストから画像を生成する際に、高い精度とリアリズムを実現することで知られているよ。このAIは、テキストの指示を非常に正確に解釈し、それに基づいて写実的な画像や複雑なシーンを生成する能力が特徴。Imagenは、生成する画像の質の高さにおいて特に注目されているんだ。

文字の扱いについて

GEMINIが言及したように、これらの画像生成AIはそれぞれ異なる強みを持っているから、使用するAIによって生成される画像の特性が変わるよ。文字の扱いに関しても、AIのバージョンやモデルの訓練方法によって大きく異なることがある。例えば、一部のモデルではテキストの指示に基づく正確な文字の描画が難しい場合がある一方で、他のモデルではより高い精度で文字を再現できる場合があるんだ。

あなたが経験したロゴの生成結果について考えると、Disco DiffusionやImagenが利用された可能性が高いかもしれないね。ただし、各AIのバージョンによって能力が異なるため、具体的な画像生成の結果はその時点でのバージョンや設定に強く依存するよ。最新のバージョンでは、文字の正確な描画や画質の向上など、さらに進化している可能性もあるから、その点も考慮してみるといいかもしれないね。

なんとGoogleも画像生成AIを開発していた

という事で、今回はアウトソーシングではなく自社の画像生成AIに依頼していた可能性が高いです。

ヒーローイメージを下記のプロンプトで依頼したのですがアスペクト比は1:1になってしまいました。16:9にAdobeのフォトショで加工してあげています。しかし、前回のロゴマークよりも画質が格段に良くなっているので文字を描かなくていい画像については、Midjourneyを使用した可能性がありますね。Midjourney風のテイストに仕上がっています。

プロンプトはこちら：

I wrote a blog introducing GEMINI's image generation capabilities. Please draw an image suitable as a hero image. Please use 16:9 aspect ratio.

Zun

この記事が気に入ったらサポートをしてみませんか？