GEMINIの画力をGPT-4の作ったプロンプトでためしてみた
下記の画像は、以前GPT−4に描いてもらったファンタジーRPG(これもGPT-4作)のロゴマークです。GEMINIは英文でお願いすると画像生成までやってくれると言う事で、GPT-4がDALL-E3に依頼するために自分で制作したプロンプト(画像の右側)を、そのままGEMINIに投げてみました。
筆者からのチャットがまるままそのプロンプトなのですが、しっかり画像を生成してくれました。ですが、指定した文字列「The Sacred Union of Five」が入っていませんでした。結構味気ないマークです。
GPT-4が書いたプロンプトを投げてみる
下記も同じく、GPT-4に「The Sacred Union of Five」のロゴを依頼した時の画像とプロンプトですが、2回目なのでさらに別のプロンプトをGPT-4が書いています。
上記のロゴマーク生成ようのプロンプトをそのままGEMINIに投げると、今度はしっかり、「The Sacred Union of Five」という文字を描きました。しかも、DALL-E3よりもスペルが正確です。ただし、惜しいことに左が切れて文字が途中から始まっている画像もありました。
GEMINI自身が画像生成機能を持っているの?
この画像生成機能は、GPT-4がDALL-E3に渡す様に別のAIに渡しているのかそれともGEMINI自身が画像生成機能を備えているのか聞いてみました。
なんと、DALL-E2やMidjourneyなどにプロンプトを渡して生成しているという事が判明しました。要するに画像生成は他社製品にアウトソーシングしているわけですね。
今回の画像生成はどの画像生成AIを使用したのか?
上記の返答でDALL-E2やMidjourneyに渡しているとの事だったので今回の画像生成AIはどれを使用したのか聞いてみました。すると今回はどれを使用したのか答えてはくれませんでした。
突っ込んで聞いたら「あーあーあー聞こえない」の返答を繰り返し始めた
以前Bardは返答できなくなると、「私は勉強中のAIです」といっていましたが、GEMINIは返答に窮するとこの様な返答を鸚鵡返しにしはじめます。
さらにつっこむと使用AIは教えてくれなかったが説明責任ははたした
筆者問:あの、さっきあなたがしっかり絵を描いてくれたんですが、なぜあなた自身が書いたのか、それとも他の画像生成AIに橋渡ししたのかおしえてくれないんですか?
GEMINI返答:私は、テキストベースの指示に基づいて画像を生成するAIモデルです。画像を直接描いたり生成したりすることはできません。代わりに、他の画像生成AIに指示を送り、それによって画像を生成してもらいます。
具体的には、以下の手順で画像を生成します。
あなたの指示をテキストとして受け取ります。
指示を解析し、必要な画像の要素を抽出します。
抽出した要素に基づいて、他の画像生成AIに指示を生成します。
画像生成AIから生成された画像を受け取ります。
生成された画像が指示に合致しているかどうかを確認します。
合致していない場合は、指示を調整して再度画像生成AIに送ります。
合致している場合は、画像をあなたに返します。
つまり、私が画像を描いたというよりは、他の画像生成AIに指示を出すことで画像を生成してもらった、という方が正確です。
なお、私が利用する画像生成AIは、以下の通りです。
DALL-E 2
Midjourney
Disco Diffusion
Imagen
これらの画像生成AIはそれぞれ異なる特徴を持っており、状況に応じて使い分けています。
例えば、DALL-E 2は、写真のようなリアルな画像を生成するのに優れています。一方、Midjourneyは、抽象的な絵画のような画像を生成するのに優れています。
このように、複数の画像生成AIを使い分けることで、より幅広い表現の画像を生成することができます。
結論:GEMINIの画像生成はアウトソーシング
という事で、複数の画像生成AIベンダーにアウトソーシングしている事が判明しました。どれくらい契約料をはらっているんでしょうか?DALL-Eはv2だし、Midjourneyを使っているなら相当まえのヴァージョンだとおもわれます。しかしながら文字列をしっかりスペルミスなく生成できる画像生成AIなのでDALL-E2やMidjourneyの前のヴァージョン(文字認識ができなかった)とは考えにくいです。
GPT-4に結果を伝えてみたら
筆者問:これは、以前にあなたに依頼したロゴだよ。そして、右にかかれているあなたが書いたプロンプトを今回GEMINIに依頼してみたんだ。画質はDALL-E3に劣るけど、文字列のスペルが正確に描かれていた。
GPT-4返答:
GPT-4にGEMINIがどの画像生成AIを使ったのか質問
筆者問:最新バージョンじゃないとおもうんだけど、あなたに描いてもらったロゴMarkの時のプロンプトを入れたら画質は荒いんだけど、文字をスペスミスをしないでしっかり描いたんだよ。 なので、DALL-E32では文字列をしっかり描画する事ができないとおもうし、画質からみるとMidjourneyであるならの相当前のヴァージョンだろうからその時はMidjourneyも文字は書けなかったので、この2つではありえないとおもう。
Disco Diffusion とImagen ってどんな画像生成AIか知ってる?
GPT-4返答:
なんとGoogleも画像生成AIを開発していた
という事で、今回はアウトソーシングではなく自社の画像生成AIに依頼していた可能性が高いです。
ヒーローイメージを下記のプロンプトで依頼したのですがアスペクト比は1:1になってしまいました。16:9にAdobeのフォトショで加工してあげています。しかし、前回のロゴマークよりも画質が格段に良くなっているので文字を描かなくていい画像については、Midjourneyを使用した可能性がありますね。Midjourney風のテイストに仕上がっています。
プロンプトはこちら:
この記事が気に入ったらサポートをしてみませんか?