見出し画像

GPT-4-Turbo、Claude 3、Geminiのマルチモーダルで複数画像を入力できるようにしてみた。

KingJoeBot(LINE Chat Bot)でマルチモーダル機能を実装していて、複数の画像を入れられそうだったので、ついでに複数画像入力に対応させてみた。
サンプル画像は、以下のサイトのものを利用しました。

https://www.gmo-jisedai.com/wp-content/uploads/T_REX_1-1024x768.jpeg

https://www.gmo-jisedai.com/wp-content/uploads/T_REX_2-1024x768.jpeg

プロンプトは、上記サイトとの結果を比較したかったので同じ文言を投入してみた。
「この2枚の写真には、何が写ってますか? 1枚目と2枚目でどのような違いがあるのか説明してください。」
KingJoeBot上での入力は以下の通り。

複数画像の投入

GPT-4-Turbo

これらの写真には、恐竜の骨格標本が写っています。

1枚目の写真では、恐竜の骨格がショッピングモールのような公共の場所に展示されています。背景には店舗や飲食店が見え、天井からはイルミネーションがぶら下がっており、賑やかな雰囲気が感じられます。

2枚目の写真では、恐竜の骨格が博物館のような展示スペースに置かれています。骨格は砂の上に配置されており、周囲には他の展示物や情報パネルが見えます。こちらの環境は教育的で、学びの場としての雰囲気があります。

両写真の主な違いは、展示されている環境と周囲の雰囲気です。1枚目はより商業的でカジュアルな場所に展示されており、2枚目は教育的な目的で整備された展示空間になっています。

gpt-4-turbo

Gemini Pro 1.5

2枚の写真にはどちらもティラノサウルスの骨格が写っています。

1枚目の写真は、フィールド博物館のスタンと呼ばれるティラノサウルスの骨格です。スタンは、これまでに発見された中で最も完全なティラノサウルスの骨格の1つです。この写真は、博物館のメインホールで撮られたもので、ホリデーシーズンであることがわかります。

2枚目の写真は、同じくフィールド博物館のスーと呼ばれるティラノサウルスの骨格です。スーは、これまでに発見された中で最も大きく、最も完全なティラノサウルスの骨格です。この写真は、博物館の専用展示室で撮られたもので、スーが獲物を食べている様子が再現されています。

gemini-1.5-pro-latest

Claude 3 Opus

両方の写真には、恐竜の骨格標本が写っています。

1枚目の写真では、恐竜の骨格標本が全身で展示されています。背景には「Titans of the Ice Age」という看板が見えるので、氷河期の巨大な動物の展示だと思われます。骨格標本の周りには観覧用の手すりがあり、多くの人が見学している様子が伺えます。

一方、2枚目の写真は、同じ恐竜の骨格標本のアップショットです。頭部や首の部分に焦点が当てられており、骨格の細部まで見ることができます。背景には「Exit」の看板が見えるので、展示会場の出口付近で撮影されたのかもしれません。また、骨格標本の下に2人の人物が立っているのが見えます。

つまり、1枚目は恐竜の骨格標本を含む展示会場全体の様子を、2枚目は骨格標本の細部にフォーカスを当てた写真という違いがあります。どちらも迫力のある恐竜の化石の展示ですが、アングルや背景が異なっています。

claude-3-opus-20240229

所見

すべて「恐竜の骨格標本」と認識しているのは、すごいですね。
しかし、「どのような違いがあるのか」に対して答えているのは、GPTとClaudeでした。GPTも元記事のものと比べるとバージョンが上がったせいか、「クリスマスの装飾が・・・」から「イルミネーションが・・・」とより正確な表現になっているように見受けらえます。違いのポイントを「周囲の雰囲気」としているのは変わらないようです。
Claudeは、「フォーカス」に着目しているようです。言われてみればそう思えるから不思議ですね。
Geminiも「違い」まで言い切れなかったのですが、しっかりと2枚の画像を認識しているように見えます。

複数画像対応したことで、実験の幅も広がりました。


この記事が気に入ったらサポートをしてみませんか?