見出し画像

図抜けたGPT-4o 無料で使えるGemini 1.5 Flash 最新画像キャプション力比較 GPT-4o / Gemini 1.5 Flash / Pro / Claude 3 Haiku

こんにちは!
ノーリーです。ClaudeChatGPT、Gemini使ってますか?

5/14にはGPT-4o、15にはGemini 1.5 Flashが発表されました。
いずれもマルチモーダルの大規模言語モデルになります。

この記事では、各モデルの画像キャプション力を比較します。

この記事は、大阪のIT専門学校「清風情報工科学院」の校長・平岡憲人(ノーリー)がお送りします。


1.モデルの紹介

今回比較したモデルは次の4つ。
・Claude 3 Haiku    Anthropicの軽量安価モデル
・Gemini 1.5 Flash   Googleの軽量安価モデル(無料利用可能)
・Gemini 1.5 Pro    Googleの標準モデル(無料利用可能)
・GPT-4o       OpenAIの最強モデル

いずれもAPI経由で利用する場合、有料課金がある。
但し、Gemini 1.5 Flashは毎分15回、Gemini 1.5 Proは毎分2回までは無料利用が可能。
またClaude 3 Haikuは毎分5回~4000回、Gemini 1.5 Flashは毎分360
回、Gemini 1.5 Proは毎分360回、GPT-4oは毎分5000回までの利用制限がある。

2.比較方法

APIを通じて画像を送り、次のプロンプトで画像にキャプションをつけさせた。

この画像に日本語で50字程度のファイル名をつけて。手順の説明なし。ファイル名だけ答えて。

評価は私が主観的に行ったもの。

緑: 2点  画像に含まれる情報が十分反映されている
黄緑:1点  画像に含まれる情報が概ね繁栄されている
白: 0点  ハルシネーションは含まれていない
黄: ー2点 ハルシネーションが含まれる
赤: 0点  エラーによりスキップされた

ハルシネーションについてつきめの点数となっているのは、見当違いの名前が付くと、そのファイルを探せなくなる可能性が高くなるからである。

3.比較結果

様々な画像にキャプションを付けさせた。
結論として、
 ・GPT-4oのキャプション力は図抜けている
 ・Gemini 1.5 Flashは無料としては実用的なレベルにある
と言える。

Gemini 1.5 Flash、Gemini 1.5 Proのキャプションにはファイルの拡張子が追加されているものがあるが評価対象にしなかった。
これはプロンプトに「ファイル名」とあることが原因である。
この評価実施後、次のプロンプトに変更している。

この画像に日本語で50字程度の名前をつけて。手順の説明なし。名前だけ答えて。

スコアは、
・Claude 3 Haiku   14点
・Gemini 1.5 Flash   10点
・Gemini 1.5 Pro    13点
・GPT-4o       27点
となった。
GPT-4oではハルシネーションは観測されなかった。

・Claude 3 Haiku
ハルシネーションはわずかにあるが、費用対効果を考えると実用レベル。
・Gemini 1.5 Flash
Claude 3 Haikuに準ずる能力。無料で利用でき、キャプション内容は及第点と言える。
・Gemini 1.5 Pro
Claude 3 Haikuと同等の能力。費用対効果を考えると利用する価値はない。
・GPT-4o 
図抜けた能力がある。ハルシネーションはこのデータでは起きなかった。

費用・速度の比較(後で追記予定)

4.まとめ

当初、Gemini 1.5 Flashを中心に評価しようと考えておりました。
しかし、せっかくGPT-4oが出たことだし、これも評価しようと加えて見たところ、図抜けた能力が判明し、非常に驚きました。
さすが、OpenAIというとこですね。
ただ、GPT-4oの費用はClaude 3 Haikuに比べて数倍以上ではないかと予想しています。

ローカル画像ファイルにキャプションをつけそれをファイル名にするというような用途であれば、Gemini 1.5 Flashの無料モードが魅力的に見えます。
必要な精度およびかけられるコストに応じてモデルを使い分けることになると考えます。

なお、AIリネームは、Gemini 1.5 Flash、GPT-4oに対応した2.0をリリース予定です。
この記事もこの2.0を利用して作成しました。


この記事が参加している募集

#AIとやってみた

27,403件

よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます! (