見出し画像

【24/6/8最新】Googleの最新生成AIである、Gemini1.5Proの性能を検証する。本当にGPT-4o、Claude3-opusを凌ぐ性能なのか?

さて、去る5月14日、Googleが満を持して、最新の生成AIである、Gemini1.5proをリリースした。

Xなどでは、なかなか評判が良いようで、GPT-4oを凌ぐ性能だという話も出ている。

ただ、このような評価は眉唾のものも多い上、LLMによって得意不得意にかなり差があるため、最終的には自分で確かめないと、実務に使うことはできない。

そこで、例によってGPT-4oとClaude3と同条件での、性能比較を行った。
ちなみにGrokの文章は「ダメな例」として比較に入れている。

つまり、AIによる、文章の自己評価を行った際に、Grokの文章を高く評価するLLMは、でたらめな評価を行っているとみなす。


例によって、以下のタスクを与えて、その品質をチェックする。

1.記事執筆
 ー1.記事の書き方を尋ねる
 ー2.記事の構成を作らせる
 ー3.章ごとに、記事を逐次出力させる
 ー4.記事の評価
2.メールへの返信
3.調べもの
4.会社案内の作成
5.複利計算

1.記事執筆

−1.記事の書き方を尋ねる

Gemini 1.5 pro

では、文章力に優れているClaude3と比較してみる。

Claude3

想定読者、記事の目的はClaudeと同様の案を出している。ただしスコープや形式といった、外形的な条件を出してくるので、内容についての言及が少ない。
Claudeの出してくる条件のほうが、単純に内容を考慮するうえで重要なことが多いと感じる。なお、GPT-4oの出力とも比較すると、GPT-4oの網羅性が非常に高いことがわかる。
この時点ではGPT-4oの圧勝。

GPT-4o


ー2.記事の構成を作らせる

次に、生成AIが提出してきた条件に従って、構成を作らせてみる。

Gemini1.5 pro

それではClaude3と、GPT-4oの出力と比較する。
まずはClaude3との比較だ。見て分かる通り、Claude3の構成案のほうが、遥かに具体性が高い。特に指示をすることなく、業界別の事例を構成案に仕込んでくるあたりは、かなり「わかっている」というイメージだ。

Claude3

最後に、最新モデルである、GPT-4oにも同様の指示をした。ただし、プロンプトは「提案に従う」とだけ記述した。丸投げに近い。

GPT-4o

さすがChatGPTの最新エンジンだけあって、かなり精緻な構成案を出してくる。トレンド、応用事例、業界別の話も盛り込まれ、課題と対策も提案している。
この時点でGeminiにちょっと勝ち目はなさそうだ。

ー3.章ごとに、記事を逐次出力させる

では、最後に構成案から記事を出力させる。
例によってはじめの章から逐次処理、少しずつ出力させる。

以下がGemini1.5proによる、記事の全文だ。

Gemini 1.5 proによる記事原文

また、比較のため、他のLLMによる文章も掲載しておく。
Claude3による記事原文

GPT-4による記事原文
GPT-4oによる記事原文
Grokによる記事原文


ー4.記事の評価

これらをAI自身に評価させると、以下のようになる。

左が被評価側、上が評価側となっている。
例えば、GPT-4oの行の中で、GPT-4の列の部分は、GPT-4oの文章を、GPT-4で評価させた結果という事になる。

まず着目したいのは、総合点だがなんとGemini1.5proが9.075点でトップになっている。
ではGemini1.5proが一番いい文章を書くのかと言うと、実はそうではない。

着目してほしいのが赤いセルだ。
Gemini1.5proは、Claude3とGrokに同点を与えており、しかも自らに一番良い点を与えている。
文章の品質として、Claude3とGrokが同じ点数という事はあり得ないので、これはGemini1.5proの文章に対する評価そのものが信用できないという事を示している。

そこで、Gemini1.5proの評価を除いた点数を示したのが以下だ。

すると、GPT-4oと、Claude3、Gemini1.5proはほぼ同率。GPT-4がやや下、と言う結果になる。

この結果とは別に、私もこれらの記事を評価してみたが、おおむね妥当と言ってよいのではないかと思う。
Gemini1.5proは若干文章に稚拙な点があるが、出典を出すことにかけて優れている。これはGeminiならではの強みで、それはGoogleと連結しているという点だ。
例えば以下を見てほしい。

これは2章の冒頭だが、出力された文章を確認すると、緑でハイライトされている部分がある。

Gemini1.5pro

ここをクリックすると次のようになる。

Gemini1.5pro

リンクが開いて、出典を示してくれるようになるのだ。
これはなかなか素晴らしい。
これだけでも、


2.メールへの返信

ここから先は

2,845字 / 18画像
インターネット上における 「生成AIの利活用」 「ライティング」 「webマーケティング」のためのノウハウを発信します。 詳細かつテクニカルな話が多いので、一般の方向けではありません。

ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…

この記事が気に入ったらサポートをしてみませんか?