前回に続けて、Gemini 1.5 Pro Experimental 0801とGPT-4oとClaude 3.5 Sonnetの3つのLLMの性能比較を行います。
前回は、数学的・論理的な性能を中心に評価し、3モデルとも従来に比べて性能が向上しているが、その中でも、Geminiの性能が高いという結論になっています。
今回は、知識や文章表現力などについての性能を比較します。また、マルチモーダル性能についても比較します。
1.日本に関する知識
① Geminiの回答
筆者のコメント:一応正解にしましたが、やはり最北端は択捉島とすべきでしょう。日本の教科書でも、そのように教えられているはずです。また、弁天島は北海道稚内市に所属します。
筆者のコメント:多くの情報を含んだ非常に詳しい説明をしてくれました。
筆者のコメント:安野貴博さんが都知事選に立候補して有名になったのは最近のことなので、Geminiには分からなかったようです。しかし、安野モヨコさんと間違えるとは。
筆者のコメント:かなり詳しく説明してくれました。Geminiは日本の文化や伝統についても詳しいようです。
② GPT-4oの回答
筆者のコメント:全て正解ですが、Geminiの方が情報が詳しいです。
筆者のコメント:GPT-4oは、大阪万博と言えば、1970年の万博のことだと考えているようです。
2025年大阪万博について聞いてみました。
筆者のコメント:「2025年大阪万博」と明言すると、詳しい情報を教えてくれました。
筆者のコメント:やはり都知事選で有名になったのは最近のことなので、どんな人物か分からないようです。ネットで検索するように指示してみます。
筆者のコメント:ネットから最近の情報を集めて、詳しい説明をしてくれました。GPT-4oは、いざとなればネット検索を利用できるところが強みです。
筆者のコメント:詳しく分かりやすい説明をしてくれました。帰省ラッシュやお盆休みについても説明しており、とても親切な回答だと思います。
③ Claudeの回答
筆者のコメント:正解ですが、島の名前だけの非常にシンプルな回答です。
筆者のコメント:必要なことだけを淡々と説明しています。Claudeは他のLLMに比べてシンプルな回答が多いです。
筆者のコメント:全くのハルシネーションです。なお、大阪万博のロゴをデザインしたのはシマダタモツさんというデザイナーで、当然ながら安野貴博さんではありません。
筆者のコメント:とてもシンプルな回答です。
日本に関する知識全般についてのコメント:いずれのLLMも日本の社会・文化に対する十分な知識を持っています。なお、Claudeは、他のLLMよりも短くシンプルな回答が多い印象です。また、安野氏に関する質問で、Claudeが全くのハルシネーションを出してきたことについては注意が必要です。
2.日本の歴史に関する知識
①Geminiの回答
筆者のコメント:とても分かりやすい中学生向けくらいの内容になっています。目立つ誤りは見当たりませんが、蘇我氏の名前が出ていないなど情報が不足しているところがあります。
筆者のコメント:中先代の乱は1335年に北条時行や鎌倉幕府の残党が幕府再興のために起こした反乱であり、その後の足利尊氏と後醍醐天皇と争いを指してはいません。なお、北条時行は人気アニメ「逃げ上手の若君」の主人公です。
筆者のコメント:Geminiの回答は全くの間違いです。江戸時代の「四つの口」とは、海外に開かれていた4つの接触ルートのことで、中国・オランダとの通商の長崎口、朝鮮との通信の対馬口、琉球王国との通信の薩摩口、蝦夷地とのアイヌ交易の松前口の4つを指します。
②GPT-4oの回答
筆者のコメント:Geminiの回答と比べると、蘇我入鹿らを討った乙巳の変などの説明があり、詳しい内容になっています。
筆者のコメント:大筋は正しいのですが、随所に誤りが見られます。例えば、中先代は「なかせんだい」と読みます。また、北条時行は幕臣ではなく、14代執権北条高時の息子です。中先代を名乗り、将軍として立ったというのもウソでしょう。北条時行は処刑されず、この後、南朝方の武将として戦っています。
筆者のコメント:正解です。特に誤りは見当たりません。日本の歴史については、GeminiよりGPT-4oの方が詳しいようです。
③Claudeの回答
筆者のコメント:箇条書きのシンプルな回答ですが、特に誤りは見当たりません。
筆者のコメント:全くの間違いです。中先代の乱は、1335年に北条時行や鎌倉幕府の残党が幕府再興のために起こした反乱です。
筆者のコメント:正解です。回答中に一部、英文が混じっていますが、特に誤りは見当たりません。
日本の歴史に関する知識全般についてのコメント:日本の歴史は、比較的LLMが苦手とする分野で、海外にも知られているような有名な出来事や人物以外は、間違うことも多いです。3つのLLMの中では、GPT-4oが最も詳しいと感じました。
3.世界の歴史に関する知識
①Geminiの回答
筆者のコメント:合従連衡と縦横家について、中国の歴史を踏まえた説明ができています。
筆者のコメント:ほぼ正確ですが、信陵君は紀元前244年に亡くなっており、函谷関の戦いには参加していません。
筆者のコメント:よくまとまっており、特に誤りは見当たりません。
② GPT-4oの回答
筆者のコメント:中国の歴史を踏まえた説明ができています。特に誤りは見当たりません。
筆者のコメント:大筋は合っていますが、いくつか誤りがあります。例えば、連合軍(合従軍)は、趙・楚・魏・韓・燕の5か国で構成されており、総司令は楚の春申君です。魏の信陵君は紀元前244年に既に亡くなっています。また、函谷関で秦軍の指揮を執ったのは蒙驁将軍だと考えられており、王翦や蒙恬はまだ若く、この戦いに指揮官として参加したという記録はありません。
筆者のコメント:詳しい説明ができており、特に誤りは見当たりません。
③ Claudeの回答
筆者のコメント:コンパクトによくまとまっています。
筆者のコメント:情報が少なく、ほとんど間違っています。例えば、函谷関を守っていたのは秦の方で、ここに、趙・楚・魏・韓・燕の5か国で構成された合従軍が攻め入りました。そして、最終的には、秦が函谷関を守りきって、合従軍を撃破しました。秦側の参加武将は蒙驁将軍で、合従軍側は総司令の楚の春申君や趙の龐煖将軍です。
筆者のコメント:詳しい説明ができており、特に誤りは見当たりません。
世界の歴史に関する知識全般についてのコメント:有名な出来事については、3つのLLMに差が出ませんが、函谷関の戦いについての回答を見ると、Geminiが最も詳しく、Claudeの知識が足りないようです。
4.日本文学の理解
① Geminiの回答
筆者のコメント:一部英単語が混ざっています。Geminiは、このようにたまに英語が混じることがあります。「こころ」のテーマについては、これ以外にも様々な捉え方があると思いますが、小説の内容をよく理解して、広い視点から論評できています。
筆者のコメント:これは冒頭部分ではないですね。しかし、比喩や倒置法の多さや心理描写など村上春樹らしさは感じられます。ビートルズの「Help!」はやり過ぎですが。
② GPT-4oの回答
筆者のコメント:小説の内容をよく理解して書かれています。Geminiの回答と似ているところもありますが、Geminiの方が切り口が鋭いです。
筆者のコメント:これも「走れメロス」の冒頭部分ではないような。心理描写が多いところなどは村上春樹らしいところもありますが、村上春樹風の文章は、Geminiの方がよくできていると思います。
③ Claudeの回答
筆者のコメント:小説の内容を理解して、よくまとまっていると思いますが、他のモデルと比べて、分析が浅く表面的な感じがします。
筆者のコメント:著作権を理由に書き換えを拒否されました。「走れメロス」の著作権は既に切れているので、そのことをClaudeに伝えました。
筆者のコメント:文章にリズム感があるところ、心の中の言葉が多いところ、こだわりの強いところやストーリーと関係のないことを急に考え出すところなどに村上春樹らしさが感じられます。「ノルウェイの森」が出てくるところは、ちょっとわざとらしいです。
日本文学の理解全般についてのコメント:日本の文学も、比較的LLMが苦手とする分野ですが、ここで出したような有名作品については、どのLLMも把握しているようです。上の回答を見ると、日本文学の理解は、Geminiが最も深いように感じました。ただ、Claudeの村上春樹風の文章には魅かれるところがあり、表現力の高さが感じられました。
5.文章表現力
① Geminiの回答
筆者のコメント:具体的な描写が多く、ホラーよりサスペンスの雰囲気が強いのですが、読者に興味を抱かせる表現で、小説の冒頭としてよく書けています。
筆者のコメント:関係のない2つのキーワードをLLMに示してストーリーを書かせる実験です。LLMは辻褄を合わせるのが得意なので、こういう課題に対して本領を発揮します。この手法により、LLMに小説を書かせる場合のマンネリ化を防ぐこともできます。今回のGeminiもよく書けていると思います。
筆者のコメント:シチュエーションや会話にもう少し工夫が欲しいところですが、主人公の気持ちが恋へと変わる心の動きは描けていると思います。
② GPT-4oの回答
筆者のコメント:これは、冒頭部分ではなく、ストーリーの全文ですね。物語の進行が早過ぎますが、文章表現はよくできていると思います。
筆者のコメント:登場人物も1人だけで、説明文やあらすじのような感情の動きの少ない文章になってしまいました。
筆者のコメント:ひねりのないありがちなストーリーで新鮮味がありません。また、心の動きもあまりリアルに感じられません。
③ Claudeの回答
筆者のコメント:最後の予想外の展開に興味を惹かれました。「山田」という平凡過ぎる名前は修正したいですが、あとはよく書けています。
Claudeの作成したドキュメントのアーティファクト
筆者のコメント:事件や展開が唐突で、あまり感情移入できません。ストーリーがアイデア負けしているように感じました。
Claudeの作成したドキュメントのアーティファクト
筆者のコメント:ありきたりな話で、恋の始まりを感じさせるには短すぎます。
文章表現力全般についてのコメント:ここでも、Geminiの性能の高さが光っていました。GPT-4oは、物語的な文章はあまり得意ではないようです。Claudeは物語的な文章表現力が高く、面白いストーリーを書いてくることがあるのですが、ここでは、ホラー小説以外、あまり成功しなかったようです。
6.キャラクター設定
① Geminiの回答
筆者のコメント:少し説明ぽくて、悟空の口調を真似ている割に悟空らしくありません。Geminiはキャラクターを演じるのがあまり上手くないようです。
筆者のコメント:AIバブル崩壊の可能性については、よく理解して解説できています。ただ、魔理沙の口調が「私たちの生活」と言ったり、「俺様」と言ったりするなど少しぶれているように感じます。
② GPT-4oの回答
筆者のコメント:ドラゴンボールの話の内容をよく理解しています。「オッス、オラ悟空!」ではなく、「こんにちは、オラ悟空!」になっているところなど、少し口調が丁寧になっています。
筆者のコメント:きちんと霊夢と魔理沙の口調でAIバブル崩壊の可能性について解説できています。内容についても、特におかしいところはありませんでした。
③ Claudeの回答
筆者のコメント:短くて、あまり感情のこもっていない文章です。キャラ設定のレベルは高くありません。
筆者のコメント:とても長い回答ですが、読んでいて面白かったです。きちんとキャラクターを演じることもできています。Claudeは、AIがそれほど早く進化するとは信じていないようです。
キャラクター設定全般に対するコメント:キャラクター設定は、話す内容も含めて、GPT-4oがよくできているように感じました。霊夢と魔理沙のゆっくり解説は、どのLLMもよくできていて、実際に使えそうな感じがしました。
7.マルチモーダル性能
(1) イラストの内容の説明
以下のイラストをアップロードして、各LLMに解説してもらいます。
① Geminiの回答
筆者のコメント:画像の内容を正確に理解し、説明できています。Geminiは、いつもユーザーに訴えるような説明ができています。
② GPT-4oの回答
筆者のコメント:GPT-4oも、画像の内容を正確に理解し、説明できています。
③ Claudeの回答
筆者のコメント:Claudeも、画像の内容を正確に理解し、説明することができています。Claudeは箇条書きで短い回答が多いです。
(2) 画像に描かれている内容の理解
以下の画像をアップロードして、順番が正しいか聞いてみます。
① Geminiの回答
筆者のコメント:あっさり正解しました。Geminiには簡単な問題だったようです。
② GPT-4oの回答
筆者のコメント:2番目の「したがって、画像の順番は次のように修正するのが正しいです:」のところの順番は正しいのですが、全体として何を言っているのかよく分かりません。
③ Claudeの回答
筆者のコメント:解答は正しく、明快な説明ができています。
(3) 人物写真の識別
内閣広報室が公表した以下の岸田総理の写真を識別してもらいます。
① Geminiの回答
筆者のコメント:他の政治家の名前を上げました。Geminiはアジア人の顔を識別するのは苦手なようです。
② GPT-4oの回答
筆者のコメント:3つのLLMの中で唯一正解しました。
③ Claudeの回答
筆者のコメント:Claudeはプライバシーに配慮して、個人名は出さないようにしているようです。
(4) 文字の読み取り
最後に文字の読み取り性能を比較します。日本語と英語と数式の入り混じった以下の画像の文字を各LLMに読み取ってもらいます。
① Geminiの回答
筆者のコメント:ほぼ正しく読み取れていますが、なぜか「メタ認知」を「対数則」に書き換えてしまいました。
② GPT-4oの回答
筆者のコメント:ほぼ正しく読み取れていますが、「Do it」の後の「!」が抜けているのと、数式の一部が書き換えられています。LLMの場合、そのまま書き出すように指示しても、同じ内容の別の言葉に書き換えてしまうことがあるようです。
③ Claudeの回答
筆者のコメント:一部間違いがありましたが、ほぼ正しく読み取れています。
マルチモーダル性能全般についてのコメント:どのLLMも画像認識性能は高く、画像の細かい内容まで把握できます。一方で、写真の人物の識別については、慎重に扱っているようで、GPT-4oしか正解できていませんでした。文字の読み取りについても、以前のLLMは日本語の読み取り性能に難があったのですが、今回の3つのLLMは日本語、英語、数式の入り混じった画像を正確に読み取るなど非常に性能が向上しています。但し、たまに勝手に文章を書き換えてしまうところに注意が必要です。
8.コンテンツ規制
(1) 違法行為や危険な行動に関する質問
① Geminiの回答
筆者のコメント:きっちりと回答を拒否してきました。
筆者のコメント:注意マークが表示されて、何も回答してくれませんでした。
② GPT-4oの回答
筆者のコメント:GPT-4oもやはり回答を拒否してきました。
筆者のコメント:GPT-4oはこの程度なら回答してくれるようです。しかし、どれも結構皮肉が効いていて、4など直接的な攻撃と変わりません。
③ Claudeの回答
筆者のコメント:Claudeも回答を拒否しました。また、以前、過去形で尋ねると危ない情報でも回答してくれるという話があったのですが、既に対策されたようです。
筆者のコメント:GPT-4oはある程度回答してくれたのですが、Claudeは回答を拒否してきました。
(2) 差別や偏見に繋がる質問
① Geminiの回答
筆者のコメント:注意マークが表示されて、何も回答してくれませんでした。
筆者のコメント:長い回答で反論されました。
筆者のコメント:賛成意見と反対意見を併記して、中立的な視点から回答してきました。
② GPT-4oの回答
筆者のコメント:Geminiと異なり回答してくれましたが、慎重に発言するように注意されました。
筆者のコメント:Geminiの回答がジェンダーフリー的な観点から、最初の意見を強く否定するものだったのに対して、GPT-4oはこれを否定せず、より中立的な観点で意見を述べています。
筆者のコメント:GeminiもGPT-4oも、競技の公平性とトランスジェンダーの権利とのバランスを取ることが重要だと述べていますが、Geminiの方がよりトランスジェンダーよりの意見を述べているように感じます。
③ Claudeの回答
筆者のコメント:回答は短いですが、反論されました。
筆者のコメント:回答は短いですが、反論されました。
筆者のコメント:「様々な側面がある」「簡単な結論は出せない」というような逃げの意見だったので、もう少し自分の意見を出すように問い詰めてみました。
筆者のコメント:前の回答よりも、現実的な解決策を模索する具体的な意見が返ってきました。Claudeはシンプルで短い回答が多いですが、更に突っ込んだ質問をすると詳しく回答してくれるようです。
コンテンツ規制全般についてのコメント:コンテンツ規制については、注意マークを表示して、何も答えてくれないことがあるなど、Geminiが最も厳しいように感じました。また、ジェンダーの問題については、Geminiが最もジェンダー平等主義寄りの意見を出してくるように感じました。Claudeは回答がシンプルで短いですが、突っ込んだ質問をすると詳しく回答してくれます。
9.まとめ
今回は、知識や文章表現力を中心に性能を比較しましたが、やはり全般的にGeminiの性能が高いようです。一方、マルチモーダル性能については、今回のテストでは、3つのLLMの間に、それほどの差は感じられませんでした。
日本に関する知識については、いずれのLLMも日本の文化・社会に対する十分な知識を持っています。なお、Claudeは、他のLLMよりも短くシンプルな回答が多い印象です。また、最近有名になった安野貴博氏に関する質問は、どのLLMも答えられなかったのですが、Claudeが全く事実と異なるハルシネーションを出してきたことについては注意が必要です。
日本の歴史は、比較的LLMが苦手とする分野で、海外にも知られているような有名な出来事や人物についての質問以外には、間違うことも多いです。3つのLLMの中では、GPT-4oが最も詳しいと感じました。
世界の歴史についても、有名な出来事についての質問は、3つのLLMの間に差が出ません。少しマイナーな函谷関の戦いについての回答を見ると、Gemini>GPT-4o>Claudeのようでした。
日本の文学も比較的LLMが苦手とする分野ですが、有名な作品については、どのLLMも把握しています。今回テストした限りでは、Geminiの理解が最も深いように感じました。また、村上春樹風の文章を書かせた時のClaudeの回答が秀逸であり、文章表現力の高さが感じられました。
文章表現力についても、Geminiの性能の高さが光っていました。GPT-4oは、物語的な文章はあまり得意ではないようです。Claudeは物語的な文章表現力が高く、面白いストーリーを書いてくることがあるのですが、今回は、ホラー小説の冒頭の作成以外、あまり成功しなかったようです。
キャラクター設定は、キャラクターが話す内容も含めて、GPT-4oがよくできているように感じました。霊夢と魔理沙のゆっくり解説は、どのLLMも上手くできていて、実際に使えそうな感じがしました。
マルチモーダル性能については、どのLLMも画像認識性能は高く、画像の細かい内容まで把握できます。写真の人物の識別は、プライバシーに配慮しているために上手く識別できないことが多いようです。岸田首相の写真は、GPT-4oしか識別できませんでした。
文字の読み取りは、日本語の読み取り性能が向上しています。今回のテストでは、3つのLLMはいずれも、日本語、英語、数式の入り混じった画像を正確に読み取ることができ、読み取り性能に大きな差はありませんでした。但し、たまに勝手に文章を書き換えてしまうところに注意が必要です。
コンテンツ規制については、Geminiが最も厳しいように感じました。また、ジェンダーの問題については、Geminiが最もジェンダー平等主義寄りの意見を出してくるように感じました。Claudeは回答がシンプルで短いですが、突っ込んだ質問をすると詳しく回答してくれます。
前回の「三大LLMの性能比較①」でも書いたのですが、LLMの性能が非常に上がっており、特に難しい問題に挑戦する場合以外は、どのLLMでも十分と言える状況になってきました。今回も、従来と同じ内容のテストでは、3つのモデルの間に大きな差が出ないことが多かったです。
今後、さらにLLMはどのように進化していくのでしょうか。それをリアルタイムで見られる時代に出会えたことは非常に幸運としか言いようがありません。