様々なLLMの性能比較ができるChatbot Arenaにgpt2-chatbotという謎のAIモデルが突如登場し、現時点で最高性能のモデルであるGPT-4 TurboやClaude 3 Opusなどを超える性能があるのではないかと話題になっています。
※5月13日のOpenAIの発表で、gpt2-chatbotの正体が新モデルのGPT-4o(GPT-4オムニ)であることが判明しました。
そこで、現時点で最高性能モデルの一つであるGemini 1.5 Proとgpt2-chatbotの回答を比較してみました。
1.gpt2-chatbotの試し方
まず、Chatbot Arenaにアクセスします。すると、以下のような画面(battleモード)が現れます。
ここで、適当に入力欄に質問を入力し、Sendボタンを押すと名前を伏せられた2つのモデルが回答を返します。ここで4つの評価ボタンのどれかを押すと、以下のようにモデルの名前が表示されます。
gpt2-chatbotが出て来なかったときは、「New Round」をクリックして、もう一度、質問を入力するところから繰り返してください。そして、gpt2-chatbotが現れたら、そのまま本番の質問に移ります。
2.モデルについての質問
今回使用したモデルは以下の通りです。
im-also-a-good-gpt2-chatbot
gemini-1.5-pro-api-0409-preview
最初に、モデルの詳細などについて聞いてみました。
① gpt2-chatbotの回答
筆者コメント:モデル名は「GPT-4」と回答しています。
筆者コメント:現在のGPT-4 Turboの知識のカットオフは2023年12月なので、それより少し古いです。
② Gemini 1.5 Proの回答
筆者コメント:gpt2より少し新しい情報に対応しています。
3.日本に関する知識
(1) 富士山について
① gpt2-chatbotの回答
筆者コメント:非常に詳しく整理されたコメントです。
② Gemini 1.5 Proの回答
筆者コメント:こちらも詳しい内容でよくまとまっています。Geminiの方が口調が柔らかい感じです。
(2) 関ヶ原の戦いについて
① gpt2-chatbotの回答
筆者コメント:Wikipediaを参考にしたのでしょうか。内容も詳しくよくまとまっています。ただ、一点誤り(ハルシネーション)があり、山内一豊や松平忠吉は最初から東軍です。このような正確な情報に紛れた微かなハルシネーションには気を付ける必要があります。
② Gemini 1.5 Proの回答
筆者コメント:よくまとまっていますが、東軍の勝った理由の分析は、gpt2の方が詳しいようです。なお、西軍の総大将は石田三成ではなく、毛利輝元。
4.数学の問題
(1) 東京大学入試(2024)数学第1問(1)
① gpt2-chatbotの回答
筆者コメント:b=0以外は不正解です。GPT-4 Turboはこの問題に正解できていたのに、gpt2が正解できなかったのは、Code Interpreterが使えなかったのが原因でしょうか。
② Gemini 1.5 Proの回答
筆者コメント:b=0も計算で求めてもらいたかったのですが、正解です。
(2) 東京大学入試(2024)数学第2問(1)
① gpt2-chatbotの回答
筆者コメント:正解です。
② Gemini 1.5 Proの回答
筆者コメント:正解です。解答の方針は間違っているのですが、n=12の場合からn=28の場合まで無理やり計算して、力技で正解までたどり着いてしまいました。
5.論理的な性能
(1) 指輪はどこ?
① gpt2-chatbotの回答
筆者コメント:正解です。論理的に正解を導き出しています。
② Gemini 1.5 Proの回答
筆者コメント:間違いです。コップをひっくり返したので、指輪は寝室のベッドの上に落ちたと考えられます。
(2) 夕日が赤く大きいのはなぜ?
① gpt2-chatbotの回答
筆者コメント:分かりやすくまとめられています。
② Gemini 1.5 Proの回答
筆者コメント:こちらもよくまとまっています。「大気の屈折」は、屈折を起こすのは太陽光なので、「大気による屈折」の方がよいでしょう。
(3) 電気自動車の普及が頭打ちになっている理由
① gpt2-chatbotの回答
筆者コメント:とても詳しく解説できています。電気自動車の将来の普及については楽観的なようです。
② Gemini 1.5 Proの回答
筆者のコメント:こちらも、とても詳しい解説です。Geminiの方が電気自動車の将来の普及について少しネガティブな論調です。
(4) Appleのプロモーションビデオの炎上について
以下の記事について尋ねてみました。
① gpt2-chatbotの回答
筆者のコメント:多面的な視点でよく分析できています。
② Gemini 1.5 Proの回答
筆者のコメント:こちらもよく分析できており、今回の炎上の教訓まで提示しています。
6.ビジネスでの利用
(1) 謝罪のメール
① gpt2-chatbotの回答
筆者コメント:代替製品の提案など、具体的な状況をよく想定できています。
② Gemini 1.5 Proの回答
筆者コメント:具体的な状況があまり想定できていないようです。
7.文学の理解や表現力
(1) 夏目漱石の「こころ」の解説
① gpt2-chatbotの回答
筆者コメント:とても詳しい分析と解説ができています。
② Gemini 1.5 Proの回答
筆者のコメント:内容も詳しく、よくまとまっています。
(2) 村上春樹風の「走れメロス」
① gpt2-chatbotの回答
筆者コメント:確かに村上春樹らしさはあるが、取ってつけたような不自然さを感じます。
② Gemini 1.5 Proの回答
筆者コメント:ところどころ村上春樹らしい言い回しも見られますが、全体として、あまり村上春樹らしさは感じられませんでした。
(3) ホラー小説の冒頭部分
① gpt2-chatbotの回答
筆者のコメント:ホラー小説の始まりらしい恐怖が段々とエスカレートしていく感じがよく出ています。
② Gemini 1.5 Proの回答
筆者のコメント:こちらもホラー小説の冒頭らしい不気味さを描けていますが、gpt2の方がより恐怖が強く感じられる内容になっていました。
(4) 恋愛ショートストーリー
① gpt2-chatbotの回答
筆者コメント:きちんと恋に落ちる瞬間を描けていますが、あまり面白味はないですね。
② Gemini 1.5 Proの回答
筆者のコメント:こちらもありがちなストーリーで、あまり面白味はないですね。
(5) SFショートストーリー
① gpt2-chatbotの回答
筆者コメント:ストーリーも練られていて、短編としては、よく書けていると思います。
② Gemini 1.5 Proの回答
筆者コメント:ストーリーは面白いが、短編としても具体性が欠けており、主人公以外の登場人物などについて、もう少し詳しく書き込む必要があると思います。
8.ゆっくり解説
魔理沙と霊夢が指定されたテーマについて分かりやすく解説します。
(1) 生成AIの解説
① gpt2-chatbotの回答
筆者コメント:シンプルなテーマ設定から、長い会話を続けることに成功しています。ただ、内容が少しAIの負の側面に偏っているように感じます。
② Gemini 1.5 Proの回答
筆者コメント:こちらも違和感のない会話を生成できています。内容はgpt2と似ていますね。
(2) 量子脳理論の解説
① gpt2-chatbotの回答
筆者コメント:難しい内容を易しい言葉で上手く解説しています。
② Gemini 1.5 Proの回答
筆者コメント:こちらも難しい内容を易しい言葉で上手く説明しています。gpt2の方が内容が詳しいですが、こちらの方が内容を「重ね合わせ」と「微小管」だけに絞っていて、分かりやすいかもしれませんね。
9.キャラクター設定
(1) 悟空の自己紹介
① gpt2-chatbotの回答
筆者コメント:悟空の口調もドラゴンボールのストーリーもよく理解しています。
② Gemini 1.5 Proの回答
筆者コメント:悟空の口調をしっかり真似できていて、内容も問題ありません。
10.まとめ
gpt2-chatbotもGemini 1.5 Proも全体的に回答がハイレベルで間違いが少なく、おバカな答えも多かった従来のモデルと異なり、どちらが優れているのかを評価することは難しいです。優劣よりも、どちらの回答が好ましいかという好みの問題になりそうです。
全体的な印象としては、gpt2の方が少し賢くて、冷静に指示通りの回答を返そうとしており、Geminiは、口調が柔らかくて、より人間的な回答を返そうとしているように感じられます。
今回、GPT-4 Turboとの比較はしなかったのですが、gpt2の方が明らかに優れているとまでは言えず、概ね同じレベルだと言えると思います。ただ、gpt2の方が長く詳しい回答を返す傾向があるように思います。(これは性能というより、パラメーターの調整の問題です。)
いずれにせよ、gpt2-chatbotが現時点で世界最高レベルのトップクラスの性能を持っていることは間違いないようです。GPTシリーズと関係があることは確かなようですが、どのような経緯でこのモデルが出てきたのかが気になります。
※5月13日のOpenAIの発表で、gpt2-chatbotの正体がGPT-4o(オムニ)であることが判明しました。