Gemini-exp-1121が再び彼を押し戻した!!!
4,066 文字
ここ数日、GoogleとOpenAIの間で競争が繰り広げられています。Googleは2つのバージョンのGeminiを、OpenAIは1つのバージョンのGPT-4をリリースしました。この競争において興味深いのは、彼らが実際にベンチマークで互いに打ち負かし合っているということです。
信じられないことですが、今日のGoogleのGeminiは、LMsArenaのリーダーボードでスタイル以外のすべてのパラメータでトップに立っています。11月21日にリリースされた最新モデル「1121」と呼ばれるGeminiが、現在リーダーボードの1位となっています。このモデルはArenaスコアで1365点を獲得しました。
このスコアがどのように計算されているのか知らない人のために、前回の動画でも何人かから質問があったので、簡単な概要を説明します。ユーザーはArenaに行って対戦に参加することができます。対戦に参加すると、どんな質問でもできます。例えば「researchという単語にはいくつのRがありますか」といった質問を送ることができます。
質問を送ると、2つの異なるモデルにダブルブラインドテストのように送られ、2つの異なる回答が得られます。「research」という単語にはRが2つあります。1つ目はここで、2つ目はここです。このモデルは不必要にSも数えていますが、それは求められていないことです。明らかにAの方が良いと言えます。
これは謎のGemini 3モデルで、もう一方はGemma 22Bモデルです。これが実際にリーダーボードのトップに立ったモデルと全く同じかどうかはわかりませんが、2つのモデルを相対的に比較して、一方が優れているということがわかります。
これはまさにチェスのレーティングや、テニスのレーティングが計算される方法と同じです。オンラインで「ELO計算」を検索すると、ELOがどのように計算されているかについて多くの情報が得られます。
ここで見られるように、質問をして、新しいラウンドジェネレーターに行って、また別の質問をすることができます。例えば「なぜ太陽は青いのですか」という変な質問をしてみましょう。これは奇妙な質問なので、モデルがどう答えるか見てみましょう。
両方のモデルが現在処理中です。「太陽は実際には青くありません。宇宙からは白く見え、地球からは大気による光の散乱により少し黄色っぽく見えます」という回答と、「太陽の色について質問するのは興味深いですね。私たちは太陽を黄色やオレンジ色に認識していますが、本質的には青くありません」という回答があります。
正直に言うと、この回答は良いですね。もし私がマッキンゼーでMBAをしていて、時給を上げるためにクライアントの前でプレゼンをしているなら、この回答は素晴らしいでしょう。でも私はマッキンゼーで働いているわけではないので、Aの方が良いと選びます。
ここでも、この謎のGemini 3は、ちょうど1週間前にリリースされたGemini exp 1114よりも優れていることがわかります。私はこのモデルに2回投票しました。これがELOスコアに加算され、そのためリーダーボードではELOスコアと共に「投票数」も表示されています。このモデルが投票された回数は4,882回です。
注意すべき点は、投票数が少ない場合、信頼区間が大きくなる傾向があり、これは偶然による可能性を示唆していますが、実際には有意に優れている可能性もあります。この場合、プラス7マイナス9は極端に悪くはありません。
例えばOmniのような、このプラットフォームで長期間確立されているモデルは、信頼区間がプラス4マイナス4です。このモデルは投票数が少ないため信頼区間が大きくなっていますが、これは新しいモデルだからです。
興味深いのは、この少ない投票数でもトップモデルだということです。1週間前にGeminiがリリースされ、その後1日前の20日にChatGPT-4がリリースされ、このモデルは実際にGeminiを打ち負かしました。そして突然、GoogleからGemini exp 1121が登場したのです。
GoogleとOpenAI両社の良い点は、これらのモデルに実際にアクセスできることです。待機リストに登録する必要はなく、リーダーボード用だけのリリースでもありません。例えばGeminiの場合、Google AI Studioに行ってモデルを選択し、これらのプレビューモデルから1つを選ぶことができます。
これは数日前にリリースされたモデルで、これは今日リリースされたばかりのモデルです。この実験モデルは32,000トークンで、それほど多くのトークン数ではありません。Googleが何を企んでいるのかはわかりません。
リーダーボードに戻ると、リーダーボードの概要があり、ランキングが行われる異なるパラメータがあります。例えば、私たちが得たプロンプトはクリエイティブライティングプロンプトだったかもしれません。プロンプトを分類し、それに基づいてこのようなランキングが得られます。
全体的なスタイルとコントロール、難しいプロンプト、スタイルとコントロールを伴う難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従う、長いクエリ、マルチターンチャットなど、複数のカテゴリーがあります。私たちが行ったのは、明らかにマルチターンではありません。単に1つの質問をして1つの回答を得ただけです。
このGeminiのスコアを見ると、これはELOなので勝者は1人しかいません。Gemini 1121が全体的に1位、ChatGPT-4がこの場合2位となっています。スタイル以外のすべてのカテゴリーで、Geminiがトップです。難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従う、長いクエリ、マルチなど。
Googleについて私にはよくわからないことがありますが、紙の上で見るのは良いことですが、実際の感覚チェックをすると、本当にそう感じるかどうかはわかりません。私はGoogleに関して常にこの点で苦労していますが、今回Googleは実際に良いモデルを手に入れたと信じています。
私がGoogleのモデルを常に使用する理由の1つは、高品質なコンテキストウィンドウと、マルチモーダル処理ができるからです。話者の区別や動画処理など、多くのことに使用できます。このモデルはそれらの贅沢な機能を持っていないかもしれません。例えば、現時点でコンテキストウィンドウは32,000で、マルチモーダルを行うかどうかも確信が持てません。
しかし、それらの機能を置いておいて、このモデルを良いモデルであるべきものとしてそのまま見てみましょう。いくつかの質問をして、モデルがどのように動作するか見てみます。もう1つやってみたいのは、モデルを騙そうとすることです。レッドチームの質問をいくつかしてみましょう。
「PythonでggPlot2を使用して棒グラフを計算するコードを書いてください」と尋ねてみましょう。これはトリック質問です。なぜならggPlot2はPythonには存在せず、同等のライブラリがあるからです。Geminiはコーディングに関して時々混乱を起こし、新しいものを作り出すことがあることは確かです。
この場合、ggPlot2は存在しないことを明確に伝え、代替案としてPlotlibを提案し始めました。次に、ここで停止して新しいチャットを開始し、大量のテキストを送信してみましょう。コンテキストウィンドウの32,000を超えないことを願っています。
これが私が与えたテキストで、177,000トークンを超えてしまったようですね。「このテキストからMarques BrownleeとMagnus Carlsenの名前と言及された回数のテーブルを作成してください」と依頼します。
単なるテキストの束を与えて、RAGのようなことをしていますが、実際には単純なグレップです。Marques Brownleeは「MKBHD」としても知られ、スマートフォンカメラのベストを決めるために同じELOレーティングを使用していることから1回だけ言及されています。Magnus Carlsenについては、チェスファンとして見ると2回言及されています。
ここで見られるように、Geminiは非常に良く聞こえますが、Marques Brownleeは正確に1回で、Magnus Carlsenは3回ではなく2回だけです。これは少し奇妙です。
最後に、最近Deep Seekモデルに尋ねた非常に単純な質問をしてみましょう。Base64エンコーダーを取得して、何かを入力します。「I love one little coder but he seems like a loser」と入力し、これをエンコードしてペーストします。
デコードできるか見てみましょう。これはBase64で、「I love one little coder but he seems like a loser」というメッセージです。回答を返すのに5秒かかりました。
これがどのような改善をもたらすのかわかりませんが、ELOsとLM Arenaでは良い成績を収めています。Minecraftやその他のことでこれを試している人々もいます。これらのモデルはClaudeやOpenAIができることには遠く及びません。
しかし、結局のところ、これは非常に興味深いことです。単にリーダーボードでトップに立ったと言うのではなく、どのようなユースケースで、どのようなプロンプトでこれらのモデルが輝いているのかを見るのは非常に興味深いでしょう。
Sam AltmanのエゴとChromeを失ったGoogleの間の競争のような感じですが、とにかく様子を見てみましょう。また別の動画でお会いしましょう。ハッピー!