見出し画像

OpenAIの新しい怪物💥 O1が非公開ベンチマークで最高の成績を収める💥

5,163 文字

OpenAI 01はもう、自然の摂理を超えとるんちゃうかな。今まで見たことないようなモデルやで。
せやけど、モデルか、それともエージェントかいう議論には踏み込まへんで。OpenAIがLLMとして出してきたんやから、LLMとして考えたらええんちゃう。
このモデルは、いろんな非公開ベンチマークで他のモデルをボコボコにしとるんや。せやから、いろんな分野のベンチマークを見て、このモデルが他のモデルと比べてどないなんのか、ビデオで見せたいと思うてん。
まず最初に、Live Benchいうベンチマークがあんねん。これは、汚染されてへん、チャレンジングなLLMベンチマークやって。有名な名前もあるで、ヤン・リウンとかな。
このベンチマークの主な考えは、普通のベンチマークやと、データが漏れて汚染されてまうんやけど、毎月新しい質問セットを用意して、LLMが正確な答えを知らんようにするんや。これがLive Benchの基本やな。
Live Benchの結果が出てて、グローバル平均でO1プレビューが一位や。理由づけのベンチマークを見てみ。これがもう頭おかしなるで。O1ミニが77点で、O1プレビューが68点や。三位のClaude 3.5 Sonnetは58点やから、前のベストモデルより19ポイントも上やで。
コーディングに関しては、あんまり差がなくて、Claude 3.5 Sonnetがまだ王者みたいやな。数学では、O1ミニとO1プレビューがまた一位や。データ分析でも、O1プレビューが7ポイント差でトップ。言語も同じくO1プレビューがトップや。
IF平均いう別のテストでは、O1プレビューは全然トップに来えへんねんけど。全体的なグローバル平均を見ると、O1プレビューがClaude 3.5 Sonnetよりかなり上やけど、O1ミニはClaude 3.5 Sonnetと同じくらいやな。
次は、個人の研究者のエイデンMラウのベンチマークや。これは非公開のベンチマークで、どんな質問があるんか全然わからへんねん。
このベンチマークを信用してるんは、この人がOpenAIを持ち上げる理由がないからや。このベンチマークの結果を見ると、O1ミニが645点で、次に良かったのが前のOpenAIのGPT-4で361点や。これは前のベストモデルの2倍以上の点数やで。
このベンチマークでは、温度設定が結果に大きく影響するらしいな。何回も実行せなあかんかったみたいや。それに、O1モデルはめっちゃ遅いらしい。このベンチマーク、始めるのに結構前から準備しとって、モデルの実行に1日くらいかかったみたいやで。
木曜の朝にリリースされてから5分後に実行を始めて、土曜の朝に終わったらしい。ほぼ2日くらいかかっとるんや。モデルがめっちゃ遅いし、レート制限もあるんやけど、ここで見たいんはどのモデルが一番ええかってことやな。
O1ミニは間違いなく化け物や。みんなが言うとる理由の一つが、O1ミニがO1プレビューよりええのは、O1プレビューには何かスロットリングがかかっとるからやと。O1プレビューは、これから出るO1の予告編みたいなもんで、O1ミニが実際のモデルなんや。
改良はあるかもしれんけど、O1ミニが本物のモデルや。O1ミニの方がO1プレビューより実用的なのは、O1ミニには思考の連鎖のスロットリングがないからやと思われとる。
次は、もう一人の人、シールのベンチマークや。シールは多分ディープラーニングの研究者やな。
このケースでは、ChatGPT-1が非公開ベンチマークで80%の点数を取っとる。前のベストはClaude 3.5 Sonnetの30%とGPT-4の20%やった。この差がもうめちゃくちゃ大きくて、信じられへんくらいや。
このベンチマークには、言語芸術に関する問題がたくさんあるんや。みんな「公開してくれへんか」って聞いとるけど、このベンチマークセットには、めっちゃマニアックな知識を問う質問や、珍しい言語の問題、簡単やけど手間のかかる数学の問題、言語芸術や推論の問題がたくさんあるんや。
GPT-4が0点取るような問題がたくさんあるのに、O1は80%も点数取っとるんや。これは、O1が自分の兄弟(上か下かは別として)のGPT-4を完全に打ち負かしとる例やな。GPT-4がClaude 3.5 Sonnetよりずっと優れとると考えても、やっぱりすごいことやで。
次は、Zero EVILっていう別のベンチマークや。Zero EVILには、知識、数学、論理的推論、コーディングなど、いろんな分野があるんや。
知識にはMMLUを使っとって、数学と論理的推論とコーディングもあるんや。平均を見ると、O1ミニが一番高くて78点や。次に高いのがGemini 1.5 Proで65点。GPT-4とGemini 1.5 Proは63から65点くらいの範囲で、Claude 3 Sonnetは62か63点くらいや。
Gemini 1.5 Proの平均が65点で、O1ミニが78点やから、この差はもうめちゃくちゃやで。MMLUに関しては、そんなに大きな差はないかな。ChatGPT-4が一番ええみたいやけど、他のベンチマークではO1ミニが完全に競争相手を打ち負かして、トップに立っとるんや。
次は、一般的なベンチマークじゃなくて、医療データセットで評価したベンチマークがあるんや。Agent Clinic MQAっていうデータセットがあって、O1プレビューを使うとこれがまたすごいんや。
2位はGPT-4で、約50%の精度やけど、1位のO1プレビューは約80%の精度を出しとるんや。50%から80%への jump はもうめちゃくちゃすごいことやで。これはもう信じられへんくらいや。
このモデルっていうか、エージェントっていうか、思考の連鎖っていうか、なんて呼んだらええかわからへんけど、OpenAIはまだモデルって呼びたがっとるみたいやな。前のモデルと比べて30%以上も精度が上がっとるんや。
見ての通り、これはまた別の驚くべき分野で、医療やな。多くの人がモデルを医療に使おうとしとって、病気の診断や医療画像の解釈など、いろんなタスクがあるんや。このモデルはテキストだけのモデルやけど、それでもめっちゃ良い成績を出しとるんや。
次のベンチマークは、ニューヨーク・タイムズのConnectionsっていうゲームやな。このゲーム、初めて聞いたわ。4つのグループを4つ作らなあかんらしいんやけど、どないやってプレイするんかよくわからへん。
著者が共有してくれたサンプルプロンプトがあって、これをせなあかんっていうのと、単語を共有し始めるんや。例を挙げて、今日の単語を共有し始めて、LLMに解いてもらうんや。
L. Mazourさん(名前の発音が合ってるか分からんけど)によると、O1プレビューが87点で、GPT-4が26.5点やって。この人が作ったマルチ・Tアンサンブルモデルが37.8点で、O1ミニ自体が42.2点なんや。
O1ミニは個別のモデルやのに42.2点取っとって、O1プレビューは87点やで。もう87点やで!グラフを見てみ、グラフがもう均等に見えへんくらいや。YouTubeの説明欄にプロンプトを載せとくから、試してみてな。
次は、有名な会社を経営してるリシャブからのデータや。SQLに特化したモデルをたくさんリリースしとって、主にテキストからSQLへの変換とかをやっとるんや。
O1ミニが、自然言語の質問をSQLクエリに変換するタスクで、O1プレビューを上回っとるんや。前のベストは、彼らのカスタムモデルのSQLCoder 8B Proモデルで、90%やった。
O1ミニは、そのままの状態で92%を出しとるんや。これはSQLに特化したモデルやないってことを理解せなあかんで。例えば、前の汎用モデルのGPT-4は87%で、別の汎用モデルのClaude 3.5 Sonnetは86%やった。
O1ミニが92%を出したんや。これは6%ポイントの差やで。30%から40%に上げるのは比較的簡単やけど、すでに86%のところから6%ポイント上げるのは大きな進歩やで。特別な調整なしで、そのままの状態でO1ミニもO1プレビューも、自然言語からSQLへの変換でめっちゃ良い成績を出しとるんや。O1ミニがここでもトップに立っとるみたいやな。
ここまでで、言語理解、推論、医療関連の質問、テキストからSQLへの変換など、いろんなタスクについて、Live Benchを含むたくさんのベンチマークを紹介したと思うで。O1ミニとO1プレビューがめっちゃ良い成績を出しとるみたいやな。
でも、このモデルをいつ使うべきか、どんな問題があるかについて、ちょっと考えてほしいことがあるんや。有名な個人の研究所か会社の Artificial Analysisってとこが、彼らのレポートとインサイトを公開しとるんや。
彼らのインサイトによると、これらのモデルはめっちゃ優秀で、知能のフロンティアをさらに押し広げとるんや。人類がこれまで見た中で最高の大規模言語モデルやけど、それだけやない。
これらのモデルは使うのにめっちゃお金がかかるし、問題を解くのに時間もかかるんや。品質を比較すると、Artificial Analysisの品質指数では、O1プレビューが85点や。前のベストのClaude 3.5 SonnetとGPT-4が77点やったから、77点から全く新しい領域の85点に到達したんや。O1ミニも82点やけど。
でも問題は、このモデルがめっちゃ遅いってことや。例えば、GPT-4は1秒間に94個の出力トークンを生成するけど、O1プレビューは23個しか生成せえへんのや。これはモデルがどれだけ考えるかによって変わるんやけどな。
リシャブも言うてたけど、O1プレビューの主な失敗モードは、簡単な質問でも考えすぎてしまうことがあって, よくミスをしてしまうんや。複雑なケースではめっちゃ優秀やけど、簡単なケースには向いてへんのや。モデルが考えすぎるからな。
価格に関しては、もうめちゃくちゃや。価格が下がることを願ってるけど、これがOpenAIのやり方みたいやな。でも、これは高価なモデルで、多段階のプロセスか思考っていう呼び方をしとるけど、推論時に時間とコンピューティングパワーをめっちゃ使うんや。モデルのコストと価格がめちゃくちゃ高いんや。
もう一つの大きな問題は、多くの人から聞いたんやけど、モデルが一貫性がないってことや。今のところ温度を制御できへんから、モデルが何を出力するかわからへんのや。モデルの出力が高度に一貫性がないってことやな。
これは、モデルが違う結果を生み出す可能性があるってことも意味するんや。みんなが言うてるのは、「他のモデルでも複数回試行するみたいな、思考の連鎖みたいなんができへんのか」ってことやな。
Zero EVILの作者らは、それを試してみたんや。大規模言語モデルにゼロショットで問いかけて、推論のステップと最終的な答えを構造化された形式で出力するように指示したんや。O1がやってることと全く同じやないけど、似たようなことをしようとしたんや。
それでも、O1ミニがこのケースで大成功を収めたんや。Artificial Analysisのレポートを見ても、O1プレビューはかなり上位にあるけど、めっちゃ高価なんや。これは全く別のレベルの話やで、コストの面では。
コストのグラフを見ると、X軸がなかったから新しくグラフを作らなあかんかったくらいや。このモデルを使うとしたら、例えばSaaSみたいな本番環境で使うモデルではあらへんな。でも、フロンティアを押し広げるためには使えるモデルやと思うで。
例えば、数学の問題とか、LLMに解いてほしいニッチで難しい問題があるとしたら、これは人類が使える最高のモデルの一つやと思うわ。
ChatGPT Plusの契約をしとったら、たぶん週に30メッセージくらいの制限があって、そこでこのモデルが使えるんやけどな。
いずれにしても、OpenAIがめっちゃ強いモデルかシステムを作ったみたいやな。モデルかシステムかの議論はまた置いといて、一つ確かなのは、今の時点で強化学習でチューニングした思考の連鎖が100%機能するってことや。
他の誰かがこれを再現して新しいモデルを作るのを待ち切れへんわ。何が起こるか、待って見てみようや。
O1プレビューやO1ミニで、こんな感じのことを感じたことあるか?コメント欄で教えてな。そうでなかったら、チャンネル登録してな。また次の動画で会おな。Happy prompting!

この記事が気に入ったらサポートをしてみませんか?