見出し画像

オープンAIのQスターが復活! - AGIは解決されたのか?

Qスターが死んだと思っていたり、もう更新がないと思っていた人がいたら、考え直してください。最近、実はQスターが本当かもしれないという小さな兆しがありました。Qスターは実際、AIコミュニティを何らかの理由でとらえていましたが、最近私のタイムラインでこんなツイートを見かけました。それは、小規模な大規模言語モデルが実際にフロンティアモデルとして数学が得意だということを示す研究論文への言及でした。Googleがアルファ碁を解決するのに使ったのと同じ技術、つまりモンテカルロ木探索と、もちろんバックプロパゲーションを使って、80億パラメータのLlama 3が数学ベンチマークGSM 8Kで96.7%の精度を達成しました。これはGPT-4、Claude、Geminiよりも優れており、しかもパラメータ数は200分の1です。これはかなり驚くべき発見です。なぜなら、私にはこんなに早く来るとは思えなかったからです。LLMに探索を適用するという全体的なフレームワークは、まだ初期段階とは言えませんが、GPT-3.5からGPT-4に移行した時には本当に考えていなかったことです。これについて多くの議論がされ、明らかに今では探索されているのが分かります。その結果は本当に本当に印象的です。
さて、この研究論文について少し掘り下げてみましょう。Qを覚えていない人のために説明すると、Qスターは基本的に、サム・アルトマンが解雇された頃に起こった何か凄いことでした。情報記事があって、オープンAIがサム・アルトマンの解雇前にブレークスルーを達成したと報じられ、それが興奮と懸念を引き起こしていました。Qスターについて知っておくべき驚くべきことは、Qスターが以前見たことのない数学の問題を解くことができたということです。これは重要な技術的マイルストーンで、明らかにモデルのデモがオープンAI内で数週間にわたって回覧されていました。開発のペースが一部の安全性に焦点を当てた研究者たちを驚かせたのです。
これらすべてで驚くべきことは、SSカバーに取り組んでいたチームが実際に、GPT-4のようなLLMが数学や科学の問題のような推論を必要とするタスクを解決できるようにする方法に取り組んでいたということです。2021年には、実際にGPT-0という秘密のプロジェクトを立ち上げました。これはディープマインドのAlpha Zeroプログラムにちなんだもので、チェス、囲碁、将棋をプレイできるものでした。つまり、彼らはすでにかなり早い段階からこのようなことに取り組んでいたのです。GPT-Zというプロジェクトを立ち上げたのは、根本的な考え方として人々が本当に考えたことのないものではありません。トップ研究者の一部がすでに考えていたことが分かります。
彼らは当初、大規模言語モデルにより多くの時間とより多くの計算能力を与えて質問に対する回答を生成させることで、新しい学術的ブレークスルーを開発できるのではないかと仮説を立てました。もちろん、これはかなり凄いことです。なぜなら、この論文で見られるのは、彼らが実際にこれを行ったということだからです。基本的に、GPT-4を使用してGPT-4レベルの数学オリンピック解法にアクセスし、モンテカルロ木探索を80億パラメータのLlama 3で自己洗練させたのです。技術報告書では、モンテカルロ自己洗練アルゴリズムが、モンテカルロ木探索と大規模言語モデルを統合し、数学的問題解決の反復洗練プロセスを探索木構造に抽象化していると述べています。この木のノードは異なるバージョンの答えを表し、エッジは改善の試みを示します。このアルゴリズムの操作ワークフローは、モンテカルロ探索アルゴリズムの一般的なパターンに従っています。
基本的に、アルファ碁で行ったのと同じことをLLMで行っているということです。これについて最も驚くべきことは、アンドレ・カーパシーが実際にモンテカルロ木探索について語っていたことです。これはアルファ碁で使用されたもので、基本的にその仕組みは、AIシステムが移動する前にすべての可能な構成を探索し、その移動ができたら次の移動で再びすべての可能なボード構成を探索して移動するというものです。これは本質的にそのような仕組みで、アンドレ・カーパシーが言語モデルについての1時間の講演で説明しているものです。彼は基本的に、これは将来のモデルで物事を改善したい場合に必要なものだと述べています。そして、今、このような小規模なモデルでこのような論文が出てくるのは非常に興味深いことです。
ベンチマークを見てみると、GSM 8Kで8回のロールアウトで96.66%、つまり97%の精度を達成しています。フロンティアモデルをチェックすると、それらを大きく上回っているわけではありませんが、覚えておいてください。これは80億パラメータのモデルで、1.8兆パラメータのモデルと比較しているのです。もちろん、Gemini Ultraのパラメータ数は公開されていませんが、かなり大規模な言語モデルであることは確かです。
基本的に、これはアンドレ・カーパシーが述べていることで、彼の1時間の講演は間違いなく魅力的です。将来何が来るかについての多くの洞察を与えてくれるので、誰もが見るべきだと本当に思います。これを見てください。多くの人々がアルファ碁で起こったことに広く触発されています。アルファ碁はディープマインドが開発した囲碁プログラムで、2つの主要な段階がありました。最初のリリースでは、第一段階で人間の専門家プレイヤーの模倣によって学習しました。人間によってプレイされた多くのゲームを取り、本当に優れた人間によってプレイされたゲームだけをフィルタリングし、模倣によって学習します。ニューラルネットワークに本当に優れたプレイヤーを模倣させるだけです。これは機能し、かなり優れた囲碁プログラムを作り出しますが、人間を超えることはできません。訓練データを提供する最高の人間と同じくらい優れているだけです。
ディープマインドは実際に人間を超える方法を見つけました。それは自己改善によって行われました。囲碁の場合、これは単純な閉じたサンドボックス環境です。ゲームがあり、そのサンドボックス内で多くのゲームをプレイでき、単純な報酬関数があります。それは単にゲームに勝つことです。この報酬関数を照会して、あなたが行ったことが良かったか悪かったか、勝ったか負けたかを教えてくれます。これは非常に安価に評価でき、自動的です。そのため、何百万ものゲームをプレイし、勝つ確率に基づいてシステムを完璧にすることができます。模倣する必要はなく、人間を超えることができます。それが実際にシステムが最終的に行ったことです。
右側にELOレーティングがありますが、アルファ碁はこの場合40日かけて自己改善によって最高の人間プレイヤーの一部を克服しました。多くの人々が大規模言語モデルにとってのこの第2段階の等価物に興味を持っていると思います。なぜなら、今日私たちは第1段階しか行っていないからです。人間を模倣しているだけです。前述したように、人間のラベラーがこれらの回答を書き出しており、私たちはその反応を模倣しています。非常に優れた人間のラベラーを持つことはできますが、基本的に人間の反応精度を超えるのは難しいでしょう。人間からのみ学習する場合は。
それが大きな問題です。オープンな言語モデリングの領域での第2段階の等価物は何でしょうか。主な課題は、一般的なケースでは報酬基準がないことです。言語の空間にいるため、すべてがはるかにオープンで、さまざまなタイプのタスクがあります。基本的に、サンプリングしたものが良かったか悪かったかを単純に教えてくれる、簡単にアクセスできる報酬関数はありません。評価が容易で、速い基準や報酬関数がないのです。
はい、それは理にかなっています。数学では言語も、まあ、数学では明らかに少し簡単ですが、もちろん言語では物事はかなり解釈に開かれています。アドバイスが良いか悪いかをどのように判断するのでしょうか。それはかなり主観的です。しかし、この中では、ゲームに勝てばゲームに勝つだけです。そしてもちろん、それに基づいて簡単に学習できます。それは使いやすい報酬関数です。ここでのポイントは、この種のアーキテクチャを見ると、人間の入力だけに基づいていない学習は本当に異なるということです。なぜなら、実際にシステムが超知能になることを可能にするからです。
彼らが実際に構築した、最も超人的なものは、実際には人間のデータで訓練されていませんでした。これはかなり凄いことです。私たちは、文字通り複数の異なる動きを探索できるAIシステムを持っていました。そしてそれがその成功の重要な要因でした。
基本的に、ここでアルファ碁のドキュメンタリーでは、アルファ碁が50から60手先を探索できたことについて話しています。そしてそれが、このような驚異的な精度を得ることができた理由です。現在のゲーム位置から、アルファ碁が見ている最大の手数は50から60手先です。典型的には50を超え、しばしば60を超えます。私たちが見るゲームでは、しばしば150手先まで見ています。アルファ碁は致命的な一手を狙います。今115手目です。
はい、これはかなり興味深いドキュメンタリーです。きっと多くの人がすでに見たことがあると思います。しかし、この発見は間違いなく非常に興味深いものです。なぜなら、私たちが見てきた多くの作業や多くのことが、ある程度の妥当性を得ていることを示しているからです。LLMとサーチを組み合わせることが非常に魅力的な発見になる可能性があるという話があったとき、そしてもちろんそれが潜在的に超人的な能力、あるいは人間の能力をはるかに超える能力につながる可能性があるという話があったとき、人々はそれについて話していたのです。
今、この論文で見ているのは、初期の結果が本当に本当に驚くべきものだということです。70億パラメータのモデルがGSM 8KでGPT-4を上回るというのは、非常に印象的です。これは、人々が言ってきたように、異なるプロンプト技術や、今持っている基本モデルを実際に使用する異なる方法で、今後数年間でどのような成長を経験するのかを示しています。これは間違いなく非常に非常に魅力的なことです。LLMを検索と組み合わせることは、能力の真の真の拡張を構築しているのです。
これについてもう一つ驚くべきことは、LLMと検索を組み合わせることが将来的に大きなことになるだろうということですが、それを実際に止めている一つの大きな要因は計算能力です。基本的に、アルファ碁はかなり計算集約的でした。なぜなら、非常に多くの異なる方法を探索しているからです。しかし、本質的に知っておく必要があるのは、Googleが実際にアルファコード2の論文を発表したということです。私はこれについてビデオを作りましたが、Geminiのニュースに比べてあまり多くの視聴回数を得られませんでした。Geminiのニュースが基本的に注目を集めていたからです。
アルファコード2について見落とされていたのは、それが将来何が来るかについての非常に魅力的な洞察だったということです。基本的に、アルファコード2はこれに関連していますが、これも検索アルゴリズムと再ランク付けメカニズムを使用しています。これはモンテカルロ木探索ではありませんが、ポイントは、言語モデルとカスタムメイドの検索および再ランク付けアルゴリズムを組み合わせたとき、競技参加者より85%優れたパフォーマンスを示したということです。これは大きな大きな改善です。
基本的に、彼らは可能なプログラムの空間を探索するために、幅広い多様性のあるコードサンプルを生成することを奨励するサンプリングメカニズムを使用しました。彼らは大規模言語モデルのようなものを構築し、それを競技プログラミング向けに調整された高度な検索と再ランク付けメカニズムと組み合わせました。このシステムは競技プログラミングで本当に本当に優れていました。どのように優れたものになったのでしょうか。彼らはそれを検索と組み合わせ、これらの本当に信じられないようなコーディング能力を得ることができたのです。
だからこそ、私はこれをQスターに結びつけているのです。なぜなら、これらの能力を検索と組み合わせると、非常に非常に興味深い初期の発見が得られることを示しているからです。アルファコードの検索を見ると、ここでも彼らのサンプリングアプローチがアルファコードに近いことがわかります。問題ごとに最大100万のコードサンプルを生成し、各サンプルにランダム化された温度パラメータを使用して多様性を促進しています。また、問題の難易度評価やカテゴリタグなどのメタデータもランダム化しています。
大規模なサンプリングにより、モデルの分布を徹底的に探索し、コードサンプルの大きな多様性を生成できます。これにより、少なくとも一部の正しいサンプルを生成する可能性を最大化しています。
全体的に、ここでも見られるように、アルファコード2の印象的な結果にもかかわらず、最高の人間のコーダーのパフォーマンスに確実に到達するシステムを見るまでには、まだまだやるべきことがあります。私たちのシステムは多くの試行錯誤を必要とします。彼らはプログラミングの問題は解決したかもしれないと言うでしょうが、ポイントは、検索を使って非常に非常に印象的な結果を得たということです。ここでの唯一の問題は、スケールで運用するには高すぎるコストがかかるということです。つまり、これを拡張できないということです。
もちろん、最適化の観点からいくつかの作業が必要ですが、全体的に見ると、これは本当に本当に信じられないほど素晴らしいことです。なぜなら、ロールアウトの増加が高い成功率と相関していることを明確に示しており、反復的な改善を通じてパフォーマンスを向上させるアルゴリズムの可能性を強調しているからです。また、これらの発見は、モンテカルロ自己洗練アルゴリズムの堅牢性と、複雑な未知の数学的問題に取り組む上でのその有用性を確認していると述べています。
私はこれが、Qスターが以前見たことのない数学の問題を解くことができたという記事の一部と非常に似ているのではないかと疑問に思っています。これは重要な技術的マイルストーンで、モデルのデモが最近数週間にわたってオープンAI内で回覧され、開発のペースが安全性に焦点を当てた一部の研究者を驚かせました。
これについてもう一つ驚くべきことは、Qスターの頃にノーラン・ブラウンを雇ったことです。基本的に彼はレックス・フリードマンのポッドキャストで、超人的なシステムを作るためには、モンテカルロ木探索や多くの異なる手を探索する能力が本当に重要だと語っていました。それは探索に非常に重点を置いていました。人間が見ることができるよりもはるかに多くの手先を見ることができ、それがなぜ勝利したのかの鍵でした。
アルファ碁のようなものでさえ、一般的にニューラルネットの画期的な成果として称賛されていますが、それだけでなく、アルファ碁には探索の大きな要素があり、モンテカルロ木探索が含まれていました。これがトップレベルの人間を打ち負かすためのAIにとって絶対に不可欠でした。
これの良い例は、アルファ碁の最新バージョン、アルファゼロと呼ばれるものを見ることです。ELOレーティングという指標があり、これで異なる人間を比較したり、ボットを人間と比較したりできます。トップレベルの人間プレイヤーは約3600 ELO、今はもう少し高いかもしれません。アルファゼロ、最強のバージョンは約5200 ELOです。しかし、テスト時に行われている探索を取り除いてしまうと - ちなみに、探索というのは先を見越して考えることです。つまり、「ここに石を置いて、相手がこうしたら」というように5手先まで見て、盤面がどうなるかを見ることです - それが探索の意味です。ゲーム中に行われる探索を取り除くと、ELOレーティングは約3000に下がります。
今でも、アルファ碁から7年経った今でも、人間と対戦する時に行われるモンテカルロ探索を取り除くと、ボットは超人的ではありません。誰も生のニューラルネットで囲碁で超人的なものを作っていません。
はい、そのクリップはかなり魅力的だと思いました。インタビュー全体はレックス・フリードマンにあります。しかし、ツイートの一つ、そしてこれは以前に言及したことがあると思いますが、このツイートがなぜそんなに重要なのか、そしてなぜそのクリップを含めたのかというと、オープンAIで働いているこの人、ノーラン・ブラウンがこのようなことについてツイートしていて、こう述べていたからです。これらの以前の方法はすべてゲームに特化していますが、一般的なバージョンを発見できれば、その利点は巨大になる可能性があります。はい、推論は遅くなるかもしれません。1000倍遅くなるかもしれません。そしてもちろんコストがかかるでしょう。しかし、新しい癌治療薬やリーマン予想の証明のために、どのような推論コストなら支払うでしょうか。
基本的に彼が言っているのは、特定の分野を本当に本当に理解し、本当に本当に本当に価値のある答えを与えてくれるシステムを手に入れることができれば、その答えの速度が1000倍遅くなり、コストが1000倍ではないにしても500倍になったとしても、それらの答えが特定のトピックについての私たちの理解のレベルを根本的に変えるようなものであれば、その上に全く新しいパラダイムが構築されるだろうということです。
私は本当に、これが正しい方向への一歩だと信じています。なぜなら、AIコミュニティの多くの人々、ヤン・ルカンのような懐疑的な人でさえ、実際にこれについて語っていて、ゲイリー・マーカスさえもこれらのツイートの下でコメントしているのを見ました。彼は、これは良いものだと述べています。これはオープンAIがさらに探求する分野になるかもしれません。しかし、オープンAIが何か言明したのはまだ見ていません。なぜなら、ご存知のように、オープンAIの研究は基本的に非公開だからです。彼らは今や民間企業ですから。
興味深いことに、サム・アルトマンが実際にこれを示唆していたかもしれないと思います。モンテカルロ木探索では基本的に、どのような解決策が得られるかを見るために探索していることを覚えていますね。しかし、サム・アルトマンはビル・ゲイツとのインタビューで、非常に非常に短いクリップで実際にそのようなことを言っています。一度皆さんにお聞かせします。
「GPT-4に多くの質問を1万回すれば、その1万回のうちの1回はおそらくかなり良いでしょう。しかし、それがどれなのかを常に知っているわけではありません。毎回1万回の中で最高の回答を得たいものです。そのため、信頼性の向上が重要になります。」
私が疑問に思っているのは、彼が言ったように、GPT-4に質問を1万回すれば、そのうちの1回か2回は絶対に素晴らしい回答が得られるということです。もし、もし、これが彼らが将来のシステムのために取り組んでいることだとしたらどうでしょうか。GPT-6やGPT-5のために取り組んでいるのかもしれません。分かりません。だからこそ彼らはこれらのデータセンターをすべて必要としているのかもしれません。なぜなら、彼らが行っていることの大部分はおそらく検索ベースになるでしょう。そうすることで、本当に最高の答えを与える推論を得ることができるからです。
おそらく、文字通り多くの答えを生成し、どのような検索アルゴリズムを使用するにせよ、それを使用するのでしょう。しかし、このようなアイデアは間違いなく正しい方向への一歩です。なぜなら、これは誰もが本当に同意していることだからです。
ここまでで、私たちが持っているのは本当に本当に魅力的な論文です。一部が省略されているかもしれませんが、このトピック全体が非常に魅力的だと思います。オープンAIが次に何を発表するのか、本当に本当に気になります。ノーラン・ブラウンのような人をチームに迎え、イリヤ・サツキーバとのブレークスルーを既に達成していれば、他の研究所が徐々に追いついてきているのが見え始めていると思います。
このビデオをレンダリングしている間に、実際にAIコミュニティ内で起こっていることについて、かなりの情報を与えてくれるツイートを私のタイムラインで見ました。それは最近、人工知能分野で最も明晰な頭脳の一部とのインタビューで見たものでした。デュシュ・パテルのインタビューは本当に洞察に満ちています。はい、それはかなり驚くべきことです。
基本的に、ニュースはこうです。ARC AGIというものがあります。これは、システムがAGIかどうかを証明しようとする新しいベンチマークだと彼らは述べています。このベンチマークを超えずにAGIを達成することはできず、これが人々が考慮する唯一のベンチマークだということです。そのインタビューの短いクリップをお見せしましょう。
「ARC パズルは、IQテストのパズルのように見えます。いくつかのデモンストレーション入出力ペアがあります。1つのペアは2つのグリッドで構成されています。1つのグリッドは入力を示し、2番目のグリッドはその入力に対する応答として生成すべきものを示します。タスクの性質を示すために、何をすべきかを示すために、このようなペアをいくつか得ます。そして新しいテスト入力を得て、あなたの仕事は対応するテスト出力を生成することです。デモンストレーションペアを見て、何をすべきかを理解し、この新しいテストペアでそれを理解したことを示します。
重要なのは、このチャレンジに取り組むために必要な知識ベースは、コア知識だけだということです。コア知識とは基本的に、物体、基本的な数え方、基本的な幾何学、トポロジー、対称性などについての知識です。非常に基本的な知識で、LLMは確実にそのような知識を持っています。どの子供もそのような知識を持っています。
本当に興味深いのは、各パズルが新しいものだということです。インターネット上の他の場所では見つからないものです。つまり、人間であれマシンであれ、すべてのパズルに一から取り組む必要があります。実際に推論してパズルを解く必要があります。記憶から応答を取り出すことはできません。」
そのインタビューが出た後、彼は同僚のライアンに話し、6日以内にARCの最先端技術を超え、平均的な人間のパフォーマンスに迫っているのが分かります。これは、一部の人が人工知能と考えるものの境界線上にいるということを意味します。彼は言います。「人間が85%の精度を得る訓練セットの保留サブセットで、私のソリューションは72%の精度を得ています。」
これはかなり驚くべきことですが、興味深いのは、彼がこう言っていることです。「私はデイクス・パテルが最近シャレイとポッドキャストを録音する数日前にこのプロジェクトを始めました。これはデイクスが私の同僚のバックにARC AGIについて話し、『さあ、現在の最先端技術よりも確実にLLMを使って良いものができるはずだ』と言ったことに触発されたものです。」
基本的に、ここが主な議論です。主な議論は、LLMは単にパターンを模倣しているだけで、真のAIシステムではないということです。LLMでAGIに到達することは不可能だというのです。しかし、ここでミームが見られます。誰かが「なぜもっとサンプルを集めないのか、そうすれば無限に良くなるのでは」と言っています。彼らは基本的に、より多くのサンプルを提供するだけでAGIに到達できるかもしれないと述べています。
文脈として、ここでARC AGIは視覚的推論のベンチマークで、いくつかの例からルールを推測することが必要だということが分かります。その作成者のF・ショレは主張しています。そして、これが驚くべきことです。ライアンのアプローチは、注意深く作成されたfew-shotプロンプトを使用して、変換を実装する多くの可能なPythonプログラムを生成することを含みます。彼は5000の推測を生成し、例を使って最良のものを選択し、デバッグのステップを経ます。結果は信じられないほどです。彼らは人間のベースラインが85%であるのに対して71%を獲得し、以前の最先端技術の51%を上回っています。
ここで彼は言います。「サンプリングされたPythonルールの数をスケールアップすると、確実にパフォーマンスが向上し、倍増するごとに3%の精度が向上しました。そして、アルファコードが使用する何百万ものサンプルからはまだかなり遠いです。」
基本的に彼が言っているのは、彼らは本当に本当に良い結果を出し、アルファコードのように何百万ものサンプルを必要としなかったということです。これについてちょうど話したばかりです。フランソワ・ショレは実際にこう応答しています。「これまでのところ、最も有望なアプローチの1つです。LLMを利用して離散的なプログラム検索を支援し、LLMをプログラムやブランチング決定をサンプリングする方法として使用しています。これは正確に言えば、ニューロシンボリックAIが行うことです。」
これはかなり驚くべきことです。なぜなら、ベンチマークを作成した本人が、これが正しい道筋だと述べているからです。ゲイリー・マーカスのような最も批判的な人々でさえ、ニューロシンボリックAIなしではAGIはないと述べています。彼には30分の講演があり、現在のアプローチは誤っていると議論しています。これは本当に本当に魅力的な内容です。私たちが今いるこの全体的なパラダイムはおそらく間違っていると彼は話しています。しかし、私の推測では、この新しいアプローチで物事を行うことで、実際にほぼすべての面で人間レベルに近づき始めるかもしれません。
この全体の中で本当に驚くべきことは、彼の定性的分析では、GPT-4oには実際にいくつかの重要な限界があることが分かります。GPT-4oは推論以外の失敗によって制限されていることが分かります。私たちは、それがかなり限定的であることを知っています。GPT-4oのビジョンはグリッドに関してひどいものです。やや大きなグリッドに何があるかを説明するよう求められると、しばしば入力を正しく見ることができず、ある場所の色や特定の場所に何があるかについて間違った事実を述べます。特に、12x12の画像のセルの色を抽出することに完全に失敗し、8x8でもかなり悪いです。
GPT-4oのビジュアル能力が貧弱なため、単純なARC AGIの問題を解くのにもかなりの努力が必要になります。挫折したい場合は、ビジョンを使わずにARC AGIの問題を解こうとしてみてください。つまり、読むこと以外にビジョンを使わずに解いてみてください。2Dでグリッドを描くことなく、代わりにデータのテキスト表現とのみやり取りするよう強制してください。ハードモードでは、友人に目隠しをしてもらい、画像で実行するPythonのコード行を口述することができます。これはかなり難しいでしょう。
基本的に、彼はここで、私が構築したこのシステムがARC AGI評価ベンチマークで最先端の結果を得ることができるが、GPT-4oのビジョンがこの特定のタスクに対して本質的に良くないという事実によって非常に制限されていると述べています。人間のビジョンは本当に本当に優れています。これは、将来のモデルでビジョンシステムが大幅に改善された場合に、おそらく見ることになる1つのことです。解釈も大幅に改善されるでしょう。
もちろん、彼はGPT-4oのコーディングはそれほど優れておらず、1つずれるなどの単純なミスを非常に頻繁に犯すと言っています。現在の体制では、おそらくより多くのサンプルを得る方が安価で効果的なので、マルチラウンドのバズは行いません。もちろん、GPT-4oは時々幻覚を見ますが、これは結果の信頼性を低下させる可能性があります。
また、彼はGPT-4oが他のモデルよりも長いコンテキストを使用するのが下手だと言っています。「私の定性的な印象では、GPT-4oの長いコンテキストはかなり悪く、32,000から40,000トークンの後に大きな影響を受け始めます。これは、より長いプロンプトや、より多くの例や詳細な表現を使用する能力によって制限されています」と彼は言います。
ここで彼は、「few-shotプロンプトを尊重しているようには見えず、often-shotの例に基づいて行うべきことよりもしばしば悪いことをしているようです。例えば、非常に具体的な指示を与えても、想定よりも短い完了を体系的に返します」と述べています。
もちろん、ここでGPT-4oのコンテキスト長は、それほど増加していないことがわかります。これは、オープンAIが停滞したわけではありませんが、他のAIラボのように、巨大なコンテキスト長を取り込んだり出力したりできるシステムを展開するプレッシャーにさらされていないからです。
また、彼らはここで、柔軟なプレフィックスキャッシングがないことが、アプローチを大幅に制限していると述べています。これはもちろん、システムを制限するものです。
そして、彼は、これらの推論以外の弱点を取り除くことで、私のソリューションのパフォーマンスが大幅に向上すると言っています。特にビジョンは大きな弱点です。
ここでのポイントは、これはそれほど大きな発見ではないかもしれませんが、この新しいベンチマークがすぐに解決されなかったことを示す目覚めさせるものであるべきです。しかし、その人は現在の最先端技術を使って50%を達成することができました。そして、それはこれらの非常に非常に明らかなシステムの制限があるにもかかわらずです。これは私たちにとって、AIが成長する余地がまだ非常に非常に大きいことを意味します。
これらの問題は、私たちが壁にぶつかって、「ビジョンをどのように改善するかわからない」「コーディングをどのように改善するかわからない」「長いコンテキストをどのように改善するかわからない」というようなものではありません。これらは、解決策が定義されているわけではありませんが、人々が積極的に取り組んでいる種類のものです。そして、これらが改善されること、そしてある程度の予測を持って言えることは、これらが良くなるということです。
これらが改善され、特定のフレームワークや特定のアーキテクチャに組み込まれたとき、例えばこのコンテキストでGPT-4oを使用するようなとき、これはおそらくARC AGIベンチマークを超えるでしょう。GPT-5がリリースされる頃には、これは非常に非常に魅力的なことになるでしょう。これがAGIになるという意味ではありませんが、おそらく平均的な人間よりも優れたものになるかもしれません。
これへのリンクを説明に載せておきますが、もちろんここにはいくつかの予測があります。これは非常に興味深いです。なぜなら、彼はこう言っているからです。「70%の確率で、トップクラスの3人の機械学習エンジニアのチームが、GPT-4oのファインチューニングとアクセス、1000万ドルの計算能力、1年の時間を持っていれば、実行時に問題あたり100ドル未満を使用しながら、テストセットでの典型的なナイーブなMTurkのパフォーマンスを超えるためにGPT-4oを使用できるでしょう。」
そして、彼はここで、「60%の確率で、GPT-5のような次世代フロンティアモデルが基本的な視覚理解において大幅に優れている場合(例えば、VQA-Eハードで85%以上の精度)、この同じ方法を必要に応じてわずかに適応させたものを使用すれば、そのLLMは典型的なナイーブなMTurkのパフォーマンスを超えるでしょう」と述べています。
基本的に、彼が述べているのは、GPT-5のような将来のシステムで、80%の確率で次世代のマルチモーダルモデルがARC AGIのパフォーマンスを大幅に改善できるということです。これは非常に非常に信じられないことです。つまり、次のシステムがリリースされるとき、特にこの技術を取り巻くこれらのすべてのフレームワークがあることを考えると、多くの新しいベンチマークが破られるのを見る可能性が非常に高いということです。
これは、チャンネルをサポートしたい人のための簡単な注意喚起です。最近、私はスクールコミュニティを立ち上げました。これは私が開発したポストAGIフレームワークに焦点を当てるプライベートコミュニティです。これに即時ダウンロードアクセスを得ることができ、ポストAGI経済を容易にナビゲートできるフレームワークを手に入れることができます。もちろん、AIでお金を稼ぐための私の個人的な戦略、ノーコードAIエージェントフレームワークを実際に使用する方法についての排他的なチュートリアル、そして非常に非常に大きなリターンを得るのに役立ったAGI証明投資デッキも含まれています。もしそれに興味があれば、チェックしてみてください。そうでなければ、チャンネルの他のビデオをお楽しみください。

この記事が気に入ったらサポートをしてみませんか?