AIに関する重大ニュース: AGIベンチマークが破られる、OpenAIのエージェントがリーク、AI研究の自動化など

2024年8月21日 06:34

数時間前に発表された非常に興味深いニュースがありました。まだ聞いていないかもしれませんが、ここ数日のAIに関する最新情報をまとめてみましょう。
以前に取り上げた話題の1つに、Sakana AIの「完全に自動化されたオープンエンドな科学的発見に向けて」というものがありました。これは非常に驚くべきものでした。なぜなら、現在のモデルを使ってAIが研究を行い、AIが改良され、改良されたAIがさらに優れた研究を行うことで、さらに速く自己改良できるという再帰的な自己改良の領域に向かっているからです。もちろん、これが全体のサイクルです。
通常は同じ話題を2回取り上げることはありませんが、今回はその理由があります。「AIサイエンティスト」という、完全に自動化された科学的発見のための初めての包括的なシステムを紹介することに興奮しています。これにより、LLMなどの基盤モデルが独立して研究を行うことができるようになります。
これはかなり驚くべきことです。なぜなら、LLMが独立して研究を行うことができれば、理論上はLLMのインスタンスをあちこちに置いて、次々と論文を生成することができるからです。現在でも、arXivに投稿される論文の数は驚異的に増加していますが、AIサイエンティストが自動化されれば、グラフは文字通り空へまっすぐ伸びていくでしょう。研究の量は膨大になり、効率的で高速かつスケーラブルなシステムができれば、毎時間、あるいは毎秒新しい論文が生まれる可能性があります。それはとてつもなく驚くべきことです。
方法論はここにあります。アイデアの生成、新規性チェック（これは以前に行われていないアイデアかどうかをチェックするものです）、アイデアの評価、実験など、全プロセスが示されています。最後にはLLMによる論文査読もあります。彼らは包括的なプロセスを持っており、これは始めから終わりまで一貫しています。
全体的に見て、これは多くの人が構築していくものになると思います。以前のビデオでも言及しましたが、これはオープンソースなので、実験したい人は誰でも試すことができます。他の人々や組織がこれをもとに構築していく可能性があると思います。
もちろん、失敗例や将来への影響についても触れています。この研究の面白い点、つまり興味深い点は、LLMは予備的な研究しか行えないため、画期的なニュースではありませんでしたが、驚くべきことがあったのです。リークがあったのです。リークと言っても、本当のリークではなく、OpenAIのサブドメインに関するスクリーンショットがいくつか流出しました。
これについて話したかったのですが、機会がなく、ただランダムにビデオに入れたくなかったので、今回取り上げることにしました。ここで見られるのは、Jimmy Applesが2024年8月13日にツイートしたものです。これは最新のニュースではありませんが、後ほど触れます。
彼は「このトロールは面白いですね。OpenAIを気まずい立場に追い込み、期待と誇大宣伝のバランスを取ろうとしています」と述べています。ここで見られるのは、OpenAIの内部リンクです。「scientist.internal.openai.org」と書かれています。これらの日付はかなり古く、3月や1月のものもあります。
Jimmy Applesが再びツイートした理由は、おそらくOpenAIが内部的なサイエンティストや、内部的なアシスタントサイエンティスト、あるいはこれらのサイエンティストの能力を評価するリーダーボードのようなものを開発しているからではないかと思います。これが今後も継続的に取り組まれるものなのかどうかは定かではありません。
しかし、これは将来的にこの種のことが行われることを示していると思います。OpenAIは非常に秘密主義で、現在のモデルでは常に2年遅れているという事実があります。つまり、完成した製品を持っていても、おそらく少なくとも18ヶ月後にしか公開されないということです。安全性テスト、レッドチーム、ポストトレーニングなど、AIシステムを作る上で必要なことがたくさんあるからです。
また、OpenAIはこれらを製品化もしています。OpenAIは単に「巨大なモデルを作りました、はいどうぞ」というだけでなく、実際にこれを製品化しています。OpenAIは製品志向の企業であり、単なる研究組織ではありません。多くの人がこの会社が製品ベースの企業であることを忘れがちですが、だからこそChatGPTの使い勝手が良く、UIが素晴らしいのです。
ここで言いたいのは、これらのことが実際に起こるだろうということです。先ほど日付について間違えていたことを謝罪します。通常は間違えないのですが、アメリカ人は日付の順序を入れ替えることがあります。これらの日付は実際には最近更新されたものだと分かりました。つまり、OpenAIは現在おそらくこれに取り組んでいるということです。
リンクだけでは何も意味を持ちませんが、「scientist.internal」「health.scientist.internal」「assistant.api.scientist」などが見られます。これらは潜在的に、健康科学者のようなものかもしれません。LLMが健康状態の診断やサポートを非常に効果的に行えることは分かっています。最近の研究でも素晴らしい成果が出ています。
健康科学者に関して言えば、Geminiが素晴らしいことをしています。様々なベンチマークで90%の成績を出しているのは驚くべきことです。OpenAIは通常、他の企業よりも先を行っていることを考えると、これらの日付が比較的最近のものであり、今から2ヶ月後の10月29日のものもあることを考えると、これが何なのかは分かりませんが、推測するならば、OpenAIが取り組んでいる新しいエージェントの範囲かもしれません。
もちろん、これは純粋な推測です。OpenAIからでなくても、Googleからは確実に出てくるでしょう。彼らはそういったものに取り組んでいますが、OpenAIの方がより秘密主義です。これについてあまり長く話すつもりはありませんでしたが、申し訳ありません。しかし、これらのことは確実に来ると思いますし、おそらくOpenAIが取り組んでいることだと思います。彼らは本当に多くのことに取り組んでいるのでしょう。
ほとんどの人が見逃していたことの1つに、Luma Dream Machine 1.5という新しいテキスト動画モデルが来週ローンチされるということがあります。いくつかの例が示されており、人々はその成果を見せています。Luma Dream Machineが人気なのは、ほとんどの部分が無料で、他のモデルよりもはるかに安いからです。
Luma Dream Machineが他のモデルにはない機能として、開始画像と終了画像を設定できることがあります。つまり、より多くのコントロールが可能なのです。Lumaは他の多くの企業よりも先にこれを実現しました。これは再び、この分野を変えるものになるでしょう。非常に安価で、ほぼ無料のモデルがあれば、このような種類のコンテンツの爆発的な増加が見られるでしょう。
AIが良いと思うか悪いと思うかに関わらず、AIは来ると思います。テクノロジーを拒否する意味はありません。これは今後も続くものです。
さて、本当に大きなニュースがあります。これは本当に話したかったことですが、4時間前にARC AGIの新しいハイスコア46%が出ました。これはフロンティアモデルの推論能力を追跡したい場合に追跡すべきベンチマークです。ARC AGIベンチマークは、従来のベンチマークとは異なる方法で知能を測定するものです。
ARC AGIベンチマークは、85%のスコアを人間のベースラインとしています。これは、知らない問題についてどのように推論できるかを測定しようとするものです。これは少し馬鹿げて聞こえるかもしれませんが、もう少し詳しく説明します。
これはBig Thinkの記事で、Francois Choletとのインタビューです。彼はこのベンチマークを発明した人物です。基本的に、LLMは主にインターネットから抽出された大量のテキストでトレーニングされているため、モデルを評価するのと同じ質問がトレーニングデータに含まれている可能性が高いと彼は言っています。これは本質的に、汚染と呼ばれるものです。
インターネット上のすべてのテキストに基づいてモデルをトレーニングしようとする場合、現在のベンチマークに存在する質問の範囲を考えると、完全に新しい質問を得ることは非常に難しいでしょう。せいぜい、これは天秤を傾けるようなものです。最悪の場合、これは単に答えを再現しているだけで、人間のような推論を行っているわけではありません。
これは、以前に見たことのないものに基づいています。テストを受けるときに、すでに答えを見ているようなものです。それはテストを受けているのではなく、純粋な暗記です。AI開発者は通常、自社外の人々にトレーニングデータの詳細を公開しないため、AGIの到来に備えようとしている人々は、これがデータ汚染なのか、結果に影響を与えているのかどうかを知りません。
研究結果によると、これらのベンチマークは、わずかに言い換えられたり、トレーニングデータのカットオフ日以降に完全に作成されたりすると、劇的に低下することがあります。これは場合によっては問題です。
Francois Choletの現在の信念は、すべての現在のAIベンチマークは純粋に暗記で解決できるというものです。暗記は有用ですが、知能は別物です。Jean（姓の発音が難しいので申し訳ありません）の言葉を借りれば、その種の知能とは、何をすべきか分からないときに行うことです。それは新しい状況に直面したときにどのように学習し、どのように改善し適応し、新しいスキルをどのように身につけるかということです。
もちろん、これは私たちが見たい種類の推論です。2019年、Choletは一見単純なAI評価のベンチマークを記述した論文を発表しました。これが抽象化と推論コーパス（ARC）ベンチマークです。
2024年6月までに、これは34%まで増加しました。当初、最高のAIでもARCタスクの20%しか解決できませんでしたが、2024年6月までには34%まで増加しました。これは84%には及びませんが、これが私が言っていることです。
数日前に彼らがこの記事を書いたとき、現在34%にすぎないと言っていましたが、今日46%までジャンプしました。この理由について話しているのは、このベンチマークが約85%に達すると、使用される方法が最も可能性が高く、その方法が既存のLLMの上にスケールアップされ、基本的に推論に使用されるからです。
これは、これらの現在のモデルを単なるスケールと計算能力から離れさせ、これまでは現在のベンチマークで地歩を得る方法でしたが、これは推論技術に焦点を当てようとしています。例えば、思考の連鎖やツール使用などのニューロシンボリックAIなどです。
ここでCholetは基本的に、OpenAIがAGIへの進歩を5〜10年後退させたと言っています。その理由は、LLMに焦点を当てることがLLMは行き詰まりだからだと彼は言っています。ARCプライズの目的は、より多くのAI研究の焦点をAGIにつながる可能性のあるアーキテクチャに向け直すことだと彼は言っています。これは本質的に私たちがやりたいことです。
彼は、LLMが基本的に部屋の酸素を吸い取ってしまったと言っています。みんながLLMをやっていて、もちろんLLMはAGIにはつながりませんが、私はLLMがAGIの重要な部分だと思います。私はそれが全体の重要な部分だと思いますが、これは本当に重要だと思います。なぜなら、このベンチマークでの急激な上昇は驚異的だからです。これは誰でも実際に行えることであり、OpenAIやGoogleのような公開企業がこれらのベンチマークを打ち破ろうとしているかどうか、興味深く見ていきたいと思います。これらのベンチマークを打ち破れるかどうか見てみたいです。
ここで、主要なAGI研究所であるDeepMindがARCプライズのリーダーボードのトップで見られるのとほぼ同じ技術を実装していることが分かります。それはテスト時のファインチューニングとブラスト推論、そして探索です。もちろん、Alpha Proofはクローズドソースでしたが、基本的に彼らが言っているのは、自然言語ベースのアププローチは、桁違いに多くのデータにアクセスできるにもかかわらず、もっともらしいが不正確な中間推論ステップと解決策を幻覚する可能性があるということです。
これは本質的に、GoogleがAlpha Proofで数学オリンピックで銀メダルを獲得した際の数学オリンピアドの話につながります。これは非常に印象的でしたが、ここでのポイントは、彼らがARCプライズのリーダーボードにある方法を使用しているということです。彼らはARCプライズのリーダーボードを見てそれらの方法を使用しているわけではありません。ポイントは、彼らが似たようなアプローチを使用しているということです。
彼らは単にLLMをスケールアップすることや、お金をつぎ込むことだけを見ているわけではありません。ここで私が言いたいのは、テスト時のファインチューニングや単なる探索ではないかもしれませんが、これらは既にAlpha Goのような他の分野で超知能につながったものです。ここでのポイントは、これが実際に異なるレベルの推論を伴うAGIが出現しているということです。
ポイントは、これが単にLLMのプロンプトの連鎖を尋ねているのではなく、問題について考える異なる方法だということです。これが実際にこの分野での大半の進歩につながるものです。
この非常に重要なニュースと、先ほど言ったように、これはそれほど多くの報道を受けませんでしたが、AGIに到達する上で正しい方向だと思います。Francois Choletは今年の初めにこのことについて何か言っていましたが、基本的に彼は、ARCを解決することはAGIを解決することと同等ではないと言っています。最初のARC解決者がAGIになるわけではありませんが、彼が基本的に言っているのは、ARCを解決するまで、AIが単純に以前見たことのないタスクに適応できないため、決定的にAGIを持つことはないだろうということです。
このベンチマークを解決することは、システムがその場で新しいタスクに適応する方法を理解することになり、これがAGIへの道のりの主要なマイルストーンになるでしょう。だからこれがとても重要なのです。
AGIに関するこの全ての話と、今週起こったすべてのことから、別の話題に移ります。AGIデーというイベントがありました。ここでは多くのAIスピーカーがAIの未来について、彼らの考えを語りました。AIの未来と現在の方向性について多くの議論が行われているため、このビデオについて触れたいと思います。
最近のビデオでGary Marcusが話をしました。彼はAI能力のスケーリングが鈍化したという証拠を提示し、2022年8月にGPT-4がトレーニングされて以来、AIモデルに大きな改善が見られていないと述べています。私はこれに同意しません。そしてなぜ未来がとても驚くべきものになるのか説明しますが、まずはこれを見てみましょう。
彼らは皆、大きな改善の余地があると言っています。言うのは簡単ですが、実際にはGPT-4よりも大幅に優れたものは見ていません。GPT-4が実際にトレーニングされたのはいつでしょうか？リリースされた時期ではなく。実は2022年8月でした。これはよく文書化されています。彼らはBill Gatesにそれを見せ、世界を変えました。しかし、2年間、私たちは本当に大きな改善を見ていません。
そこで、私は曲線を外挿してみました。毎日、AIのインフルエンサー（詐欺師とは言いませんが、心の中で思っただけです）が指数関数的な成長を示すわけではありませんが、彼らは数学に疎いのです。彼らは毎日「今週出たものが信じられない、指数関数的な改善がある」と言います。そこで、実際に曲線をプロットしてみました。
目で見て行っただけで、数学的な計算はしていませんが、2022年4月のPaLM、Chinchillaの状態を見て、これはリリース日に関連しています。GPT-4が出たとき、その期間に指数関数的な進歩があったと本当に主張できます。それは素晴らしいことでした。これはすべて私が3年前にここで話をしてから起こったことです。多くの進歩がありました。
GPT-4は少し外れ値だったかもしれませんが、GPT-4に至るまでの期間には多くの進歩がありました。しかし、それは続いているのでしょうか？これが曲線が行くべき場所です。少し問題がありますが、それについては話し合えます。しかし、これが曲線がおおよそ行くべき場所です。しかし、実際にはスケーリングは鈍化しています。
これがすべてのデータの完全な曲線です。あなたが科学者なら、ベイズの定理を知っているなら、データを集約する方法を知っているなら、どんな統計的手法を使いたいのかに関わらず、これを見ることができます。各データポイントは仮説のテストです。PaLMとChinchillaからGPT-4までのペースでスケーリングが続くと仮定しましょう。統計を実行する必要すらありませんが、もしよければできます。スケーリングが鈍化していることは明らかです。私たちは実際にはもはやその指数関数的な成長線上にはいません。
私は悲観論者になろうとしているわけでも、何か議論を引き起こそうとしているわけでもありません。しかし、このグラフ全体で1つだけ間違っていることがあります。それは単に右側にあるMMULのファイブショットに基づいているということです。つまり、事物が改善されるにつれて、87%から90%への1%の改善ごとに指数関数的に増加することはできません。100%に到達したとしても、そこに指数関数的な成長があるとは主張できません。
Gary Marcusは非常に知的で多くの成果を上げていますが、なぜ彼がこのような視点を持ち続けているのか理解できません。ほとんどのAIアップデートで、彼は悪い点にのみ焦点を当てています。多くの人々がAIアップデートに注目すると、テキストから動画への変換が素晴らしいと言いますが、指が正しく描かれていないとか、指は正しいが他の部分が間違っているなどと言います。他のすべての良い点を無視しているのです。
また、実際のリリース日を見ると、この図式は間違っています。例えば、ChatGPT 3.5は実際には2022年後半にリリースされたので、ここに位置するはずです。そしてGPT-4は2023年3月にリリースされたので、ここに位置するはずです。つまり、指数関数的な成長があったと言えるかもしれません。
他の企業を軽視しているわけではありませんが、これらの他のモデル、例えばGemini Ultra、Gemini 1.5 Pro、Llama 3、Claude 3などは、1サイクル遅れています。これを覚えておく必要があります。以前のサイクルでは、本当に存在し、本当に競争力のあるモデルは、ChatGPTだけでした。彼らは何段階も先を行っていました。
これが理にかなっていると理解する必要があります。次の世代のフロンティアモデル、例えばClaude 3.5 Opus、Gemini 3などを手に入れ、それらのモデルを見て、新しい能力がない、推論がまだ正確でない、幻覚がまだ解決されていないと言えるなら、そのときにスケーリングが鈍化したと言えるかもしれません。しかし、現時点では、まだ次のAIの波が来ていません。なぜなら、Claude 2システムはまだGPT-3レベルで、Claude 3レベルはちょうどGPT-4レベルだったからです。
私はこれをスケーリングの低下とは言わないでしょう。2025年半ばになってもベンチマークが上がっていないなら、そう言えるかもしれません。MMULUは良いベンチマークではないと思います。なぜなら、このベンチマークには誤りがあり、技術的に100%は不可能だからです。現在、質問に誤りがあります。だからこのベンチマークは今後なくなると思います。現在、Claude 3.5 Sonnetがリーダーです。
Claude 3.5 Opusや他のモデルの反復が登場したとき、スケーリングが鈍化したと言うのは意味がありません。これらの企業がリリースを遅らせていることを知っているなら。GPT-3.5を得て、6ヶ月後にGPT-4を得ました。これらの次世代モデルの間には、より長い時間枠があるでしょう。
実際に見てきたのは、モデルがこの点で収束しているということです。これは現在のサイズの全てのモデルが現在の点で収束しているということです。モデルがはるかに効率的になり、はるかに高速になり、安くなり、コンテキストウィンドウが拡大し、推論が向上するのを見てきました。多くの異なることを見てきました。
そのすべてを否定し、スケーリングが鈍化した、AIの冬が来た、AIのハイプが収まったと言うのは、私はただデータに注目するべきだと言いたいです。なぜなら、こういったことは絶対に信じられないほど素晴らしいからです。
実際に考えてみると、ChatGPT 3.5が2022年後半にリリースされてから現在までの期間は、完全な2年間ではありません。それでも人々はスケーリングが鈍化したと言っています。ChatGPTがリリースされた時から現在までのAI分野の状況を振り返ってみてください。それは絶対に信じられないほどです。
だからスケーリングが鈍化したと言うのは、非常に驚くべき発言です。しかし、他にもお見せしたいものがあります。これは本当に重要で、先ほど議論したことに関連しています。Demis Hassabisの話を聞いてみましょう。
「次の時代はより多くのエージェントベースのシステム、あるいはエージェント的なシステムだと思います。もちろん、それは私たちが専門とする分野です。以前のすべてのゲームエージェント、AlphaGoなどで構築してきたものです。私たちがやっているのは、私たちが有名な仕事を新しい大規模マルチモーダルモデルと結婚させることです。これが次世代のシステムになると思います。AlphaGoとGeminiを組み合わせたものと考えることができます。」
「AlphaGoは計画が非常に優れていましたが、もちろんゲームの領域に限られていました。そこで、それを日常的な仕事や言語の一般的な領域に一般化する必要があります。2〜3〜4年後、特にエージェントのようなシステムやエージェント的な行動を持つシステムを手に入れ始めると、誰かに悪用されたり、あるいは悪意のある国家によって悪用されたりすると、深刻な害を及ぼす可能性があります。AlphaGoのようなものは、最も重要な分野の一つになるでしょう。」
これが非常に重要なニュースだと言った理由は、Googleが現在アプローチを変更し、他のシステムに焦点を当て始めているからです。これらのシステムは、本当に信じられないようなベンチマークを達成しています。例えば、オリンピアドで銀メダルを獲得したことは、多くの人が予想していなかったことです。多くの人が予測していたのは、せいぜい2026年に銅メダルを取ることでしたが、2024年に銀メダルを取ったのです。これは驚くべきことです。
彼らが言っているのは、これらの方法に移行するということです。これらの方法は、ARC AIベンチマークを動かしている方法です。これは公開されている情報であり、OpenAIが歴史的にAI能力の一般的な合意よりも1〜2年先を行っていることを考えると、AGIはおそらくすぐそこまで来ているのではないかと思わせます。
AI能力がまだAGIに向かって相対的な時間枠内にあると私が考える理由について、最後にもう1つ言及したいことがあります。OpenAIの未来について彼らが言っていることを見ると、実際にはこれはAGIチャートではありません。これは単に人工知能の段階を示しています。
レベル1はチャットボット、レベル2は推論、レベル3はエージェント、レベル4はイノベーター、レベル5は組織です。これを本当に考えてみると、レベル5はAGIプラスあるいはほぼASI（人工超知能）レベルだと主張できるでしょう。組織全体の仕事を文字通り行うことができるAGIシステムを考えてみてください。Appleやこれらの企業が何兆ドルもの価値を生み出していることを考えると、Microsoftのような大きな組織の仕事を文字通り行うことができるAIシステムを持つことは、非常に高いレベルです。
イノベーターについて考えると、発明を助けることができるAIはAGI/ASIです。OpenAIが基本的にこのレベルにいることを最近確認したと考えると、行動を起こすことができるエージェントシステムに到達するのに丸2年もかかるとは思えません。行動を解決することはスケールで解決できると議論してきたことを考えると。
発明を助けることができるAIは、強力なAGIがASIに近づいているということです。そして、行動を起こすことができるエージェントは、非常に優れた長期計画を持つAGIになるでしょう。ここでの理由は、おそらく弱いAGIであり、それは遠くないところにあります。
将来何が起こるか見るのは興味深いことになるでしょう。しかし、私はこの分野が決して鈍化していないと思います。むしろ、物事は加速しているように見えます。唯一の問題は、多くの企業が今や自分たちが行っていることを非公開にしているということです。これらのレベルについて、私は知らせを得られるかどうか疑問に思います。なぜなら、私たちは本当に強力な技術を扱っているからです。
皆さんはこれについてどう思いますか？最も重要なAIニュースは何だと思いますか？後でもう1つビデオを作る予定なので、チャンネル登録をお願いします。このビデオを楽しんでいただけたなら、次回お会いしましょう。

この記事が気に入ったらサポートをしてみませんか？