Qスター流出: 内部情報源がOpenAIプロジェクト『ストロベリー』(GPT-5?)を明かす

2024年7月17日 07:24

Qスターを覚えていない方のために説明すると、QスターはOpenAI内部の秘密プロジェクトで、本質的に人工知能の論理的推論や計画立案を行う新しい方法です。これまでオープンエーアイからは少しずつ情報が漏れ出ていただけでしたが、今回はストロベリーというコードネームのプロジェクトについて、さらなる情報が得られました。今日はそれについて取り上げていきます。
さらに、OpenAIは実際にAGI（汎用人工知能）に到達したかどうかを判断する方法や、その前の段階についての基準を示しています。今日はアンナ・トンとケイティー・ポールによるロイターの記事「OpenAI、コードネーム『ストロベリー』の下で新しい推論技術に取り組む」を取り上げます。
ストロベリーはQスターの新しいコードネームです。ChatGPTの開発元であるOpenAIは、人工知能モデルに対する新しいアプローチに取り組んでいるとのことです。これは、情報に詳しい人物と、ロイターが確認した内部文書によるものです。ロイターはその文書の正確な日付を確認できませんでしたが、OpenAIがストロベリーを使って研究を行う意図が詳細に記されています。
これは、Qスターに関する一連の流れの延長線上にあります。繰り返しますが、Qスターは論理的推論、そして何よりも計画立案に関するものです。これは現在の大規模言語モデルが得意としないことです。エージェントフレームワークの助けなしに、実際に先を見越して計画を立てることができません。
ここでは、ストロベリーモデルは、単に質問に答えを生成するだけでなく、インターネットを自律的に操作し、OpenAIが「深い研究」と呼ぶものを確実に実行できるよう、十分に先を見越して計画を立てることを目指していると述べられています。
最近、サム・アルトマンが数ヶ月前に言ったことについて、よく考えています。深い研究については2つの方法があると思います。トレーニング後とトレーニング前です。サム・アルトマンは、モデルのトレーニングに利用できるデータの総量はそれほど急速には増加していないと述べました。そのため、本当に2つの選択肢があります。
1つは、他のモデルに合成データを作成させ、それを使って新しいモデルをトレーニングすることです。しかし、すべてが派生データになるため、このアプローチがどれほどうまくいくかはわかりません。

もう1つの選択肢は、既存のデータでモデルにもっと多くのことをさせることです。これは実際にはどういうことでしょうか。モデルがトレーニングされる際、一連のデータでトレーニングされますが、このように事前トレーニングされたモデルは基本的にデータを1回見るだけです。これは人間の脳の働き方ではありません。十分に複雑なことを学ぼうとするとき、あなたはそれについて読み、考える時間を取り、自分の知識を構築しながら他の情報源を参照します。そして、ある主題について深く学ぶには週や月、時には何年もかかります。これは現在の大規模言語モデルが行っていないことです。

しかし、もしそれができたらどうでしょうか。同じデータセットを何度も異なる方法で考え、潜在的に最良の知識セットを生み出すことができたらどうでしょうか。そして、トレーニング後も同様です。モデルにプロンプトを与えると、プロンプトに対する答えを出しますが、実際にそれについて考えることはありません。思いつく最初の答えを出すだけです。

しかし、考える時間があり、実際に反復できるとしたらどうでしょうか。今日、私たちは思考の連鎖や、ある意味ではエージェントの混合など、さまざまなプロンプト技術を通じてそれを実現していますが、大規模言語モデル自体にはそれができません。そして、それがQスター、そして現在ストロベリーと呼ばれているものが目指していることのようです。

ここでOpenAIは実際にこの記事にコメントしています。OpenAIの広報担当者は声明で次のように述べています。「私たちは、AIモデルが私たちのように世界を見て理解できるようになることを望んでいます。新しいAI能力への継続的な研究は業界の慣行であり、これらのシステムが時間とともに推論力を向上させるという共通の信念があります。」
実際、Qスターが何であるかについていくつかの情報を聞いたことがあります。それには計画立案から深い研究まで含まれますが、特に数学が得意であることも含まれます。
続けて読んでみましょう。この問題について説明を受けた別の情報源によると、OpenAIは内部で、数学データセット（チャンピオンシップレベルの数学問題のベンチマーク）で90%以上のスコアを記録したAIをテストしたとのことですが、これがストロベリープロジェクトかどうかは判断できなかったそうです。
まだ少しずつ情報が漏れ出ているだけですが、それでも興味深いですね。火曜日の社内会議で、OpenAIは新しい人間のような推論スキルを持つと主張する研究プロジェクトのデモを行ったとブルームバーグは報じています。この記事は、OpenAIがAGIのタイムラインのどこにいるかを基本的に測定する計画に関する情報の公開にも関連しています。そのことについてはすぐに説明します。
ここに非常に重要な段落があります。現在のモデルの仕組みについて非常に的確に述べているからです。大規模言語モデルはすでに、人間よりもはるかに速く密度の高いテキストを要約し、優雅な文章を作成することができます。しかし、この技術は、論理的誤謬を認識したり、三目並べをしたりするなど、人間には直感的に解決策が思い浮かぶような常識的な問題では、しばしば不十分です。
これらのモデルがこれらの論理的推論の問題でかなり改善されているのを見てきました。私の動画をご覧になった方はご存知だと思いますが、私はこれらのモデルに一連の論理的推論テストを行っています。そして過去6ヶ月間、特にここ4ヶ月間で、これらの問題を解決する大規模言語モデルの能力に大きな進歩が見られました。
しかし、まだ一貫して正解を出すには至っていません。ロイターがインタビューしたAI研究者たちは一般的に、AIの文脈における推論には、AIが先を見越して計画を立て、物理的世界がどのように機能するかを反映し、チャレンジングな多段階の問題を確実に解決できるようにするモデルの形成が含まれると考えています。
ここでいくつかのポイントがあります。

先を見越して計画を立てるAI、これは今日のLLM（大規模言語モデル）の仕組みではありません。これを行うようにプロンプトを与える必要がありますが、それでも限界があります。しかし、記憶を与え、エージェントフレームワークでラップすれば、特に複数のモデルを組み合わせたときに、計画を立てる能力を実現し始めることができます。

次に、物理的世界がどのように機能するかを反映することです。ヤン・ルカンは、大規模言語モデルが世界モデル、世界シミュレーターであることについて多く語っています。そして、トランスフォーマーアーキテクチャだけではそれを達成するには不十分だと考えています。他の人々は、スケーリング法則と今日我々が持っているのと同じトランスフォーマーモデルを使用するだけで、世界シミュレーションを行うのに十分だと考えていると彼は言います。
彼は、大規模言語モデルが今日、実際に物理的世界をシミュレートできない例をいくつか挙げています。なぜなら、彼は基本的に、言語だけでは世界をモデル化するには不十分だと言っているからです。彼が挙げる例の1つは、北極から出発して、ある方向に200m歩き、左に曲がって200m歩いたとき、最初の地点を横切ることがあるかどうかを尋ねるというものです。

頭の中でそれを考えるとき、実際には言語を全く使用していません。頭の中で空間的推論と世界モデリングを使用しているのです。これは人間にとっては超簡単ですが、大規模言語モデルにとっては実際にかなり難しい問題です。それが彼のポイントです。

次に、この新しいストロベリーモデルが、チャレンジングな多段階の問題を確実に解決できるようにしたいと言っています。これも、多段階の計画立案、多段階の問題は、LLMが一般的に苦手とするものです。
AIモデルの推論能力を向上させることは、モデルが大きな科学的発見を行ったり、新しいソフトウェアアプリケーションを計画し構築したりする能力を解き放つ鍵だと考えられています。
そして、もしAIからこの大幅に強化された計画立案と推論能力を得られれば、我々は実際にAGIの地点に到達しているかもしれません。レオポルド・アッシェンブレンナーの状況認識に関する論文についての私の動画をご覧になった方は、AGIがスーパーインテリジェンスの一歩手前であることをご存知でしょう。そして、これはおそらくAGIに到達するための要素の1つです。
ここにサム・アルトマンが今年初めに言った引用があります。

「最も重要な進歩の分野は推論能力の周辺になるでしょう」

そして、ここで実際に現代AIの先駆者の一人であるヤン・ルカンについて言及しています。メタで働いているヤン・ルカンは、LLMは人間のような推論能力を持っていないとよく言っています。これは私が先ほど述べたことです。
OpenAIはSora、GPT-4、OS、音声など、多くの新技術をちらつかせてきましたが、リリースを遅らせたり、確固たる日付を示さなかったりしています。実際、GPT-4の高速版にすぎないGPT-4oが、OpenAIから最近リリースされた唯一の革新的なものです。
そのため、OpenAIからの大きなリリースが待たれており、それは楽しみですが、まだ実現していません。記事では、最近数ヶ月間、同社は開発者や他の外部関係者に対し、はるかに高度な推論能力を持つ技術のリリースが間近であることを私的に示唆していると述べています。これは、同社のプレゼンテーションを聞いた4人の人々によるものです。
ストロベリーについてもう少し詳しく見てみましょう。これには、ポストトレーニングとして知られる特殊な方法が含まれています。OpenAIの生成AIモデルは、すでに大量の一般化されたデータでトレーニングされた後、特定の方法でパフォーマンスを磨くために、ベースモデルを適応させているとのことです。
これは興味深いですね。なぜなら、新しいモデルをゼロから訓練する必要があれば、OpenAIにとって非常に大きな金銭的・時間的投資が必要になるからです。この技術が既存のモデルを取り、それにポストトレーニングを行うことができるのであれば、リリースまでの時間を大幅に短縮し、トレーニングコストを大幅に削減できます。
ストロベリーには、2022年にスタンフォードで開発された自己教示推論者（Self-Taught Reasoner）または STaRと呼ばれる方法との類似点があります。これについては以前の動画で取り上げました。STaRは、AIモデルが反復的に自身のトレーニングデータを作成することで、より高い知能レベルに自己ブートストラップすることを可能にします。理論的には、言語モデルを人間レベルの知能を超えるレベルに引き上げるために使用できます。
ストロベリーについてもう少し説明します。ストロベリーは、文書によると「長期的なタスク」を実行することを目指しています。これは、モデルが先を見越して計画を立て、長期間にわたって一連の行動を実行する必要がある複雑なタスクを指します。
これはサム・アルトマンが話してきたことであり、トレーニング前とトレーニング後の両方に関係します。

基本的に、モデルが単にあなたのプロンプトを取り、思いつく最初のものをすぐに吐き出すのではなく、実際に数秒、数分、数時間、場合によっては数日かけて考え抜き、可能な限り最良の答えを出して、それをあなたに提供するというものです。これは実際に、モデルに設定できる設定かもしれません。「必要な時間をかけてください」や「10分以内に必要です」などと言えば、与える時間が長いほど、結果が良くなるかもしれません。しかし、現在そのようなことができる既知の技術はありません。もしそれができれば、それは大きな進歩となるでしょう。

マルチエージェントシステムでこれを想像してみてください。いくつかのエージェントがリアルタイムで協力して作業し、長時間考えるエージェントに他の作業をしている間に時間をかけて考えるよう指示し、その長時間考えるエージェントが戻ってきて他のエージェントに見つけたことを報告し、それらをすべてまとめてあなたに成果物を届けるというようなことができるかもしれません。
OpenAIは特に、これらの能力を使用して、コンピューターを使用するエージェントであるKuaの支援を受けて、自律的にウェブをブラウジングすることで研究を行うことを望んでいます。Kuaは自身の発見に基づいて行動を起こすことができます。これは文書と情報源の1つによるものです。
以上が、アンナ・トンとケイティー・ポールによる素晴らしい報道でした。この素晴らしい記事をまとめていただき、ありがとうございます。
最後にもう1つ紹介したいものがあります。これはThe Vergeの記事で、OpenAIがどのようにAIモデルの強さを判断するかについてのものです。驚くことに、現在のChatGPTのイテレーションは5段階のうちの1段階目にすぎないと聞いて、少し驚くかもしれません。
彼らは現在のバージョンのChatGPTが本当にダムだと考えているのです。これは実際にサム・アルトマンが過去に言ったことそのものです。彼は現在のバージョンのChatGPTは本当に悪いと言っており、実際、これが最悪の状態だと言っています。
過去1年間でChatGPTとそのパフォーマンスのイテレーションを見てきて、それがいかに印象的であったかにもかかわらず、我々はまだほんの始まりにすぎないのです。
OpenAIは、大規模言語モデルが汎用人工知能（AGI）に向けて進歩している状況を追跡するための内部スケールを作成しました。今日のChatGPTはレベル1で、オープンエーアイはレベル2に近づいていると主張しています。
レベル2は、PhDレベルの人間と同等の基本的な問題を解決できるシステムと定義されています。レベル3は、ユーザーに代わって行動を起こすことができるAIエージェントを指します。

私の意見では、このレベル3は人類を変えることになるでしょう。あなたに代わって働き、単に世界の知識に関する質問に答えるだけでなく、実際に有用なタスクを24時間年中無休で遂行するエージェントを持つことができれば、それは人類にとって大きな生産性の向上となります。

アップルがApple Intelligenceの発表をしたとき、それはちょうどその表面を掻いただけでした。つまり、Siriにあなたの電話でいろいろなことをしてもらえるようになるということです。これは非常に興味深く、このアーキテクチャがどのようなものである必要があるかについて多くの考えがあります。
しかし、確実に私の意見では、ローカルである必要があります。なぜなら、AIエージェントが実際に私に代わって物事を成し遂げるためには、私のすべてのプライベート情報にアクセスできる必要があり、そのため、それが私の電話から外に出ることを望まないからです。確実にOpenAIに送りたくありません。そのため、これらすべてを電話やエッジデバイス上でローカルに行う必要があります。
ここで重要なことがあります。私はこれについての動画を作成中ですが、実際に、非常に狭く定義された、非常に垂直的なモデルが未来にあると強く信じています。これらのモデルは小さく、超効率的で、低コストで、エッジデバイスで実行できるものです。しかし、それについては次の動画で詳しく説明します。
次に、レベル4は新しいイノベーションを生み出すことができるAIを含みます。基本的に、科学的発見や数学的発見など、さらに多くのことができるようになります。レオポルド・アッシェンブレンナーの状況認識に関する論文のチャートを覚えていれば、これがAGIに到達したときです。なぜなら、その時点でAGIに到達し、AGIが自分自身について研究し、自己改善できるようになると、スーパーインテリジェンスの爆発が起こるからです。
そして、レベル5、AGIを達成する最後のステップは、人々の組織全体の仕事を実行できるAIです。
このランキングは、自動運転車のランク付けの方法に非常に似ています。レベル0、レベル1、レベル2、そしてそれ以降と続き、レベル5では基本的に注意を払う必要さえなく、車が自動的にあなたを運転してくれるというものです。
以上です。Qスターについてどう思いますか？ストロベリーはQスターの次のイテレーションだと思いますか？それはすぐに来ると思いますか？それはGPT-5なのでしょうか？コメント欄で教えてください。
この動画を楽しんでいただけたら、ぜひ「いいね」を押して購読してください。次の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？