速報: Q-starの詳細がリーク! ロイターがOpenAIの内部文書を公開 (コードネーム: STRAWBERRY)

2024年7月14日 06:55

OpenAIが再び注目を集めています。ロイターによると、新たなモデルがリークしたそうです。OpenAIは、コードネーム"ストロベリー"という新しい推論技術に取り組んでいるそうです。そして、このストロベリーがQ-starであることが明らかになりました。
Q-starは、昨年11月から12月にかけて、サム・アルトマンの解任時にOpenAIからリークされた情報です。当時は具体的な内容はわかりませんでしたが、AIモデルに何かをさせる大きなアルゴリズムの breakthrough だと言われていました。数学や学習、目標設定とその実行において、AIモデルをより優れたものにするというものでした。具体的な内容は不明でしたが、そのような推測がなされていました。
そういえば、最初にこの情報を公開したのもロイターだったと思います。彼らがOpenAI内部の情報源からスクープを得たのです。今回の記事も、昨年11月と同じように始まっています。情報に詳しい人物とロイターが確認した内部文書によるものだと。サム・アルトマンも当時、このリークが本物であることを認めていました。詳細は明かしませんでしたが、「そのリークは残念だった」と述べています。
このストロベリー、別名Q-starは、人工知能モデルに対する新しいアプローチです。このプロジェクトは、これらのモデルに高度な推論能力を提供する可能性を秘めています。一般に公開されるのがいつになるかはわかりません。進行中のプロジェクトとして描写されており、OpenAI内でも厳重に秘密が守られています。ここにQ-starとの類似点が見られます。
リークされた文書には、ストロベリーモデルを使用するプロジェクトが記述されています。その目的は、OpenAIのAIが単に質問に答えるだけでなく、十分に先を見越して計画を立て、自律的にインターネットを操作し、OpenAIが「ディープサーチ」と呼ぶものを確実に実行できるようにすることです。情報源によると、ストロベリープロジェクトは以前Q-starとして知られていたそうです。そう、ロイターが昨年報じたのは、この全てのQ-starフィアスコの発端となったものでした。
当時の考えでは、イリヤ・スツケバーは自分が見たものに驚いたのではないかということでした。少なくとも、そう推測されていました。しかし、イリヤがOpenAIにいた時に見たものが、AIのブレイクスルーがいかに早く訪れるかについての彼の信念を本当に強めたように見えます。
続けて、2つの情報源が、今年初めにOpenAIのスタッフがQ-starのデモだと説明したものを見たと述べています。それは、現在市販されているモデルでは解決できない難しい科学や数学の質問に答えることができるものでした。
数日前、このチャンネルでブルームバーグが公開した別の記事を取り上げました。彼らが独占スクープを得たのですが、新しい人間のような推論スキルを持つと主張する研究プロジェクトのデモについて言及していました。それがQ-starやストロベリーなのか、それとも別のものなのかはわかりません。しかし、このモデルのトリック、少なくともそのうちの1つは、非常に大規模なデータセットで事前学習された後のAIモデルを処理する特殊な方法を含んでいるようです。
GPT-4を例に取ると、それは完全に訓練されたモデル、あるいはむしろ訓練を完了したモデルです。サム・アルトマンが言及したことや、マーク・ザッカーバーグがドゥイッシュ・パテルとのインタビューで示唆したことに基づくと、彼らは両方とも、事前訓練モデルと最終的な完成モデルの境界線がより曖昧になっているように示唆しているようです。彼らは詳細を提供しませんでしたが、それはほとんど、特定のチェックポイントではなく、より常に進行中のプロセスになっているように見えました。
一部の研究者は、推論が人間レベルまたは超人間レベルの知能をAIが達成するための鍵だと言っています。現在の問題は、大規模言語モデルが答えに自信がない場合に偽の情報を幻覚することです。より優れた推論能力があれば、これらのモデルは先を見越して計画を立て、次のステップを考え、物理的な世界がどのように機能するかを反映し、研究を行い、文脈内学習などを行うことができるでしょう。
サム・アルトマン自身が言ったように、最も重要な進歩の分野は推論能力に関するものになるでしょう。ロイターが見たこのリーク文書は、ストロベリーが何を可能にしようとしているかを説明していますが、どのようにそれを実現するかは説明していません。詳細はわかりませんが、何をしようとしているかについてはアイデアがあります。
OpenAIは外部の関係者、開発者に対して、はるかに高度な推論能力を持つ技術のリリースの直前にあることを示唆しているようです。そのような噂は以前から聞こえてきました。一部の人々はそれをGPT-5と呼んでいますが、それが彼らが使用している命名規則ではないようです。しかし、再度言いますが、はるかに強力な何かが待機していて、彼らはその技術のリリースの直前にあるという噂があります。
そして、これらのモデルをトレーニングするアプローチについての興味深いことがあります。ストロベリーには、OpenAIのAIモデルの「ポストトレーニング」として知られる、または膨大な一般化されたデータで既に訓練された後、特定の方法でモデルのパフォーマンスを磨くための、基本モデルを適応させる特殊な方法が含まれています。情報源の1人が言ったところによると。
再度言いますが、これは継続的なトレーニングという考えです。事前トレーニングをして終わりではなく、継続的なポストトレーニング、継続的な学習です。ファインチューニングのようなものも言及されていますし、RHF（人間のフィードバックによる強化学習）についても触れています。これらのことは新しいものではありませんが、確かにそれらを行う新しいアプローチや、一般的にはあまり知られていないことがあるかもしれません。
ストロベリーには、スタンフォードで開発された「セルフリーズナー」または「スター」（推論による推論のブートストラップ）と呼ばれる方法との類似点があります。その背後にある考え方は、いわば推論のループを作り出すことです。質問と答えはデータセットに存在すると予想されますが、その背後にある理論、問題を通じたステップバイステップの思考連鎖の推論は、スターを使用して生成されます。
彼らは、大規模言語モデルの既存の推論能力を活用し、その後、高品質の理論を生成する能力を反復的にブートストラップしていると言っています。大規模言語モデルに理論と理論を生成するようにプロンプトを与えると、例えば「小さな犬を運ぶのに何を使用できますか？」という質問があり、答えがあります。例えば、「スイミングプール」が質問で、答えは「B」「バスケット」ですが、ここで赤い文字で書かれているテキストが、その背後にある理論の種類です。
例えば、ここで大規模言語モデルは「答えは小さな犬を運ぶために使用できるものでなければなりません。バスケットは物を入れるように設計されています。したがって、答えはバスケットBです」と言います。このように、大規模言語モデルはこれらの理論を生成し、その後、正しい答えにつながる理論でモデルをさらに微調整することで、モデルの能力をさらに洗練させます。そして、改善されたモデルを使用して次のトレーニングセットを生成するために、この手順を繰り返します。
これは相乗的なプロセスで、理論生成の改善がトレーニングデータを改善し、トレーニングデータの改善がさらに理論生成を改善します。これは一種の自己改善AIのように読めます。反復的に自身の答えを改善し、答え方の背後にある思考を生成する際に、実際のモデル、脳がそれらの理論によって改善され、そして各新しいレベルの改善が次のレベルのデータを生成するのに使用されます。
まさにこれが彼らが話していることです。確かにこのストロベリーのようなものに聞こえます。そして、これが私の目を引く点です。スターは、AIモデルが反復的に自身のフレーミングデータを作成することで、より高い知能レベルに自己ブートストラップすることを可能にします。理論的には、言語モデルを人間のような知能を超えるレベルに引き上げるために使用できると、その創造者の一人であるスタンフォード大学のノア・グッドマン教授は述べています。
彼は、「物事がその方向に進み続けるなら、人間として真剣に考えなければならないことがいくつかある」と言っています。OpenAIは、ストロベリーに長期的な視野を持つタスク、つまり基本的にエージェント能力を持たせようとしています。多くのステップを必要とし、完了までに時間がかかるかもしれないものを実行する能力です。
そして、内部文書によると、会社がOpenAIと呼ぶ「ディープリサーチデータセット」を訓練し、作成しているようです。さらに、彼らは会社内で使用している別の用語として、「TUA」または「コンピュータ使用エージェント」を挙げています。
OpenAIは特に、これらの能力を使用してモデルがウェブを自律的にブラウズすることで研究を行い、コンピュータ使用エージェントとして機能し、その発見に基づいて行動を取ることができるようにしたいと考えています。OpenAIはまた、ソフトウェアや機械学習エンジニアの仕事を行う能力をテストする計画もあるそうです。
繰り返しになることをお詫びしますが、OpenAIのAI安全性アライメントチームから解雇されたレオポルド・アッシェンブランダー、彼は情報をリークしたとされる人物ですが、「状況認識」論文を投稿した人物です。AIがどこに向かっているのか、そしてこの全体がどのように展開するかについての大規模な深掘りです。しかし、これは彼が特に言及していたことです。AIは全てを改善することに長けている必要はなく、自分自身を改善する1つのことだけに長けている必要があるということです。つまり、自動化されたAI研究です。それが起これば、知能の爆発的な増加が見られるでしょう。
確かに、OpenAIの内部文書があり、人間レベルの推論者であるこのストロベリーの能力をテストする計画があると言っているなら、長期的な視野を持つタスク、ディープリサーチを実行し、ウェブを自律的にブラウズし、その発見に基づいて行動を取ることができるエージェントとして機能する能力を持つものです。問題は、OpenAIがそれらの能力をどこに適用するのか、それらのエージェントをどこに向けているのかということです。
もし彼らが実際にソフトウェア、特に機械学習エンジニアの仕事に向けているなら、問題は、我々がこのチャートのどこにいるのかということです。我々は潜在的にその知能の爆発的増加、再帰的な自己改善に入りつつあるのでしょうか。
もし見逃していたなら、OpenAIは昨日、人工知能の段階について発表しました。AGIに向かって進む中で、AIの異なる段階をどのように見ているかについてです。レベル1は、チャットボット、会話言語を持つAIです。これは現在我々がいる段階で、一般に利用可能なものです。ステージ2は、人間レベルの問題解決能力を持つ推論者です。そしてレベル3は、行動を起こすことができるシステム、つまりエージェントです。これは、長期的な視野を持つタスク、ディープリサーチなどのことです。
ちなみに、LMCISはChatnAthenaの背後にいる人々ですが、彼らはまた一度、OpenAIの別のモデルを持っているようです。このモデルは、発表や世界へのリリースの前にテスト用のローテーションに入っています。そのうちの1つは「upcoming GPT mini」と呼ばれています。過去には「I am a good GPT-2 chatbot」や「I'm also a good GPT-2 chatbot」というコードネームのモデルを見てきました。
もちろん、我々はこの論文についても取り上げました。LMCISによって公開されたもの、少なくとも彼らがデータとリソースの多くを提供したと思います。論文の著者は様々な大学の多くの人々でしたが、要点は、小さなモデルを使って一部の質問に答えることができ、それによってコストをかなり節約できるということでした。
基本的な考え方は、別のモデルを訓練して、質問を大きな能力のあるモデルか小さなモデルのどちらかに振り分けるゲートキーパーまたはルーターとして機能させることでした。どの質問を小さなモデルに振り分け、どの質問を大きなモデルに振り分けるかを学習することができました。これにより、答えの品質を95%維持しながら、場合によってはこれらのモデルの推論コストを最大85%削減することができました。
OpenAIが「GPT mini」と呼ぶものをテストしているという事実は、確かにこれに関連している可能性があります。将来的には、質問をするたびに、質問の複雑さとモデルがどれだけうまく答えられるかに応じて、自動的に大きな能力のあるモデルか小さなモデルのどちらかに振り分けられるかもしれません。
しかし、あなたはどう思いますか？このストロベリーは、スターのような自己学習推論者と何か関係があると思いますか？段階的に自己改善を繰り返し、理論的には大規模言語モデルを人間レベルの知能を超えるレベルに引き上げるために使用できるものだと思いますか？それとも、これは単なる誇大宣伝で、何も真実ではなく、心配することは何もなく、ただのストロベリー・フィールズ・フォーエバーだと思いますか？コメントで教えてください。
私の名前はウェス・ロスです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？