OpenAIの新しいQStarが流出！（自己改善型AI） - ストロベリープロジェクト

2024年7月14日 18:06

OpenAIが、ストロベリーというコードネームで新しい推論技術の開発に取り組んでいます。この技術で最も興味深いのは、以前はQStarと呼ばれていたということです。ようやく、OpenAIのトップシークレットプロジェクトについて、新しい詳細や情報が得られました。このプロジェクトの内容、実際の仕組み、そしてプロジェクトストロベリーについて少なくともヒントを与えてくれるいくつかの研究論文を見ていきましょう。
ここに、つい最近ロイターが発表した記事があります。ロイターに関しては、特にOpenAIからの情報発表に関して、その判断を信頼することができます。これは、ロイターが非常に信頼できる情報源であり、彼らが提示する情報は多くの場合、かなり正確だからです。驚くべきことに、これから詳しく見ていく記事だけでなく、OpenAIの他のデモに関する興味深い情報も得られました。
昨日話したことの1つに、人間のような推論がありました。これは昨日ブルームバーグで公開された記事の抜粋です。この記事では、最近のデモで、明らかに人間のような推論に匹敵するGPT-4 AIが紹介されたと議論されています。同時に、会社のリーダーシップはOpenAIが人間のような推論に匹敵する新しいスキルを示していると考えるGPT-4 AIモデルを含む研究プロジェクトのデモンストレーションを行いました。
この情報をビデオに含めた理由は、プロジェクトストロベリーについて、昨日の記事が人間のような推論を示すプロジェクトストロベリーを指しているのではないかと一部の人々が疑問に思っているからです。しかし、このロイターの記事から明らかなように、デモンストレーションされたプロジェクトがストロベリーであるかどうかをロイターは判断できなかったと明確に述べています。これは、OpenAIおそらく推論に特化した別のモデルを持っており、それはプロジェクトストロベリーほど小規模ではなく、おそらく大規模言語モデルであることを意味する可能性があります。
これは、GPT-4、おそらくGPT-4の小さな反復版の周りにエージェントフレームワークを巻き付け、より優れたSL、つまり増加した推論を行うためのエージェントフレームワークがある可能性があることを意味します。多くの人々が小規模な大規模言語モデルでこれを行っているため、これが可能性があることがわかっています。
これが実際に興味深い理由は、GPT-4が人間のような推論に到達する新しい方法がある可能性があるからです。注意すべき重要な詳細の1つは、これがGPT-5について何も言及していないことです。一部の人々はこれがGPT-5ではないかと推測するかもしれませんが、プロジェクトストロベリーと人間のような推論を行うこのGPT-4 AIモデルは、GPT-5とは完全に別物です。
ここで見ているのは、OpenAIの研究部門の内部の動きであり、これらの領域は、モデルをより賢くする方法、特に推論能力の面でより賢くする方法に焦点を当てているところだと推測します。推論能力は本質的に、モデルが問題について考え、それを分解し、以前の努力よりもはるかに優れた方法で理解する能力です。
ここで、ストロベリーの実際の目的は研究を実行することであることがわかります。ロイターが見た最近のOpenAIの内部文書のコピーによると、OpenAI内の研究チームがストロベリーに取り組んでいます。5月の文書には、OpenAIがストロベリーを使用して研究を実行する計画の詳細が記載されています。情報源はこの計画をロイターに「進行中の作業」と説明し、ニュース機関はストロベリーが一般に公開される時期がどれほど近いかを確認できませんでした。
ストロベリーについて、この記事から得られた重要なポイントの1つは、ストロベリーが研究を実行するために使用されるということです。どのような種類の研究かは明確ではありませんが、さらに進んで、これがインターネット上での何らかの深い研究になるだろうと実際に話されています。こちらをご覧ください。
ストロベリーの仕組みは、OpenAI内でさえ厳重に秘密にされていると、その人は言いました。文書には、OpenAIのAIがクエリに対する回答を生成するだけでなく、インターネットを自律的かつ確実に移動して、OpenAIが「深い研究」と呼ぶものを実行するのに十分な計画を立てることを可能にすることを目的としたストロベリーモデルを使用するプロジェクトが記述されています、と情報源は述べています。
深い研究とは、自律的に研究を実行できる何らかのAIエージェントを意味する可能性があります。ここで興味深いのは、これがOpenAIが取り組んでいるモデルの次の反復のように見えることです。昨日のビデオを見た方はご存じかもしれませんが、OpenAIが取り組んでいるAGIには5つのレベルがあり、2番目が推論者、3番目がAIエージェントになります。
ストロベリーが正確に何であり、どのように行われているかを正確に判断するのは実際にかなり難しいですが、ある程度の教育的な推測を行うのに十分な詳細があると思います。この記事のこの部分、特にこの部分から見ることができます。文書には、OpenAIのAIがクエリに対する回答を生成するだけでなく、インターネットを自律的かつ確実に移動して深い研究を実行するのに十分な計画を立てることを可能にすることを目的としたストロベリーモデルを使用するプロジェクトが記述されています。
以前、AIの分野にいた方はご存じだと思いますが、AIの主な問題の1つは、現在AIエージェントを作る上で、一部のトップCEOが以前に述べたように、自律型エージェントを得るのは実際に非常にトリッキーだということです。これには2つの理由があります。1つ目はスキルの不足、2つ目は信頼性の欠如です。本当に能力があり、本当に信頼できるモデルがなければ、AIエージェントが自律的に実行するのに十分な長い時間枠で一貫したアクションを実行させることはできません。
モデルに一連のアクションを実行させる、たとえば3つのことを実行させる、つまり、ある日あなたと私が行けるレストランを予約するように頼むと、最初のアクションは私たち両方のカレンダーの空き状況をチェックすることです。はい、それは正しい機能呼び出しです。正しいタイミングを調整するのが2番目のアクションです。空きがあるレストランであることを確認するのがもう1つのチェックです。そして、サインインして、正しいツールを使用して適切な時間に適切なレストランを予約し、クレジットカードの詳細を入力します。もちろん、私たち両方が好きなレストランであることも確認しています。
そこには4つか5つか6つの異なるステップがあり、その1つの「アクション」のサブコンポーネントを生成するためには、基本的にモデルが各要素に対して完璧な機能呼び出しを生成し、それを順番に行う必要があると言っています。それは任意ではなく、順番でなければなりません。これは、1つの質問に対して4ページの文書を書くようなもので、その文書がまさにその文書であり、それに近似または類似したものでなければならないと言うようなものです。
私たちは皆、明らかにこれらのモデルが現時点で魔法のようだと考えています。美しい詩やクリエイティブなコピーやテキストを書き、良い答えを与え、時には根拠があり、云々。しかし、それらの答えの各々に対して、選択できた正しい答えの範囲が広いのです。数十、数百、数千かもしれません。
ここで興味深いのは、ストロベリーが、会社のAIがインターネットを自律的かつ確実に移動するのに十分な計画を立てることを可能にするブレークスルーかもしれないということです。ダリオ・アモッドとマイクロソフトのムスタファ・スマンのクリップを含めたかもしれませんが、うまくいけばそれらのクリップで、これが解決される必要がある本当の問題であることがわかったと思います。
ストロベリーモデルがどれほど優れているかによっては、推論能力が飛躍的に向上すれば、潜在的にAIエージェントをはるかに早く手に入れることができる可能性があることがわかります。しかし、AIエージェントが将来のモデル、GPT-6のようなモデルのために計画されていることも知っています。
OpenAIのスポークスパーソンが声明で述べたことがあります。彼らは「私たちは、AIモデルが私たちのように世界をより良く見て理解することを望んでいます。新しいAI機能への継続的な研究は業界での一般的な慣行であり、これらのシステムが時間とともに推論力を向上させるという共通の信念があります」と述べました。スポークスパーソンは、何らかの理由でストロベリーに関する質問には答えませんでした。
もちろん、これはOpenAIの主な目標の1つです。より良い推論によって、モデルがはるかに有用になるからです。現在のシステムに対する人々の主な不満の1つは、単に私たちが望むことを理解するのに十分賢くないということです。何度も何度も。
私は、GPT-4のようなシステムにできるだけ多くの詳細を提供する必要があることが多いと主張しますが、時にはこれらのモデルが本当に私たちが望むことを理解していないという議論もあります。これが現在OpenAIの主な指示であり、これらのモデルの推論においてマーケットリーダーになるために、彼らがすべての努力を集中させているところであることは明らかです。
推論は、おそらく彼らが焦点を当てる主な領域になるでしょう。ここでも興味深いことが見られます。これは、サム・アルトマンがビル・ゲイツとのインタビューで話したことの呼び戻しです。ここで強調した部分を見ると、サム・アルトマンが将来のモデルが増加した推論能力を持つことについて話しているのがわかります。推論能力は本質的に、サム・アルトマンが最大の進歩を望む領域だと述べている部分です。
もちろん、GPT-4は現在推論できますが、サム・アルトマンが述べているように、それは極めて限られた方法でのみ推論しており、また彼が述べているように、それほど信頼できるものではありません。GPT-4にほとんどの質問を10,000回尋ねると、その10,000回のうちの1回はおそらく本当に良いですが、どれが良いかわからず、毎回10,000回の最高の回答を得たいと思うでしょう。そのため、信頼性の向上が重要になります。
ストロベリーの興味深い部分は、実際に将来の能力に関する情報を示しました。ここに書かれているのを見ることができます。ロイターがインタビューしたAI研究者たちは一般的に、AIの文脈における推論には、AIが先を見越して計画を立て、物理的な世界がどのように機能するかを反映し、困難な多段階の問題を確実に解決することを可能にするモデルの形成が含まれると同意しています。AIモデルの推論を改善することは、科学的発見から新しいソフトウェアアプリケーションの計画と構築まで、モデルがあらゆることを行う能力を解き放つための鍵だと考えられています。
これが、推論がOpenAIの指示の最前線にある理由です。なぜなら、これはモデルが広範に使用される将来のすべての使用事例をほぼ解き放つものだからです。また興味深かったのは、サム・アルトマンが過去にLex Fridmanのポッドキャストで議論したように、別のモデルリリースを得る可能性があるように見えることです。別のモデルリリースは必ずしもGPT-5とは限りません。GPT-4.0は、私たちが本当に予期していなかった特定の能力でリリースされたモデルでした。GPT-4の秘密の能力について全ビデオを作りましたが、正直なところ、それらの能力はかなり驚異的です。GPT-4は3Dモデルから写真のようなリアルな画像まで作成できる、本当にマルチモーダルな信じられないほどの技術です。
この声明が述べているのは、最近数ヶ月間、同社が開発者や他の外部関係者に対して、大幅に進歩した推論能力を持つ技術をリリースする寸前であることを私的に示唆しているということです。これが意味する可能性があるのは、独立した推論モデルを得る可能性があるということです。これが実際に真実かどうかはわかりませんが、GPT-5に関して何も言及されていませんでした。これがGPT-5を指しているのであれば、おそらく単純にそう述べていたと思います。しかし、いずれにせよ、彼らが大幅に進歩した推論能力を持つ技術をリリースする寸前にあることは知っています。そして、OpenAIの段階的な展開の実績を考えると、それらのモデルがどのように世界にリリースされるかを見るのは興味深いでしょう。
ここで、このモデルが実際にどのように機能するのか、そしてその最も基本的な形態でモデルが何であるかについて詳しく説明します。ストロベリーには、ポストトレーニングとして知られる専門的な方法が含まれていると述べられています。OpenAIの生成モデル、または基本モデルを適応させて、大量のデータで既にトレーニングされた後、特定の方法でその性能を向上させることです。情報源の1人が述べています。モデル開発のポストトレーニング段階には、ファインチューニングのような方法が含まれます。これは今日ほとんどすべての言語モデルで使用されており、多くの種類があります。例えば、人間がモデルの応答に基づいてフィードバックを与えたり、良い回答と悪い回答に基づいて例を与えたりします。
AIでのポストトレーニングの仕組みを知りたい場合、本質的にAIは事前トレーニング中に大量のテキストから一般的な言語スキルを学習します。言語を理解し生成する方法を学ぶのです。学生が基本的な読み書きスキルを学ぶようなものです。事前トレーニングの後、AIはポストトレーニング、つまりファインチューニングと呼ばれる過程を経ます。ファインチューニング中、AIは質問に答えたり、記事を要約したり、言語を翻訳したりするような特定のタスクを練習します。これは学生に特定の科目に焦点を当てた追加レッスンを与えるようなものです。これはAIにとって明らかに重要なステップです。なぜなら、学生が特定の科目でより良い成績を取るのを助け、AIが特定のタスクでより良いパフォーマンスを発揮するのを助けるからです。
ストロベリーについて興味深いのは、OpenAIがこのイノベーションによってAIモデルの推論能力を劇的に向上させることを望んでいること、そしてストロベリーには非常に大規模なデータセットで事前トレーニングされた後にAIモデルを処理する専門的な方法が含まれているということです。OpenAIがこれらのモデルを最終的に仕上げる新しい方法をテストしているように見えます。ポストトレーニングとそれほど似ていないようですが、すでに事前トレーニングされたAIモデルを処理する専門的な方法を含んでいます。基本的に、モデルをポストトレーニングする新しい方法です。
ここで、この情報に関連付けられた研究論文のいくつかについて説明します。ここには、ストロベリーが2022年にスタンフォードで開発された方法、自己教示推論者（Self-Taught Reasoner）またはSTARと類似点があると書かれています。これは、この件に関する情報源の1人が述べたことです。STARは、AIモデルが独自のトレーニングデータを作成することで、より高い知能レベルへと自身をブートストラップすることを可能にし、理論的には言語モデルを人間レベルの知能を超えるところまで引き上げるために使用できると、その開発者の1人であるスタンフォード大学のノア・グッドマン教授は述べています。
本質的に、これは理論的には一種の自己改善型AIです。なぜなら、彼らが行っていることは、反復的に独自のトレーニングデータを作成し、それを使用して世界について推論することだからです。この種のバージョンについてのビデオを作りましたが、後で話します。論文を見てみると、AIに関してこれほど詳しく探求されていないものを示しているので、本当に魅力的です。
ここに、STAR（Self-Taught Reasoner：自己教示推論者）、推論によって推論をブートストラップするというタイトルがあります。要約を読むと、何が起こっているのかが明確に理解できます。ステップバイステップの思考の連鎖の根拠を生成することで、数学や常識的なQ&Aなどの複雑な推論タスクにおける言語モデルのパフォーマンスが向上することがわかります。しかし、現在、言語モデルの根拠生成を誘導するには、大規模な根拠データセットを構築するか、少数のショートインスタンスを使用して精度を犠牲にする必要があります。
我々は、少数の根拠例と根拠のない大規模なデータセットを反復的に活用して、次第により複雑な推論を実行する能力をブートストラップする技術を提案します。この技術、自己教示推論者（Self-Taught Reasoner）は、シンプルなループに依存しています。少数の根拠例でプロンプトを与えられた多くの質問に答えるための根拠を生成し、生成された答えが間違っている場合は、正しい答えを与えられて再度根拠を生成しようとします。最終的に正しい答えをもたらしたすべての根拠でファインチューニングを行い、それを繰り返します。
我々は、STARが最終的な答えを直接予測するようにファインチューニングされたモデルと比較して、複数のデータセットでパフォーマンスを大幅に向上させ、常識的なQ&Aで30倍大きな最先端モデルをファインチューニングするのと同等のパフォーマンスを発揮することを示しました。したがって、STARはモデルが自身の生成した理由から学ぶことで自己改善を可能にします。
これは驚異的です。なぜなら、これは超知能を生み出す可能性がある、あるいは少なくとも人間を超える知能に到達する可能性がある種類の技術だからです。自身の生成した推論から学ぶことで自己改善するモデルを持つことは、ある意味で再帰的に自己改善するものです。再帰的に自己改善するというのは、モデルが自身についてのあらゆる種類のことを変更できることを意味すると知っていますが、自身の生成した推論から学ぶことで自己改善するモデルを持つことは、この分野が向かっている大きなステップだと思います。なぜなら、歴史的に見て、人間のデモンストレーションや人間の情報からのみ学ぶAIモデルは、人間によって制限されることを知っているからです。自身の生成した推論から学ぶことで自己改善できるAIシステムを持つことは、絶対に信じられないほどのことです。
本質的に、ここにあるのは、自身の間違いから学び、そして質問に正しく答えたときに、なぜ正解したのかを学び、そこから学ぶモデルです。これがアクションでの例です。これはSTAR論文のスクリーンショットで、常識的なQ&Aに関するSTARの生成した根拠の概要です。点線でループのファインチューニングを示しています。質問と正解の答えはデータセットに存在すると予想されますが、根拠はSTARを使用して生成されます。ここで、これがどのように機能するかのアーキテクチャが見られます。これが質問です。
質問は「小さな犬を運ぶのに何を使用できますか？」です。もちろん、選択肢があります。a）スイミングプール、b）バスケット、c）ドッグショー、d）裏庭、e）自宅です。そして、STARフレームワークを使用して生成された根拠が見られます。それは次のように述べています：「答えは小さな犬を運ぶのに使用できるものでなければなりません。バスケットはものを入れるように設計されています。したがって、答えはバスケットです。」モデルが根拠を立て、答えを出し、そしてそれから自己改善できることがわかります。
この論文を見ていて驚いたことの1つは、このモデルが何をできるかだけでなく、はるかに大きなサイズの他のモデルと比較して何ができるかということでした。GPT-Jは60億パラメータの言語モデルで、STAR方法の基本モデルとして機能しました。最初、GPT-Jには根拠（ステップバイステップの説明）を含む少数の例でプロンプトが与えられました。その後、モデルはより大規模なデータセットの根拠を生成するために使用されました。生成された根拠は、正解につながったもののみをフィルタリングして保持し、GPT-Jはその後、質問と正しい根拠の両方を含むフィルタリングされたデータセットでファインチューニングされました。
モデルが最初に間違った答えを出した質問については、正解が与えられ、それらの根拠を生成するよう求められました。これらの根拠もさらなるファインチューニングに使用されました。この生成、フィルタリング、ファインチューニングのプロセスが反復的に繰り返され、GPT-Jが時間とともに推論能力を向上させることを可能にしました。
ここで驚くべきことは、STARと根拠付けを使用したGPT-Jが、直接ファインチューニングされたGPT-3と同等のパフォーマンスを示していることです。彼らは、約30倍大きなモデルと同等のパフォーマンスを発揮する非常に小さなモデルを得ることができました。そして、人々はこの方法がGPT-4やGPT-5のような大規模なモデルでも機能するかどうか疑問に思っていると思います。
今、私が知っているのは、すべての目がSTAR論文に向けられるだろうということです。多くのAI研究者がこの論文をもう一度見直す可能性があることを知っています。なぜなら、彼らが主張していることが真実で、人間ができることを超える高いレベルの知能に到達するために使用できる可能性があるなら、これは本当に恐ろしい意味を持つからです。
記事はさらに、OpenAIがストロベリーを長期的なタスク、つまりモデルが先を見越して計画を立て、長期間にわたって一連のアクションを実行する必要がある複雑なタスクを実行することを目指していると述べています。ここに書かれているように、OpenAIは「深い研究データセット」と呼ばれるものでモデルをトレーニングし評価していると述べています。ロイターはそのデータセットに何が含まれているか、または「長期間」がどのくらいの期間を意味するかを判断できませんでした。
これ全体の目標は、OpenAIがモデルを使用して、コンピュータ使用エージェント（CUA）、つまり発見に基づいてアクションを取ることができるエージェントの支援を受けて、ウェブを自律的にブラウズすることでこれらの能力を研究に活用したいということです。これは文書と情報源の1人によるものです。OpenAIは、ソフトウェアと機械学習エンジニアの仕事を行うことでその能力をテストする計画です。
これは多くの情報であり、多くの意味を持ちます。主な意味の1つは、OpenAIが自律的に良いインターネット研究を行う明確な道筋を持っているように見えるということです。単にインターネット研究だけではないと思います。なぜなら、彼らはまた、ソフトウェアと機械学習エンジニアの仕事を行うことでその能力をテストする計画だと述べているからです。
OpenAIは、これらのモデルがソフトウェアエンジニアリングと機械学習エンジニアリングを行う能力をテストするための内部ベンチマークも持っているように見えます。これらはもちろん本当に難しいタスクですが、OpenAIの主な目標の1つがAI研究を自動化することであり、もう1つの目標がAIエージェントを得ることだったことを覚えているなら、おそらくOpenAIが気づいたのは、推論がこれらすべての能力を解き放つということ、そしてより高いレベルの推論を解き放つと、すべてがはるかに簡単になるだろうということです。
多くの人々が疑問に思っていることの1つは、もちろんストロベリーという名前です。なぜOpenAIはQStarからストロベリーに切り替えたのでしょうか？主な理論の1つは、これが現在のLLMが推論に苦労することを示す質問からきているということです。今日のほとんどのLLMに提案された単純な質問は間違った答えを与えます。質問は「strawberry」という単語に「R」はいくつありますか？通常、これらのモデルは「strawberry」という単語には2つのRがあると述べます。気づかなかった場合、「strawberry」という単語を見ると、ここに1つのRがあり、そしてここに2つのRがあります。合計で3つありますが、何らかの理由でモデルは適切に推論せず、「strawberry」という単語に3つのRがあることに気づきませんでした。
これが理由かもしれません。また、これがイーロン・マスクのVanity Fair Strawberry Fieldsにちなんで名付けられたという別の理論も浮上しています。2017年のVanity Fairのプロフィールで、イーロンは鮮やかな比喩を使って、イチゴを摘むために設計されたAIが潜在的に暴走し、地球全体をイチゴ畑に変えてしまう可能性があるシナリオを描きました。彼は「それが本当にしたいのはイチゴを摘むことだけなので、世界全体がイチゴ畑になってしまうだろう」と説明しました。
しかし、イーロン・マスクとOpenAIは近年長く対立関係にあり、サム・アルトマンとイーロン・マスクの関係は必ずしも良好ではないと思うので、これはそうではないと思います。
全体的に、QStarには多くの情報があり、おそらくOpenAIで優先順位が高いものだと思います。最近、サム・アルトマンがQStarについてはまだ話したくないと言ったことを考えると。QStarが何であったかについては以前から多くの理論がありました。そのいくつかをここに示します。1つは、以前話したQ学習アプローチで、これが潜在的にQStarと呼ばれた理由です。もちろん、A探索もありました。これはstarの由来です。そして今、自己教示推論者（Self-Taught Reasoner）であるSTARがあります。これが一部の人々がstarと呼ばれる理由だと推測している理由です。しかし、論文からの一部の内容も、これがおそらく関連していることを示しています。
これらの論文やSLの能力の組み合わせなのか、それとも本当にユニークな方法なのかはわかりません。OpenAIは研究を公開していないからです。要約すると、QStarは、意思決定のためのQ学習、効率的な計画のためのA探索、そして反復的な根拠生成と洗練を通じて問題解決能力を向上させる自己教示推論（STAR）の強みを組み合わせた高度なAIシステムである可能性があります。この組み合わせにより、洗練された方法で計画し、行動し、学習できる非常に有能なシステムが作成される可能性があります。

この記事が気に入ったらサポートをしてみませんか？