衝撃の新事実！OpenAIの更なる詳細が明らかに！（プロジェクト・ストロベリー/Q*スター/OpenAI ORIONモデル）

2024年8月28日 05:23

さて、OpenAIの新モデルに関する多くの情報が公開されました。そして、Orionというコードネームで呼ばれる極秘モデルについても更なる情報が出てきています。この動画では、皆さんが知っておくべきことを全て詳しく説明していきます。また、見逃しているかもしれないことについても触れていきます。
The Informationの記事から、ストロベリーモデルに関する多くの情報が得られました。ここに重要な詳細が記されていて、皆さんが見逃しているかもしれないことがあります。例えば、ここを見てください。記事の冒頭で述べられているのは、OpenAIが更なる資金調達を目指す中で、既存のAIよりもはるかに優れた推論能力を持つ次のAI製品の立ち上げを試みているということです。
ここから興味深くなります。なぜなら、現在ストロベリーというコードネームで呼ばれている新しいAIの立ち上げが予定されているからです。以前はQ*（キュースター）と呼ばれていました。これはChatGPTの上に構築される可能性があり、リリース日は早ければ今年の秋になる可能性があります。
秋というのは9月、10月、11月を指します。私の予想では11月になると思いますが、GoogleやAnthropicなど他の企業から予期せぬ発表があれば、OpenAIはもう少し早くリリースするかもしれません。
ここにあるように、ストロベリーは今までに見たことのない数学の問題を解くことができます。これは現在のチャットボットが確実にできないことです。また、プログラミングに関する問題を解くように訓練されていますが、技術的な質問に答えるだけに限らないとのことです。
ストロベリーについて全体的に理解しておく必要があるのは、このモデルが推論エンジンだということです。複雑な問題を解決するように訓練されており、他のモデルの能力を向上させるのに役立つ推論エンジンです。
記事では、追加の思考時間が与えられると、ストロベリーモデルは製品マーケティング戦略などのより主観的なトピックに関する顧客の質問にも答えられると述べています。
これについて最も興味深いのは、追加の思考時間が与えられるということです。記事の後半で言及されているテスト時計算や、異なるエージェントワークフロー、異なるプロンプティングスタイルなど、モデルに考える時間を与えるさまざまな方法があります。
このモデルははるかに遅いと思われますが、内部で問題を抽象的に考えるなど、何らかの方法で問題を考え、はるかに優れた回答を生成できるのだと思います。
また、言語関連のタスクにおけるストロベリーの能力のデモンストレーションもあったようです。OpenAIの従業員が同僚に、ストロベリーがニューヨーク・タイムズの「コネクションズ」という複雑な単語パズルを解けることを示したそうです。
ニューヨーク・タイムズの「コネクションズ」をご存じない方のために説明すると、これは単語間の関連性を見出す、難易度が上がっていくワードパズルです。今日のパズルの例をお見せしましょう。
ご覧の通り、16の異なる単純な単語があります。これらを4つの異なるカテゴリーにグループ分けする必要があります。例えば、今ビデオを一時停止してやってみたい方はどうぞ。最初の例をお見せしましょう。
例えば、「Thunder（雷鳴）」「Roar（轟音）」「Crash（衝突音）」「Boom（爆発音）」があります。これらはすべて音、つまり大きな音なので、4つのグループの1つにまとめることができます。残りの単語を見て、さらに4つの単語のグループに分ける必要があります。
これは非常に興味深いです。なぜなら、現在のLLMでこのタスクに関して小規模なテストを行ったところ、あまり良い成績を収めなかったからです。Claude 3.5 Sonnetに尋ねてみましたが、現在最先端のこのモデルでさえ、正解を得ることができませんでした。
興味深いことに、ChatGPTに尋ねたところ、NBAチームについて長々と話し、大きな音を出すものは当てることができ、火に関連するものについても言及しましたが、これらは正解ではありません。後ほど答えをお見せしますが、正解ではありませんでした。
大きな音については当てることができ、ヘアスタイリングに関するものも当てることができましたが、他の分野は当てることができず、いくつかの重要な要素を見逃していました。
これをお見せしているのは、ストロベリーモデルがこれをかなり上手くできるとすれば、このモデルが明らかに他のモデルよりもはるかに賢いということを示しているからです。
ここに答えがありますが、どのモデルも「チリペッパーの品質」や「カードの種類」だと推測できませんでした。これは非常に興味深いと思います。なぜなら、難易度の上昇と、これらのモデルがどのように異なる問題を推論できるかを示しているからです。
現時点で、LLMにこれを解かせる方法を考えている人もいるかもしれません。しかし、このような問題をストロベリーモデルに与えて、すぐに解決できるとすれば、それは非常に興味深いことだと思います。なぜなら、これらのモデルの生の能力が本当にどの程度なのかを知ることができるからです。
ストロベリーとエージェントに関するさらなる情報もあります。ストロベリーの立ち上げは、会話AI、つまり大規模言語モデル技術における優位性を維持するための、OpenAIの終わりなき戦いの一環であると述べられています。
また、複数のステップからなるタスクを解決することを目的とする、エージェントとして知られる将来の製品にも影響があります。現在エージェントが存在しない主な理由の1つは、信頼性の問題です。
これは、モデルが誤りを犯さないことが必要だということです。なぜなら、長期的な複数ステップのタスクを実行するAIエージェントには高い信頼性が不可欠だからです。これらのタスクは互いに積み重なる一連の行動を含むため、AIが初期段階で間違いを犯すと、プロセス全体が狂ってしまい、結果が悪くなったり、タスクが完全に失敗したりする可能性があります。
例えば、ケーキを焼くことを考えてみましょう。最初に間違った材料を混ぜたり、オーブンの温度を間違えたりすると、その後のレシピをどれだけ正確に守っても、ケーキはうまくできません。同様に、AIが複雑なタスクのどこかで間違いを犯すと、その後のすべてを台無しにしてしまう可能性があります。
信頼性の高いAIは、ケーキを完璧に作るためにレシピの各ステップを慎重に守るのと同じように、タスクの各ステップを正確に実行することを保証します。ストロベリーが目指すこの信頼性がないと、AIは重要で複雑な複数ステップのタスクを扱うことを信頼されません。そのため、現時点では信頼性の高いAIエージェントが存在しないのです。
ここでOrionが登場します。OpenAIの見通しは、現在開発中の新しい主力大規模言語モデル、コードネームOrionの最終的な立ち上げにある程度依存しています。このモデルは、昨年初めに立ち上げた既存の主力大規模言語モデルGPT-4を改良することを目指しています。しかし、現在では他のライバルもGPT-4とほぼ同等のパフォーマンスを持つLLMを立ち上げています。
これはかなり真実です。実際、現在GPT-4よりも優れたモデル、あるいはGPT-4レベルのモデルがあります。興味深いことに、OpenAIがこのモデルを急いでリリースしないのは驚きです。
コードネームOrionのこのモデルは、実は昨年漏洩していました。Jimmy Applesのツイートに注目していない方は、2023年11月の彼のツイートを見逃しているかもしれません。「宇宙を征服しよう」というムードで、CとIをOに変えたツイートです。
このイメージは、見る人には無作為に見えるかもしれませんが、実際にはオリオン座のイメージです。オリオン座は夜空で最も認識しやすく、目立つ星座の1つです。Jimmy Applesが2023年11月にこれをツイートしたという事実は...なぜ私がランダムなTwitterアカウントのランダムな画像について話しているのか不思議に思うかもしれません。
このアカウントは以前、OpenAIに関する多くのことをツイートしており、それらは実際に起こる数ヶ月前でした。AI業界にいる方なら、私が何について話しているか正確に理解できるでしょう。ただ、これが長い間進行中だったことが興味深く、今になってようやくこれらの製品がどのように開発されているかについての最初の詳細が出てきているのです。
ここでは、GPT-4とChatGPTのパフォーマンスを向上させることができるストロベリーのチャットボットバージョンが、今年リリースするのに十分良いものになるかどうかは不明だと述べられています。チャットボットバージョンは、元のストロベリーモデルを小型化・簡素化したもので、蒸留として知られています。
これは、より大きなモデルと同じレベルのパフォーマンスを維持しながら、操作がより簡単で費用がかからないようにすることを目指しています。OpenAIがここで試みているのは、このストロベリーモデルという専門モデルを持っていて、これは推論能力の面で絶対に驚くべきものになるのですが、安全性の理由なのか何なのかは分かりませんが、リリースするかどうか確信が持てないようです。
重要なのは、より大きなモデルと同じくらい上手く機能しながら、操作がより簡単で費用がかからないように、モデルを蒸留しようとしていることです。非常に賢いこれらのモデルの推論には時間がかかることを理解する必要があります。
これは、本当に高度なシステムに対する回答を得るのに数分待たなければならなかったGoogleのモデルで見られたことです。私が疑問に思っているのは、彼らがこのストロベリーモデルの蒸留バージョンをリリースし、ChatGPTやGPT-4に適用して、現時点で他のモデルを凌駕する推論能力を向上させるかどうかです。
ここでは、AI分野でますます一般的になっている蒸留のプロセスについても触れています。Googleのブログから見ると、ほとんどの微調整された大規模言語モデルには膨大な数のパラメータが含まれているため、基礎となる大規模言語モデルは予測を生成するために膨大な計算資源と環境資源を必要とします。
ただし、これらのパラメータの大部分は通常、特定のアプリケーションには無関係です。彼らが話しているのは、モデルを蒸留すると、大規模言語モデルの小さなバージョンが作成されるということです。
蒸留された大規模言語モデルは、元のLLMよりもはるかに速く予測を生成し、計算資源と環境資源も少なく済みます。ただし、蒸留されたモデルの予測は一般的に、元のLLMの予測ほど良くないことを覚えておいてください。
パラメータが多いLLMは、パラメータが少ないLLMよりもほぼ常に優れた予測を生成することを思い出してください。つまり、OpenAIは蒸留として知られるこのプロセス全体を使用して、ストロベリーの主要な推論能力の一部を大衆市場に出そうとしているようです。
これはGPT-4の上にリリースされ、競合他社よりもさらに優れたモデルにするための方法かもしれません。しかし、この記事全体で非常に興味深いと感じたのは、GPT-5について全く言及されていないことです。
私たちが話しているこれらのすべてのことはGPT-5とは別のものです。私たちが手に入れるモデルは、その能力と規模において多様なものになるようです。GPT-5、進化したGPT-4、そしてその上にOrionも登場する可能性があります。
この蒸留に関して、記事にはさらに興味深い内容があります。蒸留を使用すると、Orionがリリースされる前にチャットベースの製品で使用できると述べられています。これは、トップAI開発者間の競争が激化していることを考えると驚くべきことではありません。
ストロベリーベースの製品がどのようなものになるかは分かりませんが、教育的な推測はできます。1つの明らかなアイデアは、ストロベリーの改良された推論能力をChatGPTに組み込むことです。ただし、これらの回答はより正確になりますが、同時により遅くなるでしょう。
その理由は、もちろん複数のステップを考える必要があるモデルの場合、より難しい質問を与えると、モデルはその問題についてより多くの時間を考える必要があるからです。これは、より難しい問題に直面した人間と同じです。
これが将来どのように進化するか、特に高速な推論を可能にする高度なチップが登場することを考えると興味深いです。今年後半にこれらの改良された推論能力がChatGPTに組み込まれるかどうか気になります。
GPT-5が今年リリースされるという話はなく、OpenAIを取り巻くさまざまな状況を考えると、そのフラッグシップ製品には多くの遅延があるでしょう。OpenAIがLLMのリーダーボードで1位の座を失わないように、現在のChatGPTバージョンにストロベリーの蒸留バージョンを組み込むだけかもしれません。
OpenAIについて知っておくべきことの1つは、彼らがLLMアリーナで1位の座を愛していることです。そのベンチマークは、人々が現在最高のモデルがどこにあるかを位置づけるための一種のアンカーとして機能しています。
ストロベリーが適している用途を実際に見てみると、ユーザーが即時の応答を期待するOpenAIのSearch GPTエンジンのようなアプリケーションには適していないことが分かります。そこでは、ほぼ即座の応答が求められます。
しかし、彼らがこのモデルを使用している用途、そして実際のアプリケーションになるのは、GitHubの重要ではないコーディングエラーを修正するような慎重な使用例です。このモデルはかなり遅いモデルになりますが、はるかに正確になります。
これは、スピードよりも精度が必要な分野で人々が使用するようになるでしょう。そのため、GoogleのPaLMやGPT-4 Mobileのようなモデルがあります。ここでは、モデルが正しいか間違っているかにそれほど興味がなく、ただモデルが応答を与えてくれるかどうかを知りたいだけです。
しかし、これらのより高度なモデル、つまり推論がより高度なモデルでは、より慎重な使用例を扱っているため、プログラミングなどの精度がスピードよりも重要な場合、これらのモデルにはより高い精度が求められます。
これらすべてについて興味深いのは、ここで合成データについて話していることです。2つのストロベリーについて言及しています。基本的に、ここで私たちが持っているのは、OpenAIの秘密のモデルであるストロベリーの大きなバージョン、Qの大きなバージョンがOrionの訓練データを生成できるということです。
その意味合いは絶対に信じられないものだと思います。ここには、OpenAIがOrionのトレーニングデータを生成するためにストロベリーの大きなバージョンを使用しているという情報があります。このようなAI生成データは合成データとして知られています。
これは、ストロベリーがOpenAIが新しいモデルをトレーニングするための十分な高品質データを得る際の制限を克服するのに役立つ可能性があることを意味します。これらのデータはインターネットから収集されたテキストや画像などの実世界のデータです。
これらのモデルとその限界について、ほとんどの人が話してきた主要な点の1つは、合成データの領域でした。最近、AIの将来の限界についての詳細な動画を作りました。まだリリースされていませんが、その限界の1つはもちろんデータの壁でした。
しかし、多くの場合、データの壁は実際には起こらないでしょう。なぜなら、第一に合成データがあり、高品質のAIモデルや人間でデータをフィルタリングすれば、モデル崩壊（合成データで訓練されたモデルが自分の尻尾を食べて崩壊すること）についての一部の人々の話は実際には問題にならないからです。
また、現在存在するすべてのデータをまだ使い果たしていないという事実もあります。これについて興味深いのは、生のストロベリーモデルがあり、それは明らかに素晴らしい推論の例を生成できるほど大きく、Orionのトレーニングに使用されるということです。
高品質のデータが、モデルが推論タスクと高品質の出力に成功するために本当に重要であることを私たちは知っています。ストロベリーの大きなバージョンがOrionのこのトレーニングデータを生成しているのが分かります。
これは、このモデル、つまりストロベリー/Qスターモデルの推論能力がどれほど効果的かについて考えさせられます。なぜなら、文字通り次世代モデルのデータを生成できるからです。これは、その意味合いの点で絶対に信じられないものになるでしょう。
彼らはまた、ストロベリーを使用して高品質のトレーニングデータを生成することで、モデルが生成するエラーの数、つまりハルシネーションとして知られるものを減らすことができると話しています。
エージェントスタートアップMinion AIのCEOであり、GitHub Copilotの元チーフアーキテクトであるAlex Graveleyは、「ハルシネーションのないモデル、論理パズルを尋ねると最初の試みで正解するモデルを想像してください。モデルがそれを行える理由は、トレーニングデータにあいまいさが少ないため、推測が大幅に減っているからです」と述べています。
モデルがハルシネーションを大幅に減らすことができれば、AIの採用率が実際に上がると思います。ハルシネーションは基本的に、モデルが推測したり作り話をしたりするエラーであり、これによってモデルが非常に効果的であるはずのある種のアプリケーションで使用される能力が実際に低下します。
ハルシネーションはエラーであり、一部の業界ではエラーがまったくあってはならないか、エラー率が非常に低くなければなりません。そのため、これらのモデルは職場で使用できません。なぜなら、高度な信頼性が完全に必要とされるからです。
このモデルについて興味深いのは、実際に国家安全保障当局にも示されたということです。ここを見てください。Sam Altmanが今月初め、憶測を煽ることなくストロベリーの画像をツイートしたとありますが、彼らはまた今夏、国家安全保障当局にストロベリーのデモンストレーションを行いました。
これらの会議に直接知識のある人物によると、私たちはこのストロベリーモデルがどれほど優れているかを推測し始めることができます。なぜなら、このモデルがOrionのような小さなモデルのための高品質なトレーニングデータを十分に生成できるモデルであり、これがOpenAIで起こった全騒動につながったモデルだと彼らが言っているからです。
そして今、このモデルが国家安全保障当局に示されたと言っているのなら、これらの会議に直接知識のある人物によると、このストロベリーモデルが本当に本当に高度なものであることを意味します。
これは、このモデルの能力について本当に疑問を抱かせます。なぜなら、このモデルが非常に高度で、今や特定の予防措置を講じているように見えるからです。
もちろん、これが真実ではない可能性もあるという別の議論もあります。Sam Altmanは、今年初めに安全性リーダーの何人かが辞任したことを考えると、異なるアプローチを取っている可能性があります。その中には、Altmanが彼らほど技術の保護に関心を持っていないと主張した人もいました。
ここにも書かれていますが、未発表の技術を政府当局者に実演することで、OpenAIはAI開発者、特に高度なAIがますます国家安全保障の懸念事項になっていることを考えると、新しい基準を設定している可能性があります。
私はいつも、政府の介入は常に起こるだろうと言ってきました。これは、Leopold AschenbrennerがいつかAIラボに起こるだろうと言っていたことでもあります。これは彼が「AIと10年後」というPDF文書で語っていたことです。
また、私はこれを正確には見ていませんでしたが、Sam Altmanは5月のイベントで「次のモデルのためのデータは十分にあると感じています」と述べたそうです。これはおそらくOrionを指していると思われます。彼は、合成データの生成を含む、あらゆる種類の実験を行ったと言っています。
私たちは実際に、なぜこれが有利なアプリケーションになるかについても見ています。困難な数学の問題を解くAIは、既存のAIが航空宇宙や構造工学のような数学的に重要な分野で本当に優れていないことを考えると、潜在的に有利なアプリケーションになる可能性があります。
これは、ChatGPTのような会話AIが間違った答えを与えがちで、どんな数学の生徒も落第させるような答えを与えることを発見したAI研究者たちを悩ませてきた目標です。数学的推論の改善は、AIモデルが顧客サービスのリクエストなどの会話クエリについてより良く推論するのに役立つ可能性があります。
また興味深いのは、この記事が数学と幾何学の問題を解決するためのAIモデルを開発しているGoogle DeepMindのような他のモデルも紹介していることです。
Anthropicは、最新モデルのClaude 3.5 Sonnetでチャートやグラフを解釈する推論能力を強調しています。これは、パフォーマンスの点で本当に驚くべきものです。
ANDBのような他の企業もあり、主にコーディングやタスクを完了するためのAIエージェントの開発に焦点を当てています。もちろん、Cognition LabsもAIエージェントのコードを開発しており、Magicも同じことを行っています。
これらの大規模言語モデルが競争する明らかなアリーナがありますが、どの企業がトップに立つかを見るのは非常に興味深いです。
もちろん、この記事はまた、モデルの推論を改善するために、一部のスタートアップが問題をより小さなステップに分解する安価なハックを使用していることについても言及しています。この回避策は遅くて高価ですが。
基本的に、彼らが言及しているのは、人々が現在使用している他の方法である「反射」です。反射は基本的に、LLMに応答を生成させ、その応答を批評するように求め、そして自分自身にフィードバックを与えるプロセスです。
例えば、顧客がAIアプリに前述のブログ投稿の下書きを依頼した後、アプリは自動的に顧客には見えない追加のクエリをトリガーすることができます。例えば、アプリの背後にあるLLMに、どれだけ上手くできたか、どこを改善できるかを評価するように求めることができます。
これは、学生に自分の信念や議論について批判的に考えるように教える、ソクラテス的な教授法です。これは本当により良い応答につながります。そのため、あなたのモデルで常に試すことができるものです。
これらのモデルが推論能力の点で行うもう1つのこと、ストロベリーがどの方法を使用しているかは分かりませんが、後でそれに触れますが、開発者がGoogleの本を1ページめくりたい場合、サンプリングと呼ばれる技術を試すかもしれません。サンプリングは本当に本当に効果的で、これが超人的なAIシステムにつながっています。
サンプリング中、開発者は同じ質問を何十回も、場合によっては100回も尋ね、その中で最良の回答を選ぶことで、LLMの創造的でランダムな回答を生成する能力を高めます。これは、これらのモデルが完全に正確ではないことを考えると、時々は正解を出すことがあるため、その推論のステップや、見たいと思う答えに合致する回答を選ぼうとするようなものです。
例えば、コーディングアシスタントアプリは、同じコーディング問題に対して100個の異なる回答をLLMに求め、それらすべてのコードを実行し、どれが正しい答えを生成するかを確認し、自動的に最も簡潔なコードを最終的な回答として選択することができます。
これは一部のシステムがどのように機能しているかであり、ここでAlphaCode 2がどのように機能しているかが分かります。AlphaCode 2はプロのプログラマーの85%よりも優れています。基本的に、サンプル生成を行い、最大100万の多様なコード例を生成し、もちろんそのほとんどは価値がないものですが、その中で最良のものを選択します。
私が覚えているのは、確かにこれが超人的なシステムにつながる可能性があるという議論がありましたが、問題は、人間がこれをどのように行うかを実際に見ると、人間は答えにたどり着くためにそれほど多くの空間を探索しないということです。
例えば、AlphaGoが実際にどのように勝ったかを見ると、多くの異なる機会や異なる動きを探索していましたが、Lee Sedolを見ると、彼は人間で、人間の心は50から100の異なる解決策しか探索していないことが分かっています。一方、AlphaGoは数千か数百万かは分かりませんが、確かにはるかに多くを探索していました。
はい、100万の異なる多様なコードサンプルを生成し、その中で機能するものを実行するという推論を通じて見ることは機能しますが、人間について、人間が問題を推論する方法について何か明らかなものがあります。それは、これらのコンピュータよりもはるかに効率的なのです。
もし私たちがこれらのコンピュータに、50,000ではなく、たった50の解決策を探索するだけで、人間のように真に推論する方法を見つけることができれば、文字通り私たちよりも10倍賢いモデルを手に入れることができるでしょう。なぜなら、私たちは100万の異なる解決策を探索して、どれが機能するかを見ているわけではないからです。
人間が行うこと、つまり本当に賢い人間が行うことを使用し、それらの出力を使用します。ここでこの記事が実際にIlya Sutskeverについても言及しているのが分かります。ここには、ストロベリーが数年前にIlya Sutskever（当時OpenAIのチーフサイエンティスト）によって開始された研究に起源があると書かれています。
彼は最近、競合するAIラボであるSafe Super Intelligenceを立ち上げるために退社しました。Ilya Sutskeverが退社する前に、OpenAIの研究者であるJakob PukiとSimon Torが、Qと呼ばれる新しい数学モデルを開発することでSutskeverの仕事を基に構築しました。これが、OpenAIで何か凄いことが起きているという最初の兆候でした。
もちろん、この安全性の衝突は、Leo Satovが率いる取締役会がSam Altmanを解雇し、すぐに彼を再雇用する直前に起こりました。ここで、昨年Qに至るまで、OpenAIの研究者たちはテスト時計算として知られる概念の変種を開発しました。
これは、モデルに問題のすべての部分を考慮するためのより多くの時間を与えることで、LMの問題解決能力を高めるものです。その当時、Ilya Sutskeverはこの仕事に関連するブログ投稿を公開しました。
基本的に、テスト時計算は非常に効果的なもので、モデルをより大きくするのではなく、本質的に問題を解決しようとするときにより一生懸命考えさせるというものです。
Googleからのこの論文をお見せしますが、ここでは2つのアプローチを試しています。まず、AIに答えを修正させます。これは学生が自分の仕事をチェックするようなものです。次に、別のAIを使用して、どの答えが有望に見えるかを判断し、それらをさらに探索します。
彼らは、異なる戦略が異なる種類の問題にうまく機能することを発見しました。簡単な問題には1つのアプローチが必要で、難しい問題には別のアプローチが必要です。各問題に適切な戦略を選択することで、より少ないコンピューター能力を使用しながら、より良い結果を得ることができました。
簡単な問題では、このより一生懸命考えるアプローチが、はるかに大きなAIを使用するよりも時々うまく機能しました。ここで、彼らが話していた昨年公開された研究を見ることができます。2023年5月31日に「プロセス監督による数学的推論の改善」というタイトルで発表されています。
ここには、推論プロセスの各正しいステップに報酬を与えることで、数学的問題解決において新しい最先端を達成するモデルを訓練したと書かれています。これをプロセス監督と呼び、正しい最終答えに報酬を与える代わりに行います。
基本的に、次のステップに焦点を当て、次のステップが正しい限り、そこで報酬を与えます。さらに、結果の監督に比べてパフォーマンスを向上させるだけでなく、プロセス監督には重要なアライメント上の利点があります。人間が承認する思考の連鎖を生成するようにモデルを直接訓練します。
私は、これがQなのか、これがストロベリーモデルなのか疑問に思っています。なぜなら、ここで数学の問題を見ると、Qが数学の問題を解くことができ、それを非常に効果的に行うことができたという話がありました。
おそらく、これが研究の一部であり、その上にさらに効果的な何かを構築したのかもしれません。ここで見られるのは、プロセス監督された改訂が時間とともにますます効果を発揮し、サンプル数が増えるにつれて、このテストのパフォーマンスが上がり続けていることです。
研究はおそらくこの上に構築され、モデルをはるかに効果的にすることができたように見えます。ただし、ここには、おそらくまだモデルがリリースされていない理由だと思われることが書かれています。
「これらの結果が数学の領域を超えてどの程度一般化されるかは不明であり、将来の研究で他の領域におけるプロセス監督の影響を探ることが重要だと考えています。これらの結果が一般化されれば、プロセス監督が両方の世界の最良のものを与えてくれる可能性があります。つまり、結果の監督よりもパフォーマンスが高く、より整列した方法です。」
これは非常に興味深いです。なぜなら、もちろんここにすべての著者が見られ、JakubとIlya Sutskeverが見られるからです。この記事を以前に見なかったことが信じられません。なぜなら、Qを見ると、これはもちろん数学の問題を本当にうまく解くことができる小さなモデルでしたが、このプロセス監督がテスト時計算や、ストロベリーに関する他の研究に関連しているのではないかと推測しています。
結論を出しましょう。ストロベリー（以前はQとして知られていた）は、改善された推論能力に焦点を当てた新しいAIモデルです。数学の問題や複雑な単語パズルを解くことができます。これは今年の秋にChatGPTに統合される可能性があり、現在は他のモデルのトレーニングデータの生成にも使用されています。
Orion（まあ、今はそうかもしれません）は、GPT-5には言及していない次の主要なモデルです。これはGPT-4を改善することを目指しており、現在開発中です。トレーニングのためにストロベリーから生成されたデータを使用する可能性があります。
基本的に、私たちは状況に直面しています。OpenAIは競合他社に先んじるために複数のAIモデルに取り組んでいます。ストロベリーは推論に焦点を当てており、OrionはGPT-4の次のフラッグシップモデルになることを意図しています。GPT-5は完全に異なるモデルである可能性があります。
もちろん、現在ストロベリーには2つのバージョンがあることも知っています。蒸留バージョンはChatGPTに適用される可能性があり、もちろん生のバージョンは現在、推論やその他の能力で優れており、Orionのようなモデルのトレーニングに使用される可能性があります。
OpenAIがどこにいるのか、見るのが完全に魅力的になるでしょう。OpenAIは競争の面でとても先を行っているように見えます。GPT-5、Orion、蒸留されたストロベリー、オリジナルのストロベリー、そしてその他多くのものを持っているように見えます。
OpenAIが何を隠し持っているのか、どのようなものが出てくるのか、非常に興味深いです。この動画を楽しんでいただけたなら、次の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？