OpenAIがGPTストロベリー🍓をリリース！知能爆発や！

2024年9月13日 20:45

9,898 文字

OpenAIが待望のストロベリーQARモデルがついに登場しまししたで。博士レベルの論理的思考、数学、科学、全部今すぐ使えるんですわ。今日はそれら全部一緒に見ていきましょか。早速始めましょ。
新しいモデルは01って呼ばれてて、シリーズになってるんです。今日は2つのモデルが利用可能で、01プレビューと01ミニがあります。難しい問題を解決するための新しい推論モデルのシリーズが、今日から使えるようになったんです。ChatGPTアカウントで確認したら、ちゃんとそこにありましたわ。01プレビューと01ミニがね。
複雑なタスクを推論し、科学、コーディング、数学の分野で以前のモデルよりも難しい問題を解決できるように設計された新しいAIモデルのシリーズを開発しましたんや。今日、このシリーズの最初のものをChatGPTとAPIでリリースします。これはプレビューで、定期的な更新と改善が予想されます。このリリースと並行して、現在開発中の次のアップデートの評価も含めています。
実際どう動くんかって？OpenAIが実際にどう動くか教えてくれると思って興奮せんといてくださいよ。そんなん教えてくれへんのです。モデルにもっと長期的に考える余地を与えるだけやって言うてるだけです。でも読んでみましょか。
問題に回答する前に、人間のようにもっと時間をかけて考えるようにこれらのモデルを訓練しましたんや。訓練を通じて、思考プロセスを洗練させ、異なる戦略を試し、自分の間違いを認識することを学びます。テストでは、次のモデルアップデートが、物理学、化学、生物学の難しいベンチマークタスクで博士課程の学生と同等のパフォーマンスを示しました。また、数学とコーディングでも優れていることがわかりました。
国際数学オリンピックの予選試験では、GPT-4.0は問題の13.3%しか正解できませんでしたが、推論モデルは83%のスコアを出しました。これは、GPT-4.0と比べて数学の分野で何倍もの大幅な改善ですわ。コーディング能力はコンテストで評価され、Code Forcesの競技でパーセンタイル順位89位に達しました。詳細は技術研究の投稿で読めますよ。すぐにそれについて触れますわ。
初期モデルなので、ウェブを閲覧して情報を得たり、ファイルや画像をアップロードしたりするなど、ChatGPTを便利にする多くの機能はまだありません。多くの一般的なケースでは、当面はGPT-4.0の方がより有能でしょう。また、かなり安くて、大多数の使用ケースにはより適切やと思います。99%の使用ケースでは、博士レベルの推論は必要ありませんからね。
でも、複雑な推論タスクでは、これは大きな進歩です。AIの新しい能力レベルを表していますわ。これを踏まえて、カウンターを1に戻し、このシリーズをOpenAI O1と名付けました。
ついに、ジミー・アップルズが忍耐の洞窟から出てこられますな。長い間、あそこで待っててくれはったんです。今や、この新しい革命的なモデルを手に入れました。もう忍耐は必要ありませんで、ジミー。ジミーは「ええ気分やわ、サム。ほんまにええ気分や」って返事しました。ジミーさん、おめでとうございます。
安全性について話しましょか。これらの新しいモデルの開発の一環として、推論能力を活用して安全性とアライメントのガイドラインを遵守させる新しい安全訓練アプローチを考え出しました。文脈の中で安全性ルールについて推論できるようにすることで、より効果的にそれらを適用できるんです。基本的に、自分自身のアライメントを理解しようとしているみたいですね。
安全性を測定する一つの方法は、ユーザーがそれらをバイパスしようとした場合（ジェイルブレイクとして知られています）、モデルがどれだけうまく安全性ルールを守り続けるかをテストすることです。最も難しいジェイルブレイクテストの一つで、GPT-4.0は0から100のスケールで22点を取りましたが、01プレビューモデルは84点を取りました。詳細はシステムカードと研究投稿で読めますよ。
これらのモデルの新しい能力に合わせて、安全性の取り組み、内部ガバナンス、連邦政府との協力を強化しました。数週間前に読んだように、OpenAIが政府と直接協力していて、新しいモデルを見せたという情報が報告されました。今や、それが真実だったようですね。ちなみに、The Informationはこれらの報告の多くで正確でした。数週間前から購読し始めましたわ。
これには、準備態勢フレームワークを使用した厳密なテストと評価、最高レベルのレッドチーミング、安全性とセキュリティ委員会を含む取締役会レベルのレビュープロセスが含まれます。
では、これらの新しいモデルは誰向けなんでしょうか？これらの強化された推論能力を持つ非常に有能なモデルは、科学、コーディング、数学、および類似の分野の複雑な問題に取り組む場合に特に役立つかもしれません。
ちょっと待ってくださいよ。博士レベルの推論、数学、論理のすべてをエージェントのフレームワークに組み込むことを想像してみてください。複数の博士が協力して最高の回答を出すことを想像してください。今、01をSakana AIのAI研究者プロジェクトに組み込んだら、突然新しい研究を生み出し始めるんです。これは本当に、Situational Awarenessが以前話していた知能爆発の変曲点のように聞こえますね。
AIにとって非常にエキサイティングな時代ですわ。例えば、01は医療研究者が細胞シーケンシングデータに注釈を付けたり、物理学者が量子光学に必要な複雑な数式を生成したり、あらゆる分野の開発者が多段階のワークフローを構築し実行したりするのに使えます。
私が見る限り、実際にどのように動作するかについての情報はほとんど減らされていないようです。反射が動作するはずだったように、多くのトークンを出力してからそれらのトークンについて反省し、時間をかけて見直すのでしょうか？実際にどのように動作するのかは本当にわかりません。おそらくQARのビデオで話したようなものを使用していると思いますが、もちろんOpenAIはその情報を公開しないので確実には言えません。
ここに、生物学の質問でモデルをプロンプトする生物学者がいます。どうなるか見てみましょう。はい、そこで考えています。11秒間考えて、今や出力しています。
これは、DevonというフルスタックAIプログラマーを開発しているCognition AIの創業者です。この新しいモデルにアクセスできたようで、もしかしたらDevonにすでに組み込んでいるのかもしれません。このビデオを少し見てみましょう。
はい、Cognition AIでは、最初の完全に自律的なソフトウェアエージェントであるDevonを構築しています。つまり、Devonはゼロからタスクを構築し、ソフトウェアエンジニアと同じように問題に取り組むことができるんです。ここで実際に、このツイートの感情を分析するようDevonに頼みました。いくつかの異なるMLサービスを使用して、そのまま実行し、この特定のテキストを分解して、感情が何かを理解するようにしました。すべてを完了し、このツイートの主な感情は幸福だと言っています。
DevonがストロベリーO1、whatever you want to call itで強化されているように見えますが、ここで重要なのは、O1やOpenAIのモデルが良くなればなるほど、Devonを実行するために必要な全体的なフレームワークが実際には less necessaryになるということです。Devonのようなものが行っていたことの多くは、これらのモデルが失敗する部分をある程度smoothing outすることでした。複数回試行し、コードをテストし、他のすべてのことを行うことを可能にしていましたが、実際にモデルが良くなればなるほど、Devonのような世界からその努力の多くを取り除くことになります。
そうすると、Devonたちはどうなるのでしょうか？おそらくまだ余地はありますが、Devonと競争したい他のすべてのスタートアップの参入障壁も下げることになります。
また、O1ミニもリリースしています。ミニという名前から、より小さく、より速く、そしてずっと安いモデルになることがわかりますね。読んでみましょう。
O1シリーズは、複雑なコードを正確に生成し、デバッグすることに優れています。これにより、AIがコードの大部分を、そして最終的にはすべてを書くという移行が加速されるでしょう。開発者により効率的なソリューションを提供するために、より高速で安価な推論モデルであるOpenAI O1ミニもリリースしています。コーディングに特に効果的な小さなモデルとして、O1ミニはO1プレビューよりも80%安くなっています。
これは素晴らしいですね。ちなみに、これらのすべてのモデルのテストビデオを作成する予定ですよ。
次は何でしょうか？これは、ChatGPTとAPIでのこれらの推論モデルの早期プレビューです。モデルの更新に加えて、ブラウジング、ファイルと画像のアップロード、その他の機能を追加して、誰にとってもより有用なものにすることを期待しています。
これがOpenAIのモデルファミリーの未来のようですね。GPT-4ではなく、これがそうです。これがOrionかもしれません。O1、Orionと呼ばれているので理にかなっています。
もちろん、彼らはO1がスネークゲームを作成するデモビデオをリリースしました。見てみましょう。
プロンプトは「HTML、JS、CSSでスネークを実装してください。コード全体は、埋め込まれたJSとCSSを含む単一のHTMLブロックに書かれるべきです。リモートアセットは使用しないでください」となっています。どうなるか見てみましょう。
考えています。考えて、考えて、そしてバーンと出力します。lightning fastに見えますね。確かに、GPT-4.0や even GPT-4でもこれはできたので、そんなに素晴らしいデモではありませんが、それでも面白いです。これは、テトリスに切り替える前に、以前のすべてのモデルをテストするのに使用したテストだったからです。この新しいモデルでテトリスをテストする必要がありますね。
はい、スネークゲームができました。いいですね、まあまあです。
技術論文を少し読んでみましょう。また、あまり興奮しないでください。どのように動作するかについての詳細はあまり公開されていませんから。
O1は、競技プログラミングの質問でパーセンタイル順位89位、USAマスオリンピックの予選で米国の上位500人の学生の中に入り、物理学、生物学、化学の問題のベンチマークで人間の博士レベルの精度を超えています。ワオ、新しい科学を発見するために、これらを何百、何千、何百万と24時間稼働させることを想像してみてください。本当に、前に言ったように知能爆発のように感じますね。
大規模な強化学習アルゴリズムは、非常にデータ効率の高い訓練プロセスで、思考の連鎖を使用して生産的に考える方法をモデルに教えます。思考の連鎖が推論時に組み込まれて実行されるようです。これが「考える」ことの正体なんですね。
O1のパフォーマンスは、強化学習の訓練時間（計算）と、考える時間（テスト時の計算）に一貫して向上することがわかりました。このアプローチをスケールアップする制約は、LLMの事前訓練のものとは大きく異なり、引き続き調査中です。
ここでいくつかのベンチマークを見ることができます。これはAIM 2024の数学コンペティションです。GPT-4.0が13.3%、O1プレビューが56%、O1が83%までいっています。今日アクセスできるのはO1プレビューだけですね。コンペティションコードでは、GPT-4が41%、O1が89%です。博士レベルの科学の質問では、実際GPT-4.0はかなりよく機能しましたが、O1プレビューはずっと上の78.3%です。
ここにはたくさんのベンチマークテストと大学のコースがあります。この赤オレンジ色がGPT-4.0で、青色がO1の改善です。物理学では本当にパフォーマンスが向上しました。多くの推論が重要なベンチマークで、O1は人間の専門家のパフォーマンスに匹敵します。もう、この時代にこの場所にいて、人工知能をカバーできるなんて、本当にクレイジーですわ。世界が目の前で変わっていくのを感じます。
そして、これを見てください。最近のフロンティアモデルは数学とGSMaKでとてもよく機能するので、これらのベンチマークはもはやモデルを区別するのに効果的ではありません。新しいベンチマークを考え出さなければなりませんでした。アメリカで最も優秀な高校生数学生を挑戦させるように設計されたAIMIMという試験で数学のパフォーマンスを評価しました。
ちょっと思考の連鎖について話しましょう。人間が難しい質問に答える前に長い時間考えるのと同じように、O1は問題を解決しようとするときに思考の連鎖を使用します。強化学習を通じて、O1は思考の連鎖を磨き、使用する戦略を洗練させることを学びます。間違いを認識して修正することを学び、複雑なステップをより単純なものに分解することを学び、現在のアプローチがうまくいかないときに別のアプローチを試すことを学びます。
でも、まだ疑問に思うのは、これを推論時に行っているのか、それとも出力してから反省しているのかということです。おそらく、今後数週間で人々がいじり回すにつれて、もっと情報が得られると思います。
以下にたくさんの例があります。いくつか見ていきましょう。左にGPT-4.0、右にO1プレビューがあります。これは暗号テストです。
まずGPT-4.0を見てみましょう。基本的に鍵となる一連の文字と、その一連の文字が何を意味するかが与えられています。そして、上の例を使って解読し、新しい一連の文字を与えられ、その暗号を使って今提供しているものを解読するように言われています。
ステップバイステップで分解してみましょう。もちろん、それはいいですね。これは基本的にやるべきことです。GPT-4.0は見て、何が起こっているのかを理解しようとします。フレーズを解読してみましょう。文字をどのように分解して解読できるかの例をいくつか挙げています。しかし、最後に「追加の解読ルールを提供できますか？」と言っています。
では、O1プレビューを見てみましょう。同じ質問です。実際にクリックして思考の連鎖が起こっているのを見ることができます。まず、ここで何が起こっているのか。与えられたものは...与えられたものは...基本的に何が起こっているのかを理解しようとしていて、そうしています。そしてたくさんあります。本当にたくさん。どれだけ理解しようとしているか見てください。そしてこれらすべてが起こっていて、それが時間がかかっている理由です。思考の時間ですね。
思考の連鎖を隠して、それを見てみましょう。暗号文の例がthingとして解読されました。ステップバイステップで、そして見てください。これがどれだけ複雑か。そして最後に、Strawberryには3つのRがあります。そこにありますね。たくさん考えて理解できたんです。
次はコーディングを見てみましょう。これはGPT-4に戻ります。フォーマットの文字列として表された行列を取り、同じフォーマットで転置を出力するbashスクリプトを書いてください。ここにあります。コードを書いていますが、最後は正しくありません。この出力は転置された行列を表しています。
同じことをO1プレビューでやってみましょう。思考の連鎖。まず、入力と出力のフォーマットを理解しましょう。全体的なタスクの制約、アプローチ、実装手順。引数として入力文字列を取得し、スペースを削除...基本的に、実際に実行する前にどのようにアプローチすべきかを正確に理解しようとしています。
そして実際にコードのスケルトンをそこに書いています。最後にここにあります。シェルスクリプトがあり、パラメータを渡すことができ、そして完璧に実行しています。非常に印象的ですね。
数学を見てみましょう。同じことです。記号や指数を含む複雑な数式を見てください。非常に複雑です。GPT-4.0を見てみましょう。推論時にすべてを実行し、最後にそこに最終的な数字があります。
では、O1プレビューを見てみましょう。思考の連鎖。実際に計画を実行する前にどれだけ考えているか見てください。これらすべて、ただ考えて、考えて、考えて、考えています。
彼らには多くの例があります。クロスワード、英語、科学、安全性、ヘルスケアなどです。
こちらは人間の好みの評価です。試験や学術的なベンチマークに加えて、幅広い分野の難しいオープンエンドのプロンプトに対するO1プレビュース対GPT-4.0の人間の好みも評価しました。見てみましょう。
個人的な文章では、実際にはGPT-4.0ほどうまく機能せず、人間の好みでも同様でした。テキストの編集ではほぼ同じで50/50です。コンピュータプログラミングでは優れ始め、データ分析も同様で60%の勝率です。そして数学的計算では70%を大きく上回っています。明らかな勝者ですね。
安全性のベンチマークもあります。有害なプロンプトに対する安全な完了の割合は、GPT-4.0が99%、O1プレビューが99.5%です。素晴らしい。有害なプロンプト、挑戦的なジェイルブレイク、エッジケースに対する安全な完了の割合は、GPT-4.0が71%、O1プレビューが93%です。プライユーさん、あなたの前には本当に大変な仕事がありますね。思考の連鎖を隠すことについて。
隠された思考の連鎖は、モデルをモニタリングするユニークな機会を提供すると私たちは考えています。それが忠実で読みやすいものであると仮定すると、隠された思考の連鎖によって、モデルの心を読み、その思考プロセスを理解することができます。例えば、将来的には、ユーザーを操作しようとする兆候がないかどうか、思考の連鎖をモニタリングしたいかもしれません。これはクレイジーですね。
しかし、これが機能するためには、モデルが変更されていない形で自由に思考を表現する必要があります。したがって、思考の連鎖にポリシーコンプライアンスやユーザーの好みを訓練することはできません。つまり、思考の連鎖は野生のままです。また、整列されていない思考の連鎖をユーザーに直接見せたくもありません。
さっきのデモでは見せたけど、実際の出力では見せへんようですな。それを見て調べるのは面白いでしょうね。
ほな、グレッグ・ブロックマンが休暇から戻ってきて、この新しいモデルO1について話してますわ。「答える前に問題について懸命に考えるように強化学習で訓練された最初のモデルです。チームを本当に誇りに思います。これは膨大な機会を秘めた新しいパラダイムです。これは定量的にも定性的にも明らかで、モデルの心を読むことができ、英語でプレイすることができます。」
これについて考える一つの方法は、私たちのモデルがシステム1思考を行うのに対し、思考の連鎖がシステム2思考を解放するということです。人々はしばらく前に、モデルにステップバイステップで考えるようにプロンプトを与えるとパフォーマンスが向上することを発見しましたが、試行錯誤を通じてエンドツーエンドでこれを行うようにモデルを訓練することははるかに信頼性が高く、碁やDOTAのようなゲームで見られるように、非常に印象的な結果を生み出す可能性があります。
つまり、推論時に思考の連鎖を行うように訓練されているんですね。
さあ、試してみましょう。いくつかのテストをしてみます。今は完全なテストはしませんが、いくつか試してみますわ。
「Pythonでテトリスゲームを書いてください」
はい、思考プロセスの一部が見えますが、舞台裏の生の思考の連鎖ではないと思います。
複雑な概念を批評し、オプションを検討し、テトリスをテトリスで包み、評価し、作成し、マッピングし、ゲームをセットアップし、ゲームメカニクスを簡略化し、ゲームメカニクスを洗練させ、テクノロジーを強化しています。ワオ、これは本当に長い時間がかかっていますね。おそらく20〜25秒くらい考えているでしょう。
コントロールのマッピング、調整、統合、ミニゲームのコントロールの調整。はい、まだ考えています。おそらく45秒くらい経っています。
さあ、ここで出力が出ました。出力自体は実際にかなり速いです。はい、本当に速いですね。今見てみると、ミニモデルのように見えますが、そうではありません。これはO1プレビューです。ミニモデルがどれだけ速くなるか想像してみてください。そしてそれは良いことです。このモデルが超遅かったら、ほとんどの使用ケースでは基本的に使えないでしょうから。
全部で94秒考えました。かなり長いですね。
さあ、試してみましょう。ゲームができました。プレイしてみましょう。あ、動きませんでした。属性エラーです。Tetrisgameオブジェクトにlocked_positions属性がありません。残念。
エラーを与えて、修正できるか見てみましょう。単純にエラーをウィンドウにコピーペーストします。何が起こるか見てみましょう。
はい、また考えています。問題を分析しています。確かに、まだどのモデルもテトリスを完成させていません。いくつかしかテストしていませんが、まだ起こっていません。
エラーについて申し訳ありません。この問題は、self.locked_positions属性が初期化される前にアクセスされているために発生しています。わかりました。完全に修正されたコードを。はい、いいですね。
完全に修正されたコードを待っています。はい、新しいコードが出ました。考えるのに11秒しかかかりませんでした。では試してみましょう。コードをコピーして、もう一度貼り付けます。もう一度プレイしてみましょう。
おお、ほら見てください。確かに完璧からはほど遠いですが、まあまあです。今まで見たことのないくらい良いです。
信じられません。中に別のテトリスゲームがあるのは少し変ですね。なぜそうなっているのかわかりません。でも、ピースを動かすことができ、速度を落とすこともできます。はい、これは非常に印象的です。なぜテトリスの中にテトリスを入れたのかわかりませんが、ほら、これがどれだけクールか見てください。
行をクリアしたらどうなるか見てみましょう。機能するでしょうか？はい、はい、機能しました。これは素晴らしい。とても感動しました。
スコアは出ませんでしたし、制御できない奇妙な小さなミニゲームがありますが、でも、とても印象的ですよ。
さあ、このビデオの最後のテストですが、もちろん完全にテストする予定なので、楽しみにしていてくださいね。
「このプロンプトへの回答に何単語ありますか？」
どうなるか気になります。背景に多くの思考の連鎖があるので、それらすべてを回答に含めるのでしょうか？見てみましょう。
矛盾するクエリに対処し、単語数を数え、単語のパターンを識別しています。ほら見てください。「この文には7つの単語があります」1、2、3、4、5、6、7。ワオ、これは実際に初めて正解したと思います。公式に正解しました。これはクレイジーですね。
矛盾するクエリに対処：自己参照と応答の長さを決定する矛盾した質問に取り組んでいます。明確さと一貫性を確保するために、不必要なコンテンツを避けることが重要です。
そこにありますね。信じられません。このモデルをもっとテストするのがとても楽しみです。まだ登録していない方は、ぜひ登録してください。OpenAIのこの新しいモデルセットについて、もっとたくさんのビデオがありますから。これは知能爆発の始まりかもしれません。
このビデオを楽しんでいただけたなら、ぜひいいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？