見出し画像

OpenAIは推論モデル、o1-preview および o1-miniをリリース

本日日本時間の2時に、予定通りOpenAIがStrawberry、あるいはQ*と呼ばれていたモデルをリリースしました。

公式では、「o1 ChatGPT PlusとTeamユーザーは、今日からChatGPTでo1モデルにアクセスできるようになります。」とありますが、日本では地域的な制限がある可能性があります。モデルは手動モデル ピッカーで利用できるはずですが、場所によっては、地域のインフラストラクチャやリリース タイムラインに関連する遅延や制限が発生する可能性があります。


数時間かけて段階的に増加

サム・アルトマンは「数時間かけて段階的に増加」とXへのポストで言っていますのでいずれはChatGPTのUIに選択肢が現れるものと思われます。数時間以内には選択肢が現れることを期待しても良いと思います!

「o1-preview と o1-mini はどちらもモデル ピッカーで手動で選択でき、起動時の週あたりのレート制限は、o1-preview の場合は 30 メッセージ、o1-mini の場合は 50 メッセージになります。」とのことですが、まだ筆者のChatGPT Plusの選択肢にはo1-preview と o1-miniが表示されていないようです。OpenAI が安定したパフォーマンスを確保するためにこれらの機能を段階的に展開している可能性があります。大学の研究室など必要なユーザーには表示されているかもしれません。

推論を解く様子を動画で紹介したポスト

下記のOpenAI公式ポストではOpenAI o1 は複雑な論理パズルを解く様子を紹介しています。

公式が動画で紹介するOpenAI o1回発メンバー

本当に、東アジア人率が高いです。まるで数学オリンピック上位入賞者のグループをみているかのようです。やはり米国の宝は移民でしょうね。
アメリカには、EB-1ビザH-1Bビザといった特殊技能を持つ人々を優遇する移民ビザ制度があります。特に、科学、技術、工学、数学(STEM)分野で優れた能力を持つ人材を呼び込むことを目的としています。この政策がAIの未来を支える多様で優れた人材を引き寄せている背景があるので、移民の力が非常に重要ですね。

o1-previewの性能について

人間の博士レベルの精度を超えた

OpenAI o1は、競技プログラミングの質問(Codeforces)で上位89パーセンタイルにランクインし、アメリカ数学オリンピック予選(AIME)では全米のトップ500人の生徒に匹敵する成績を収め、物理学・生物学・化学の問題(GPQA)のベンチマークでは博士号取得者レベルの精度を超えています。
数学やコーディングでも優れた成果を見せています。国際数学オリンピック(IMO)の予選試験では、GPT-4oが問題の13%しか解けなかったのに対し、推論モデルは83%の問題を解答しました。コーディング能力もCodeforcesの競技プログラミングで上位89パーセンタイルに達しました。

大規模な強化学習アルゴリズムにより、このモデルは効率的なデータ訓練プロセスを通じて、思考の連鎖を活用して生産的に考える方法を学習します。私たちは、強化学習(訓練時の計算量)と、より長い時間をかけて思考すること(テスト時の計算量)がモデルのパフォーマンス向上に一貫して寄与することを発見しました。公式によるとこのアプローチのスケーリングに関する制約は、LLM(大規模言語モデル)の事前学習とは大きく異なり、引き続き調査を進めているとの事です。

o1-previewの使い方

このモデルは、人間が問題を考えるように、回答する前に問題をより深く考える訓練を受けています。訓練を通じて、思考プロセスを洗練させ、異なる戦略を試し、ミスを認識できるように学習します。

この初期モデルは、Web検索やファイル、画像のアップロードなど、ChatGPTに必要な機能の多くをまだ持っていません。多くの一般的なケースでは、当面の間、GPT-4oの方がより優れた能力を発揮します。

しかし、複雑な推論タスクにおいては、このモデルは大きな進歩を遂げており、AIの新たなレベルの能力を示しています。このため、シリーズ名を「OpenAI o1」としてカウンターをリセット(注01)しています。

※注01:「カウンターをリセットする」という表現は、進化や成長を新しい基準で測り直すという意味合いがあります。新しいシリーズ(o1)が始まったことで、これまでのモデル(例えばGPT-4など)とは異なる能力や特徴を持つ新たなステージがスタートするため、過去の実績やカウンターをリセットして、新しいスタートを切るということです。

o1-previewの安全性

この新しいモデルを開発する過程で、OpenAIは推論能力を活用し、安全性や適合性に関するガイドラインをより効果的に守らせる新しい安全性トレーニングのアプローチを考案しました。モデルが文脈に応じて安全ルールを推論できることで、これらのルールをより効果的に適用できるようになります。

安全性を評価する方法の一つとして、ユーザーがモデルの安全ルールを無視しようとする(これを「ジェイルブレイク」と呼びます)状況でも、どれだけルールを守り続けるかをテストします。最も難しいジェイルブレイクテストの一つでは、GPT-4oが22点(100点満点中)だったのに対し、o1-previewモデルは84点を獲得しました。この詳細は、システムカードや研究報告で確認できます。

これらの新しいモデルの能力に対応するために、安全性に関する取り組みを強化し、内部ガバナンスや連邦政府との協力体制も強化しました。これには、Preparedness Frameworkを用いた厳格なテストや評価、最先端のRed Teaming、および安全・セキュリティ委員会による理事会レベルのレビューが含まれます。

また、AIの安全性に対する取り組みを進めるために、最近アメリカとイギリスのAI安全研究所と正式な協定を結びました。この協定には、研究所に対してモデルの研究バージョンへの早期アクセスを提供することが含まれ、これは将来のモデルの公開前後における研究、評価、テストのプロセスを確立する重要な第一歩となりました。

o1-preview利用の対象となる人々

この強化された推論能力は、科学、コーディング、数学などの分野で複雑な問題に取り組んでいる場合に特に有用です。例えば、o1は、医療研究者が細胞の配列データを注釈付けするため、物理学者が量子光学に必要な複雑な数学的式を生成するため、そしてあらゆる分野の開発者が多段階のワークフローを構築し実行するために活用できます。

o1-previewのリリースは、主に技術的なロールアウトの段階にあり、地域ごとにリリースのタイミングが異なる可能性があります。また、このモデルは複雑な推論や高度なタスクに特化しているため、一般ユーザーにも少しずつ展開される計画があるはずです。
もし特定の科学、数学、コーディングの複雑なタスクを行う場合、優先的に提供される可能性があるかもしれませんが、基本的には全ユーザーがいずれ利用できるようになるはずです。

OpenAI o1-mini

o1 シリーズは、複雑なコードを正確に生成し、デバッグすることに優れています。開発者にとってより効率的なソリューションを提供するために、コーディングに特に効果的な、より高速で安価な推論モデルである OpenAI o1-mini もリリースします。小型モデルである o1-mini は o1-preview よりも 80% 安価で、推論は必要だが広範な世界知識は必要ないアプリケーション向けの強力でコスト効率の高いモデルです。

今後の展望

これは、ChatGPTおよびAPIにおける推論モデルの初期プレビュー版であり、モデルのアップデートに加えて、より多くの人に役立つように、Webブラウジングやファイル・画像のアップロード機能なども追加する予定との事です。

また、OpenAI o1シリーズに加えて、GPTシリーズのモデルの開発およびリリースも引き続き行っていく計画があるそうです。

OpenAI関係者からのポスト

CEOサム・アルトマンがXへポストしています。

なんと、年末まで休暇を取るといってOpenAIを離れていたグレッグ・ブロックマンOpenAI社長も下記のようにXにコメントを寄せています。

グレッグ・ブロックマンのポストでは、OpenAIの新しいo1モデルについて説明されています。このモデルは、強化学習を使って問題に対する深い推論を行うように訓練されており、「System II思考」を可能にすることで複雑な問題の解決に役立ちます。また、安全性や信頼性の向上に繋がる可能性もあり、モデルは政策についても「chain of thought」を通じて推論する能力が向上しています。さらに、競技プログラミングでの成績が、人間の条件下では49パーセンタイルでしたが、より多くの提出回数で金メダル基準を超えるスコアを達成した点にも触れています。

グレッグのポストに対する下記のリポストから分かることは、グレッグ・ブロックマンがo1モデルの開発に大きく関わった後、休暇を取り、そして、その間にOpenAIチームは、安全性のテストや評価、リリースに向けた準備を進めていたんだと推測しています。グレッグのポストからも、新しい「chain of thought」アプローチが導入され、モデルの安全性や推論能力が大きく改善されたことがわかります。それを完成させた後に、グレッグが一息ついているという流れかもしれませんね。

また、OpenAIの研究者であるNoam Brown 氏もOpenAI o1のリリースを告知しています。

Noam Brown 氏は、ポーカーをプレイする AI など、ゲーム理論のための AI の開発で特に有名な AI 研究者です。上記の投稿を見ると、彼は OpenAI の新しい o1 モデル シリーズの開発にも関わっているようです。このプロジェクトに関与している主要な開発者または研究者の 1 人であると推測できます。

また、別のOpenAIの開発者からも使用時の注意についてコメントが寄せられました。スティーブン・ハイデル氏の言葉から察すると、o1モデルは従来のモデルと異なり、複雑で誤りが多いプロンプト(人間がよく使う不完全な入力)には最適に対応できない可能性があるということかもしれません。o1は新しいアプローチを取っているため、従来の慣れた方法では結果が期待通りでない場合があるという意味です。だから、シンプルでわかりやすいプロンプトを使うことで、より正確な結果が得られるとアドバイスしています。

o1は単なる新しいモデルではなく、新しいパラダイムです。既存のプロンプトが機能しなかったり、モデルが新しい種類の間違いを犯したりすると、驚くかもしれません。最良の結果を得るには、プロンプトをシンプルかつ直接的なものにしてください。

急に進化したかに見えるミーム

下記のミームはAIの発展に関する「スロー・テイクオフ」(slow takeoff)の概念を表現しています。「スロー・テイクオフ」とは、AIが急速に進化せず、徐々に進歩していくシナリオのことを指します。

絵の中で、2人のキャラクターの一人が地面に横たわっており、もう一人がその人物を見下ろして話しています。「slow takeoff world」という言葉から、このシーンは、キャラクターたちのゆるい姿勢や落ち着いた会話のトーンは、「今はまだ劇的な変化が起こらず、ゆっくり進んでいる」といった諦めにも似た雰囲気を示唆しています。
「スロー・テイクオフ」と思っていた人々が気づかないまま、ある瞬間から急激に進み出すという「急激な技術進化(シンギュラリティ)」の可能性を暗示しています。

ユーザーの反応

下記のユーザーはサム・アルトマンに感謝しているようです。

o1 is cracked」という表現は、スラングで「o1モデルが非常に優れている」または「強力である」という意味です。「cracked」はゲーマーやテクノロジー界隈でよく使われる言葉で、何かが「とても強い」または「予想以上にパフォーマンスが高い」ということを指します。この場合、o1モデルが想像以上に優秀で、難しい問題を簡単に解決できるといった意味で使われています。

彼の共有した動画は、ChatGPT o1-previewのインターフェースが表示されており、特定のタスクに取り組んでいる様子を示しています。画面上部では「Examining duplicate links」というタイトルが見えます。このセッションでは、重複したリンクを解析するタスクに関連するプロセスが記述されています。

  • Enhancing efficiency(効率向上): 重複したリンクのバグ修正や、失敗時の処理改善に焦点を当てていることが述べられています。ここでは、特定のエージェントが1リンクごとに1回だけ実行されるようにすることで、パフォーマンスを向上させているとのことです。

  • Breaking down the process(プロセスの分解): 新しいキャンペーンのタスクを整理し、クエリの生成、検索の実行、リンク処理、重複リンクのリトライ処理を担当しています。

  • Addressing job efficiency(作業効率の改善): 重複したリンクやジョブのリトライメカニズムの問題を検討している様子が説明されています。研究機能の最適化を図り、重複を最小限に抑え、無駄なリトライを防ぎ、効率を向上させることが目的とされています。

この投稿の「o1 is cracked」は、o1モデルが非常に強力であり、問題を効率的に解決できることを称賛しているようです。

また、下記のポストでは音声モードが利用できる事に驚いているようです。

文章中に隠れたパターンを織り込む高度なスキル

下記のポストは、OpenAI o1が「CODE」という文字列を、文章の各単語の2文字目を使って自然に構成するというタスクをクリアした事を紹介しています。これは、普通の文章の中に隠れたパターンを織り込むという高度なスキルで、他のモデルでは難しいとされていました。この例では、非常に巧妙に自然な文章を作成しつつ、その中に「CODE」を埋め込むことができたということですね。

ベンチマーク

下記のユーザーは旧来のGPT-4oとの比較ベンチマークを共有していますので、下記にその優れたスペックを解説していきます。

このスクリーンショットは、OpenAIの新しいo1モデルと以前のGPT-4oの性能を比較したもので、特に、「推論能力(reasoning)」に関するさまざまなテストでの結果が示されています。

1. 数学とプログラミングのコンペティション

  • Competition Math (AIME 2024): 数学コンペティションのテストで、o1は正確率83.3%を達成し、GPT-4oの13.4%を大きく上回っています。この大幅な向上は、o1が複雑な数式や問題を解決する能力に優れていることを示しています。

  • Competition Code (Codeforces): プログラミングの競技においても、o1は89.0%の正確率を達成し、GPT-4oの11.0%を大きく引き離しています。これは、コード生成やデバッグの精度が格段に向上していることを意味します。

2. 博士レベルの科学質問

  • PhD-Level Science Questions (GPQA Diamond): 物理、化学、生物学に関する博士レベルの科学質問でも、o1は総じて非常に高い性能を示しています。特に物理(92.8%)や化学(64.7%)で大きな改善が見られます。これは、科学的な推論や高度な知識に基づいた解答の正確性が向上していることを示しています。

3. ML(機械学習)ベンチマーク

  • ML Benchmarks: 機械学習関連のベンチマークでも、o1はGPT-4oを大幅に上回っています。特にMATH-500やMMLUといった重要なベンチマークで、o1は非常に高い正確性を達成しています。例えば、MMLUでは88.0%から92.3%へと向上しています。

4. 試験パフォーマンス

  • Exams: AP物理やAP化学、SAT数学などの試験でも、o1はGPT-4oよりも優れたパフォーマンスを示しています。特にSAT数学では満点の100%を達成しています。この結果から、o1は学生の試験準備や高度なアカデミックなタスクにも非常に役立つことが示されています。

5. 多様なMMLUカテゴリー

  • MMLU Categories: さらに、MMLU(Massive Multi-task Language Understanding)のカテゴリーでも、o1は多くの分野でGPT-4oを上回っています。例えば、プロフェッショナル・ロー(Professional Law)や経済学(Econometrics)では非常に高いスコアを達成しています。

o1がどれほど強力であるか、そして未来のAIアプリケーションにどれほどの影響を与えるかわかりますね!

OpenAI o1の安全性

OpenAI Newsroomのポストでは、OpenAI o1のプレビュー版が公開されたことが発表されています。このo1モデルは、新しいAIモデルシリーズの最初のものであり、特に文脈に基づいて安全ルールを推論し、それを効果的に適用できる点が強調されています。

また、Preparedness Frameworkという枠組みの中で、厳格なテストと評価が行われた結果、安全性が確認されたとも述べられています。このフレームワークに基づき、o1-previewモデルは十分な安全対策が講じられており、AIが規定のルールを守りながら高度な推論ができることが確認されたようです。

OpenAI の安全性のページ

OpenAI の安全性のページでは、AI の安全性に対する同社のアプローチが強調されており、教育、テスト、および安全対策の継続的な改善に重点を置いています。専門家とのコラボレーション、現実世界でのテスト、偏見、誤報、プライバシーなどのリスクに対処する透明性を重視しています。OpenAI は、強力な AI モデルからのリスクを追跡および軽減するために使用される Preparedness Framework についても説明しています。このページには、新しい o1 モデルを含むさまざまなモデルの安全対策の詳細を示すシステム カードが用意されています。


この記事が気に入ったらサポートをしてみませんか?