OpenAI o1 の概要

2024年9月13日 03:23

以下の記事が面白かったので、簡単にまとめました。

・Introducing OpenAI o1-preview

1. OpenAI o1

「OpenAI o1」は、応答する前により多くの時間をかけて思考するように設計された新しいAIモデルシリーズです。以前のモデルよりも複雑なタスクを推論し、科学、コーディング、数学の分野でより難しい問題を解決することができます。

・o1-preview : o1モデルの早期プレビューモデル。世界に関する幅広い一般知識を使用して難しい問題を推論できるように設計されている。
・o1-mini : より高速で安価なo1モデル。広範な一般知識を必要としないコーディング、数学、科学のタスクに長けている。

本日 (2024年9月12日)、このシリーズの最初のモデルをChatGPTおよびAPIでリリースします。これはプレビュー版であり、今後も定期的な更新と改善を予定しています。

2. OpenAI o1 のしくみ

「OpenAI o1」は、これらのモデルが応答する前に問題をよく考えるように学習しました。まるで人間のように、問題を解決する際により多くの時間をかけて思考します。学習を通じて、思考プロセスを洗練し、異なる戦略を試み、自分のミスを認識することを学びます。

テストの結果、物理学、化学、生物学の難しいベンチマークタスクで博士課程の学生と同等の成績を上げています。また、数学やコーディングの分野でも優れていることが判明しました。国際数学オリンピック (IMO) の予選試験では、GPT-4oは13%の問題しか正解できませんでしたが、推論モデルは83%の正答率を達成しました。コーディング能力はコンテストで評価され、Codeforcesの競技で89パーセンタイルに達しました。詳しくは、テクニカルレポートを参照してください。

このモデルは初期段階であるため、まだWeb閲覧やファイル・画像のアップロードといったChatGPTの便利な機能の多くを備えていません。多くの一般的なケースでは、「GPT-4o」が当面はより高い性能を発揮します。

3. 安全性

これらの新しいモデルを開発する過程で、モデルの推論能力を活用して安全性と整合性ガイドラインに従わせる新しい安全性学習手法を考案しました。モデルは文脈に基づいて安全ルールを推論できるため、ルールをより効果的に適用することができます。

安全性を測定する方法の一つとして、ユーザーがルールを回避しようとする (ジェイルブレイク) 場合に、モデルがどの程度安全ルールに従い続けるかをテストします。最も難しいジェイルブレイクテストの一つでは、「GPT-4o」が0〜100のスケールで22点を獲得したのに対し、「o1-preview」は84点を獲得しました。詳しくはシステムカードやテクニカルレポートを参照してください。

これらのモデルの新しい能力に対応するために、安全性に関する取り組み、内部ガバナンス、そして連邦政府との協力体制を強化しました。これには、「Preparedness Framework」を用いた厳格なテストと評価、最高水準のレッドチーミング、さらに安全保障委員会による取締役レベルの審査プロセスが含まれています。

安全性への取り組みをさらに進めるため、最近、米国および英国のAI安全性研究所との協定を正式に締結しました。これらの協定の運用を開始しており、研究所にはこのモデルの研究バージョンへの早期アクセスを許可しています。この取り組みは、パートナーシップにおける重要な第一歩であり、今後のモデルの公開前および公開後の研究、評価、テストのプロセスを確立するのに役立っています。

4. 対象ユーザー

「o1」の強化された推論能力は、科学、コーディング、数学などの分野で複雑な問題に取り組む際に特に役立ちます。たとえば、医療研究者が細胞シーケンシングデータに注釈を付ける際や、物理学者が量子光学に必要な複雑な数式を生成する際に活用できます。また、あらゆる分野の開発者がマルチステップのワークフローを構築して実行するためにも使用できます。

5. 使い方

・ChatGPT Plus および Team ユーザー
今日からChatGPT内で「o1-preview」「o1-mini」の両方にアクセスできます。開始時の週ごとの利用制限は、「o1-preview」が30メッセージ、「o1-mini」が50メッセージとなります。現在、これらの制限を引き上げるための作業を進めており、将来的にはChatGPTがプロンプトに最適なモデルを自動選択できるようにする予定です。

・ChatGPT Enterprise および Edu ユーザー
来週から両モデルにアクセスできるようになります。

・APIユーザー
API usage tier 5に該当する開発者は、本日から両モデルを使用してプロトタイピングを開始できます。レート制限は20RPM (リクエスト/分) です。さらなるテスト後にこの制限を引き上げる予定です。現在、このモデルのAPIには、関数呼び出し、ストリーミング、システムメッセージのサポートなどの機能は含まれていません。詳しくは、APIドキュメントを参照してください。

・ChatGPT Free ユーザー
将来的に、「o1-mini」へのアクセスを全ユーザーに提供する予定です。