GPT-4o mini の概要

2024年7月19日 07:02

以下の記事が面白かったので、簡単にまとめました。

・GPT-4o mini: advancing cost-efficient intelligence

1. GPT-4o mini の概要

「GPT-4o mini」は、インテリジェンスをより手頃な価格にすることで、AIで構築されるアプリの範囲を大幅に拡大すると期待しているモデルです。MMLUで82%のスコアを獲得し、現在「LMSYS leaderboard」のチャットで「GPT-4」を上回っています。価格は、入力トークン100万個あたり15セント、出力トークン100万個あたり60セントで、以前のモデルよりも1桁手頃な価格で、「GPT-3.5 Turbo」よりも60%以上安価です。

「GPT-4o mini」は、低コストと低レイテンシで、複数のモデル呼び出しを連鎖または並列化するアプリ (複数のAPIの呼び出しなど)、大量のコンテキストをモデルに渡すアプリ (完全なコードベースや会話履歴など)、高速でリアルタイムのテキスト応答を通じて顧客と対話するアプリケーション (カスタマーサポートチャットボットなど) など、幅広いタスクを可能にします。

現在、「GPT-4o mini」は API でテキストとビジョンをサポートしており、将来的にはテキスト、画像、ビデオ、オーディオの入力と出力もサポートされる予定です。このモデルには128Kトークンのコンテキストウィンドウがあり、リクエストごとに最大16Kの出力トークンをサポートし、2023年10月までの知識があります。「GPT-4o」と共有される改良されたトークナイザーのおかげで、英語以外のテキストの処理がさらにコスト効率が良くなりました。

2. 優れたテキストインテリジェンスとマルチモーダル推論を備えた小型モデル

「GPT-4o mini」は、テキストインテリジェンスとマルチモーダル推論の両方の学術ベンチマークで「GPT-3.5 Turbo」や他の小型モデルを上回り、「GPT-4o」と同じ範囲の言語をサポートしています。また、「Function Calling」でも優れた性能を発揮し、開発者がデータを取得したり外部システムでアクションを実行したりするアプリケーションを構築できるようにし、「GPT-3.5 Turbo」と比較してロングコンテキスト性能が向上しています。

「GPT-4o mini」は、いくつかの主要なベンチマークで評価されています。

・Reasoning tasks : 「GPT-4o mini」は、テキストとビジョンの両方を含む推論タスクで他の小型モデルよりも優れており、テキストインテリジェンスと推論のベンチマークであるMMLUで82.0%のスコアを獲得しました。これは、「Gemini Flash」の77.9%、「Claude Haiku」の73.8%を上回っています。

・Math and coding proficiency : 「GPT-4o mini」は数学的推論とコーディングのタスクに優れており、市場に出回っている以前の小型モデルよりも優れています。数学的推論を測定するMGSMでは、「GPT-4o mini」は 87.0% のスコアを獲得しました。これに対し、「Gemini Flash」は 75.5%、「Claude Haiku」は 71.7% でした。コーディング性能を測定するHumanEvalでは、「GPT-4o mini」は87.2%のスコアを獲得しました。これに対し、「Gemini Flash」は 71.5%、「Claude Haiku」は 75.9% でした。

・Multimodal reasoning : 「GPT-4o mini」は、マルチモーダル推論評価であるMMMUでも優れたパフォーマンスを示し、59.4%のスコアを獲得しました。これに対し、「Gemini Flash」は56.1%、「Claude Haiku」は 50.2%でした。

モデル開発プロセスの一環として、「GPT-4o mini」のユースケースと制限をより深く理解するために、信頼できるパートナー数社と協力しました。Rampや Superhumanなどの企業と提携し、領収書ファイルから構造化データを抽出したり、スレッド履歴が提供された場合に高品質の電子メール応答を生成したりするなどのタスクにおいて、「GPT-4o mini」が「GPT-3.5 Turbo」よりも大幅に優れたパフォーマンスを発揮することを発見しました。

3. 組み込みの安全対策

安全性は最初からモデルに組み込まれており、開発プロセスのあらゆる段階で強化されています。事前学習では、ヘイトスピーチ、アダルトコンテンツ、主に個人情報を集約するサイト、スパムなど、モデルに学習させたり出力させたりしたくない情報をフィルタリングします。事後学習では、「RLHF」などの手法を使用して、モデルの動作をポリシーに合わせ、モデルの応答の精度と信頼性を向上させます。

「GPT-4o mini」には「GPT-4o」と同じ安全対策が組み込まれており、OpenAIの準備フレームワークと自主的な取り組みに従って、自動評価と人間による評価の両方を使用して慎重に評価しました。社会心理学や誤情報などの分野の70人以上の外部専門家が「GPT-4o」をテストして潜在的なリスクを特定しました。これらのリスクには対処済みで、今後の「GPT-4o」システムカードと準備スコアカードで詳細を共有する予定です。これらの専門家による評価から得られた知見は、「GPT-4o」と「GPT-4o mini」の両方の安全性の向上に役立っています。

これらの学習を基に、私たちのチームは研究から得た新しい手法を使用して「GPT-4o mini」の安全性の向上にも取り組みました。APIの「GPT-4o mini」は、私たちのinstruction hierarchyメソッドを適用した最初のモデルであり、ジェイルブレイク、プロンプトインジェクション、システムプロンプト抽出に抵抗するモデルの能力を向上させるのに役立ちます。これにより、モデルの応答の信頼性が高まり、大規模なアプリでの使用がより安全になります。

4. 提供状況と利用料金

「GPT-4o mini」は、「Assistant API」、「Chat Completions API」、「Batch API」でテキストおよびビジョンモデルとして利用できるようになりました。開発者は、入力トークン100万個あたり15セント、出力トークン100万個あたり60セント (標準的な書籍の 2,500 ページにほぼ相当) を支払います。今後数日中に「GPT-4o mini」のファインチューニングを展開する予定です。

ChatGPTでは、Free、Plus、Team ユーザーは、GPT-3.5 の代わりに、本日より「GPT-4o mini」にアクセスできるようになります。AIのメリットをすべての人に提供するという当社の使命に沿って、エンタープライズユーザーも来週からアクセスできるようになります。

5. 今後の展望

コストを削減しながらモデル機能を強化するというこの軌道を継続することに注力しています。

OpenAIでは、モデルがあらゆるアプリやあらゆる Web サイトにシームレスに統合される未来を思い描いています。「GPT-4o mini」は、開発者が強力なAIアプリをより効率的かつ手頃な価格で構築および拡張するための道を切り開いています。

この記事が気に入ったらサポートをしてみませんか？