OpenAI の Realtime API の概要

2024年10月2日 06:49

以下の記事が面白かったので、簡単にまとめました。

・Introducing the Realtime API

1. Realtime API

本日 (2024年10月1日)、OpenAIから「Realtime API」が発表されました。これにより、すべての有料開発者がアプリで低遅延のマルチモーダルエクスペリエンスを構築できるようになりました。ChatGPTの「Advanced Voice Mode」と同様に、6つのプリセット音声を使用して自然な speech-to-speech の会話をサポートします。

さらに、「Chat Completions API」にオーディオ入出力が発表されました。これは、「Realtime API」の低レイテンシの利点を必要としないユースケースをサポートします。開発者は任意のテキスト・オーディオを「GPT-4o」に渡し、テキスト・オーディオ・両方を選択して応答させることができます。

2. Realtime API のしくみ

これまで音声アシスタントを実現するには、音声認識モデルで音声を書き起こし、そのテキストをテキストモデルに渡して推論を行い、その出力をテキスト読み上げ機能で再生する必要がありました。このアプローチでは、感情、強調、アクセントが失われ、遅延が顕著になることがありました。

「Chat Completions API」を使用すると、開発者は1回のAPI呼び出しでプロセス全体を処理できますが、人間の会話よりは遅くなります。「Realtime API」は、オーディオ入出力を直接ストリーミングすることでこれを改善し、より自然な会話体験を実現します。また、ChatGPTの「Advanced Voice Mode」と同様に、中断を自動的に処理することもできます。

内部的には、「Realtime API」では「GPT-4o」とメッセージを交換するための永続的なWebSocket接続を作成します。このAPIは「Function Calling」をサポートしています。これにより、音声アシスタントはアクションをトリガーしたり、新しいコンテキストを取得したりして、ユーザーのリクエストに応答できるようになります。

3. Realtime API の利用料金

「Realtime API」は「gpt-4o-realtime-preview」、「Chat Completions API」は「gpt-4o-audio-preview」として、今後数週間以内にリリースされる予定です。

「Realtime API」は、テキストトークンとオーディオトークンの両方を使用します。テキスト入力の価格は 100万トークンあたり5ドル、出力の価格は100万トークンあたり20ドルです。オーディオ入力の価格は100万トークンあたり100ドル、出力の価格は100万トークンあたり200ドルです。これは、オーディオ入力1分あたり約0.06ドル、オーディオ出力1分あたり約 0.24 ドルに相当します。「Chat Completions API」のオーディオも同じ価格になります。

4. 安全性とプライバシー

「Realtime API」は、自動監視やフラグ付きモデルの入力と出力の人間によるレビューなど、複数の安全保護レイヤーを使用して API 不正使用のリスクを軽減します。ChatGPTの高度な音声モードを動かすGPT-4oと同じバージョン上に構築されており、 GPT-4o システムカードに詳述されている「Preparedness Framework」に従った評価を含め、自動評価と人間による評価の両方を使用して慎重に評価しました。高度な音声モード用に構築したのと同じオーディオ安全インフラストラクチャも活用しており、テストではこれが危害の可能性の低減に役立っていることが示されています。

OpenAIのサービスからの出力をスパム、誤解を招く、または他者に危害を加える目的で再利用または配布することは、利用ポリシーに違反します。当社は、潜在的な不正使用を積極的に監視しています。文脈から明らかな場合を除き、開発者がAIとやり取りしていることをユーザーに対して明確に伝えることも義務付けています。

リリース前に、外部のレッドチームネットワークで「Realtime API」をテストしたところ、「Realtime API」によって、既存の緩和策でカバーされていない高リスクのギャップは発生しないことがわかりました。すべてのAPIサービスと同様に、「Realtime API」はOpenAIのエンタープライズプライバシーコミットメントの対象となります。OpenAIは、明示的な許可なしに、このサービスで使用される入力または出力でモデルを学習することはありません。

5. Realtime API をはじめる

今後数日以内に開発者は「Playground」または「ドキュメント」「リファレンスクライアント」で、「Realtime API」をはじめることができます。

また、「LiveKit」や「Agora」と協力して、エコーキャンセラー、再接続、遮音などのオーディオコンポーネントのクライアントライブラリを作成し、「Twilio」と協力して、「Realtime API」を「Twilio Voice API」と統合し、開発者が音声通話を介してAIバーチャルエージェントをシームレスに構築、デプロイ、顧客に接続できるようにしました。

6. 今後の展開

今後導入を予定している機能は、次のとおりです。

・より多くのモダリティ
まず「Realtime API」は音声をサポートし、時間の経過とともにVisionやVideoなどの追加のモダリティを追加する予定です。

・レート制限の引き上げ
現在、APIのレート制限はTier 5 開発者の場合約100同時セッションに制限されており、Tier 1 ～ 4 の場合は制限が低くなっています。今後、より大規模な展開をサポートするために、これらの制限を徐々に引き上げていきます。

・公式 SDK サポート
「Realtime API」のサポートを「OpenAI Python」および「Node.js SDK」に統合します。

・プロンプトキャッシュ
「Prompt Caching」のサポートを追加します。以前の会話ターンを割引価格で再処理できます。

・拡張モデルサポート
「Realtime API」は、そのモデルの今後のバージョンで「GPT-4o mini」もサポートします。