DevDayで発表された新モデルと開発者向け製品GPT-4Turboの128Kコンテキストと低価格化、新しいAssistants API、GPT-4 Turbo with Vision、DALL-E 3 APIなど。

2023年11月7日 19:52

2023年11月6日　（Open AIブログ）
本日、OpenAIのプラットフォームの多くの部分において、数十の新しい追加と改善、そして価格の引き下げを発表しました。これらには以下が含まれます：
新しいGPT-4ターボモデルは、より高性能で安価で、128Kのコンテキスト・ウィンドウをサポートします。
目標を持ち、モデルやツールを呼び出すことができる独自の支援AIアプリを開発者が簡単に構築できるようにする新しいアシスタントAPI
視覚、画像作成（DALL-E 3）、音声合成（TTS）を含む、プラットフォームの新しいマルチモーダル機能
本日午後1時（PT）より、OpenAIのお客様に新機能の提供を開始します。

ChatGPTのOpenAI DevDayアナウンスの詳細はこちら。
GPT-4ターボ128Kコンテキスト
私たちは3月にGPT-4の最初のバージョンをリリースし、7月にGPT-4をすべての開発者が一般的に利用できるようにしました。今日、私たちはこのモデルの次世代であるGPT-4 Turboのプレビューを開始します。
GPT-4ターボはより高性能で、2023年4月までの世界情勢を把握している。128kのコンテキスト・ウィンドウを持ち、300ページ以上のテキストを1つのプロンプトに収めることができます。GPT-4ターボは、GPT-4に比べて、入力トークンで3倍安く、出力トークンで2倍安く提供することができます。
GPT-4ターボはAPIでgpt-4-1106-previewを渡すことにより、すべての有料開発者が試すことができます。
関数呼び出しの更新
関数呼び出しは、あなたのアプリや外部APIの関数をモデルに記述し、モデルにそれらの関数を呼び出すための引数を含むJSONオブジェクトを出力するようにインテリジェントに選択させることができます。1つのメッセージで複数の関数を呼び出す機能を含む、いくつかの改良を本日リリースします：ユーザーは、「車の窓を開けてエアコンを切る」といった複数のアクションを要求するメッセージを1つ送ることができます。また、関数の呼び出し精度も向上しています：GPT-4ターボは正しい関数パラメータを返す可能性が高くなりました。
命令フォローとJSONモードの改善
GPT-4ターボは、特定のフォーマット（「常にXMLで応答する」など）を生成するなど、命令に注意深く従う必要があるタスクにおいて、これまでのモデルよりも優れたパフォーマンスを発揮します。また、モデルが有効なJSONで応答することを保証する新しいJSONモードもサポートしています。新しいAPIパラメータresponse_formatは、モデルが構文的に正しいJSONオブジェクトを生成するように出力を制約することを可能にします。JSONモードは、関数呼び出し以外でチャット完了APIでJSONを生成する開発者にとって便利です。
再現可能な出力とログ確率
新しい seed パラメータは、モデルがほとんどの時間で一貫性のある補完を返すようにすることで、再現可能な出力を可能にします。このベータ機能は、デバッグのためにリクエストを再生したり、より包括的な単体テストを書いたり、一般的にモデルの動作をより高度に制御したりするようなユースケースに便利です。私たちOpenAIは、社内でこの機能をユニットテストに使用しており、非常に貴重なものだと感じています。開発者がこの機能をどのように使うか、楽しみにしています。もっと詳しく
また、GPT-4 TurboとGPT-3.5 Turboによって生成された最も可能性の高い出力トークンのログ確率を返す機能を数週間以内に開始する予定です。

GPT-3.5ターボの更新
GPT-4ターボに加えて、デフォルトで16KコンテキストウィンドウをサポートするGPT-3.5ターボの新バージョンもリリースします。新しい3.5 Turboは、改良された命令フォロー、JSONモード、並列関数呼び出しをサポートしています。例えば、JSON、XML、YAMLを生成するようなフォーマット・フォロー・タスクにおいて、我々の内部検証では38%の改善が見られました。開発者はAPIでgpt-3.5-turbo-1106を呼び出すことで、この新しいモデルにアクセスできます。gpt-3.5-turboの名前を使用しているアプリケーションは、12月11日に自動的に新しいモデルにアップグレードされます。古いモデルには、2024年6月13日までAPIでgpt-3.5-turbo-0613を渡すことでアクセスできます。詳細はこちら。
アシスタントAPI、検索、コード・インタープリター
今日、私たちはAssistants APIをリリースします。これは、開発者が自身のアプリケーション内でエージェントのような体験を構築することを支援するための第一歩です。アシスタントとは、特定の指示を持ち、余分な知識を活用し、モデルやツールを呼び出してタスクを実行できる、目的に特化したAIです。新しいAssistants APIは、Code InterpreterやRetrieval、関数呼び出しなどの新しい機能を提供し、これまで自分で行わなければならなかった多くの重労働を処理し、高品質のAIアプリを構築できるようにします。
このAPIは柔軟に設計されており、自然言語ベースのデータ分析アプリ、コーディングアシスタント、AI搭載のバケーションプランナー、ボイスコントロールDJ、スマートなビジュアルキャンバスなど、使用例は多岐にわたる。アシスタントAPIは、当社の新製品GPTsを可能にする同じ機能、すなわちコード・インタープリタ、検索、関数呼び出しなどのカスタム命令とツールに基づいて構築されています。
このAPIによって導入された重要な変更点は、持続的で無限に長いスレッドです。これにより、開発者はスレッドの状態管理をOpenAIに委ねることができ、コンテキストウィンドウの制約を回避することができます。アシスタントのAPIでは、既存のスレッドに新しいメッセージを追加するだけです。
アシスタントはまた、必要に応じて新しいツールを呼び出すことができます：
Code Interpreter：サンドボックス化された実行環境でPythonコードを書き込んで実行し、グラフやチャートを生成したり、多様なデータやフォーマットのファイルを処理したりできます。アシスタントがコードを繰り返し実行することで、難しいコードや数学の問題などを解決することができます。
検索：独自のドメインデータ、製品情報、ユーザーから提供されたドキュメントなど、弊社のモデル外からの知識でアシスタントを補強します。つまり、ドキュメントの埋め込みを計算して保存したり、チャンキングや検索アルゴリズムを実装したりする必要はありません。アシスタントAPIは、ChatGPTで知識検索を構築した経験に基づいて、どのような検索手法を使用するかを最適化します。
関数呼び出し: アシスタントは、あなたが定義した関数を呼び出し、その関数応答をメッセージに組み込むことができます。
プラットフォームの他の部分と同様に、OpenAI APIに渡されたデータやファイルは、私たちのモデルを訓練するために使用されることはありません。
Assistantsプレイグラウンドに行けば、コードを書かずにAssistants APIベータ版を試すことができます。
Assistantsプレイグラウンドを使用すると、コードなしで高品質のアシスタントを作成できます。
Assistants APIはベータ版で、今日からすべての開発者が利用できます。あなたが作ったものを私たち（@OpenAI）と共有してください。Assistants APIとそのツールの価格は、価格ページでご確認いただけます。
APIの新しいモダリティ
ビジョン付きGPT-4ターボ
GPT-4 TurboはChat Completions APIで画像を入力として受け付けることができ、キャプションの生成、実世界の画像の詳細分析、図付きドキュメントの読み取りなどのユースケースが可能になります。例えば、BeMyEyesはこの技術を使用して、目の不自由な人や弱視の人が商品を識別したり、店舗をナビゲートしたりするような日常的な作業を支援します。開発者はAPIでgpt-4-vision-previewを使用することでこの機能にアクセスできます。私たちは、安定したリリースの一部として、メインモデルのGPT-4 Turboにビジョンサポートを展開する予定です。価格は入力画像サイズに依存します。例えば、1080×1080ピクセルの画像をGPT-4 Turboに渡す場合、$0.00765かかります。ビジョンガイドをご覧ください。
DALL-E 3
開発者は、モデルとしてdall-e-3を指定することで、私たちが最近ChatGPT PlusとEnterpriseユーザーに提供を開始したDALL-E 3を、私たちのImages APIを通じてアプリや製品に直接統合することができます。Snap、Coca-Cola、Shutterstockのような企業は、DALL-E 3を使用して、顧客やキャンペーン用の画像やデザインをプログラムで生成しています。旧バージョンの DALL-E と同様に、API には開発者がアプリケーションを悪用から守るためのモデレーション機能が組み込まれています。様々なフォーマットやクオリティのオプションをご用意しており、生成される画像1枚あたり0.04ドルからご利用いただけます。API で DALL-E 3 を使い始めるためのガイドをご覧ください。
音声合成 (TTS)
開発者はテキスト読み上げ API を使って、テキストから人間品質の音声を生成できるようになりました。新しい TTS モデルでは、6 種類のプリセット音声から選択でき、tts-1 と tts-1-hd の 2 つのモデルバリエーションがあります。価格は1,000文字入力あたり0.015ドルから。まずはTTSガイドをご覧ください。

金色の太陽が地平線の下に沈み、静かな草原に長い影を落とすと、世界は静まり返り、静けさが地球を包み込み、生きとし生けるものすべてに安らかな夜の休息を約束する。

モデルのカスタマイズ
GPT-4ファインチューニング実験アクセス
GPT-4ファインチューニングのための実験的アクセスプログラムを作成しています。予備的な結果では、GPT-3.5のファインチューニングで実現した大幅な利益と比較して、GPT-4のファインチューニングでは、ベースモデルに対して意味のある改善を達成するために、より多くの作業が必要であることが示されています。GPT-4ファインチューニングの品質と安全性が向上するにつれて、GPT-3.5ファインチューニングを積極的に使用している開発者には、ファインチューニング・コンソール内でGPT-4プログラムに適用するオプションが提示されます。
カスタムモデル
ファインチューニングが提供できる以上のカスタマイズを必要とする組織（特に、最低でも数十億トークンという非常に大規模な独自データセットを持つドメインに適用可能）のために、カスタムモデルプログラムも開始します。これには、ドメイン固有の事前トレーニングの追加から、特定のドメインに合わせたカスタムRLポストトレーニングプロセスの実行まで、モデルトレーニングプロセスのすべてのステップを変更することが含まれます。組織は、カスタム・モデルに独占的にアクセスすることができます。OpenAIの既存のプライバシーポリシーに従い、カスタムモデルが他の顧客に提供されたり、他の顧客と共有されたり、他のモデルのトレーニングに使用されたりすることはありません。また、カスタムモデルを訓練するためにOpenAIに提供された専有データは、他のいかなる文脈でも再利用されることはありません。これは非常に限定された（そして高価な）プログラムの開始になります。
低価格と高い料金制限
料金の値下げ
開発者に節約分を還元するため、プラットフォーム全体でいくつかの価格を引き下げます（以下の価格はすべて1,000トークンあたりの価格です）：
GPT-4 TurboインプットトークンはGPT-4より3倍安い0.01ドル、アウトプットトークンは2倍安い0.03ドルです。
GPT-3.5 Turboの入力トークンは、以前の16Kモデルより3倍安い0.001ドル、出力トークンは2倍安い0.002ドルです。以前GPT-3.5 Turbo 4Kを使用していた開発者は、0.001ドルのインプット・トークンを33％削減することができます。これらの低価格は、本日発表された新しいGPT-3.5 Turboにのみ適用されます。
ファインチューニングされたGPT-3.5 Turbo 4Kモデルのインプット・トークンは4倍の0.003ドルに、アウトプット・トークンは2.7倍の0.006ドルに削減されます。ファインチューニングはまた、新しいGPT-3.5 Turboモデルで4Kと同じ価格で16Kコンテキストをサポートします。これらの新しい価格は、fine-tuned gpt-3.5-turbo-0613モデルにも適用されます。

旧モデル新モデル
GPT-4 ターボ GPT-4 8K 入力： $0.03 出力： $0.06GPT-4 32K 入力: $0.06 出力: $0.12GPT-4 ターボ 128K 入力： $0.01 出力： $0.03$0.03
GPT-3.5ターボ GPT-3.5ターボ 4K 入力: $0.0015 出力: $0.002GPT-3.5 ターボ 16K 入力: $0.003 出力: $0.0040.004 GPT-3.5ターボ16K 入力: $0.001 出力: $0.002$0.002
GPT-3.5ターボ微調整 GPT-3.5ターボ4K微調整トレーニング: $0.008 入力: $0.012 出力: $0.0160.016 GPT-3.5ターボ4Kおよび16Kファインチューニングトレーニング: $0.008 入力: $0.003 出力: $0.006$0.006
より高いレート制限
お客様のアプリケーションの拡張を支援するため、GPT-4の有料顧客はすべて、1分あたりのトークン制限を2倍にします。新しいレートリミットはレートリミットページで確認できます。また、料金制限の自動引き上げを決定する使用量階層を公開しましたので、使用量制限がどのように自動的に拡大されるかをご確認いただけます。アカウント設定から利用限度額の引き上げをリクエストできるようになりました。
著作権シールド
OpenAIは、システムに組み込まれた著作権セーフガードでお客様を保護することをお約束します。本日、さらに一歩進んで、Copyright Shieldを導入します。お客様が著作権侵害に関する法的請求に直面した場合、OpenAIが介入してお客様を保護し、発生した費用を支払います。これは、ChatGPTエンタープライズと開発者プラットフォームの一般的に利用可能な機能に適用されます。
Whisper v3 と一貫性デコーダー
オープンソース自動音声認識モデル（ASR）の次のバージョンであるWhisper large-v3をリリースします。また、近い将来、APIでもWhisper v3をサポートする予定です。
また、安定拡散VAEデコーダーのドロップインリプレースメントである一貫性デコーダーもオープンソース化しています。このデコーダーは、Stable Diffusion 1.0+ VAEと互換性のあるすべての画像を改善し、テキスト、顔、直線を大幅に改善します。
ChatGPTのOpenAI DevDayアナウンスについてはこちらをご覧ください。

この記事が気に入ったらサポートをしてみませんか？