GPT-4oのファインチューニングが可能に、一日に付き100万のトレーニングトークンを無料で提供

2024年8月21日 03:59

2024年8月20日に発表された情報で、GPT-4oに対するファインチューニング機能の提供開始を知らせています。

We're launching fine-tuning for GPT-4o so you can improve performance and accuracy for your apps.https://t.co/U106c1Svxq
— OpenAI Developers (@OpenAIDevs) August 20, 2024

GPT-4oのファインチューニングが可能に

このアップデートのポイントは？

ファインチューニングがGPT-4oにまで拡張されたことで、従来よりもさらに高度なパーソナライゼーションやカスタマイズが可能になり、さまざまなビジネスやアプリケーションで活用されることが期待されています。

ファインチューニングの提供開始: GPT-4oに対して、開発者が自分たちのアプリケーションに特化したカスタムバージョンを作成できるようになりました。これにより、特定の業界や用途に適した応答を得られるようになります。
1日あたり100万トークンの無料トレーニング枠: 9月23日まで、全ての組織が1日あたり100万トークンのトレーニングを無料で利用できるという特典が付いています。これは、モデルをテストしたり、微調整したりする際にコストを抑えるのに役立ちます。
少量のデータでも高い成果が期待できる: わずか数十のサンプルデータであっても、強力な結果を生み出すことができるとされています。これにより、特に大規模なデータセットを用意できない小規模なプロジェクトや企業にとっても、ファインチューニングのハードルが低くなります。
幅広い用途でのパフォーマンス向上: コーディングからクリエイティブライティングまで、様々な分野でモデルのパフォーマンスが大きく向上する可能性があるとされています。

ファインチューニングの利用方法

誰が利用できるのか: GPT-4oのファインチューニングは、すべての有料利用者（Paid Usage Tier）に対して提供されています。つまり、OpenAIの有料プランに登録している開発者なら誰でも利用可能です。
スタート方法:
1. ファインチューニングダッシュボードにアクセス: まず、ファインチューニング用のダッシュボードにアクセスします。
2. モデルの選択: 「Create」をクリックし、ベースモデルのドロップダウンメニューから「gpt-4o-2024-08-06」を選択します。
3. 料金: ファインチューニングのトレーニングコストは、100万トークンあたり25ドルで、推論（インファレンス）は、入力トークンあたり100万トークンで3.75ドル、出力トークンあたり100万トークンで15ドルです。
GPT-4o Miniのファインチューニング:
- スタート方法: 同様に、ファインチューニングダッシュボードにアクセスし、「gpt-4o-mini-2024-07-18」をベースモデルとして選択します。
- 無料トークンの提供: GPT-4o Miniの場合、9月23日まで毎日200万トークン分の無料トレーニングトークンが提供されています。

GPT-4oのファインチューニングで最先端のパフォーマンスを実現

また、OpneAIは過去数か月間、私たちは信頼できる数社のパートナーと協力して、GPT-4o の微調整をテストし、そのユースケースについて学んだ成功事例を紹介しています。

下記のグラフは「SWE-bench Verified Leaderboard」のベンチマークの結果を示しています。このベンチマークは、ソフトウェアエンジニアリングタスク（SWE）に対するAIモデルの性能を評価するものです。具体的には、バグの修正、機能の構築、コードのリファクタリングなど、ソフトウェアエンジニアが日常的に行う作業をAIがどれだけ効果的に行えるかを測定しています。

リーダーボードの内容:

各モデルやシステムが何パーセントの問題を解決できたかが表示されています。「% Resolved」の値が高いほど、そのモデルがより多くの問題を解決したことを示します。
一番上にある「Cosine Genie」が43.8%の問題を解決しており、他のモデルに比べて最も優れたパフォーマンスを発揮していることがわかります。

リーダーボードに登場する主なシステム:

Cosine Genie: 最も高いスコアを持つシステムで、GPT-4oをファインチューニングしてソフトウェアエンジニアリングタスクを自律的に実行できるAIアシスタントです。（注01）
Amazon Q Developer Agent: Amazonが開発したエージェントで、複数のバージョンが存在します。
AutoCodeRover: GPT-4oと組み合わせてコード関連タスクを解決するシステム。
Factory Code Droid: 特定のコードタスクに特化したシステム。

このベンチマークは、特にソフトウェアエンジニアリングにおいて、AIがどの程度実用的に使えるかを評価するためのものです。各システムがどれだけの問題を解決できるかを数値化することで、どのAIが最も優れたパフォーマンスを発揮しているかが一目でわかるようになっています。

※注01：
CosineはGenieというAIソフトウェアエンジニアリングアシスタントを開発しており、このアシスタントはGPT-4oをファインチューニングしてソフトウェアエンジニアリングタスク（バグの修正、機能の構築、コードのリファクタリングなど）を自律的に行えるように設計されています。

Genieは、現実のソフトウェアエンジニアが行う作業を学習し、それをもとに高精度な応答や特定のフォーマットでのコード出力を可能にしています。

Cosineの実績:SWE-bench VerifiedやSWE-bench Fullといったベンチマークで、非常に高いスコアを達成しており、特にソフトウェアエンジニアリング分野において先進的な結果を出していることが示されています。

Distyl が BIRD-SQL ベンチマークで 1 位にランクイン

フォーチュン500企業のAIソリューションパートナーであるディスティルは、BIRD-SQLで1位を獲得しました。ベンチマークは、テキストから SQL への主要なベンチマークです。

Distyl の微調整された GPT-4o は、リーダーボードで 71.83% の実行精度を達成し、クエリの再定式化、意図の分類、思考の連鎖、自己修正などのタスク全体で優れた成績を収め、特に SQL 生成で高いパフォーマンスを発揮しました。