OpenAI API で提供されているモデルまとめ

2023年3月3日 23:00

「OpenAI API」で提供されているモデルをまとめました。

【最新版の情報は以下で紹介】

1. OpenAI APIのモデル

「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。

・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。
・DALL-E : 自然言語から画像を生成・編集するモデル
・Whisper : 音声をテキストに変換するモデル
・Embeddings : 埋め込み (ベクトル表現) を生成するモデル
・Codex : コードを理解および生成するモデル
・Moderation : センシティブおよび安全でない文章を検出するモデル
・GPT-3 : 自然言語を理解および生成する旧モデル

2. GPT-3.5

「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-turbo」です。

2-1. gpt-3.5-turbo

最も高性能なGPT-3.5モデルです。コストはtext-davinci-003と比べて1/10と格安です。定期的に最新のモデルに更新されます。

・4,096トークン
・2021年9月まで

2-2. gpt-3.5-turbo-0301

2023年3月1日の「gpt-3.5-turbo」のスナップショットです。「gpt-3.5-turbo」と異なり更新はされません。2023年6月1日までの3か月間のみサポートされます。

・4,096トークン
・2021年9月まで

2-3. text-davinci-003

「gpt-3.5-turbo」と同様に、最も有用なモデルです。コストは「gpt-3.5-turbo」の10倍になります。

・4,097トークン
・2021年6月まで

2-4. text-davinci-002

「text-davinci-003」と同様の機能ですが、強化学習の代わりに教師ありファインチューニングで学習しています。

・4,097トークン
・2021年6月まで

2-5. code-davinci-002

コード完了タスク用に最適化されたモデルです。

・8,001トークン
・2021年6月まで

3. DALL-E

「DALL-E」は、自然言語から画像を生成・編集するモデルです。現在、プロンプトから新規画像を生成したり、既存の画像を編集したり、ユーザー提供された画像のバリエーションを作成する機能をサポートしています。

3-1. DALL-E 2

現在、APIから利用できるのは「DALL-E」の最新版です。旧モデルより、表現力および解像度が向上しています。

4. Whisper

「Whisper」は、音声をテキストに変換するモデルです。多様な音声の大規模データセットで学習しており、多言語の翻訳と言語識別だけでなく、多言語の認識を実行できるマルチタスクモデルでもあります。

4-1. whisper-1

オープンソースで公開されてる「whisper-v2-large」を利用しています。APIを通じて、最適化された推論プロセスを提供するため、他の実行方法よりもはるかに高速です。

5. Embeddings

「Embeddings」は、埋め込み (ベクトル表現) を生成するモデルです。旧版も提供していますが、ほぼすべてのケースで「text-embedding-ada-002」を利用することを推奨されています。より安く、より使いやすく、より高性能になっています。

5.1 text-embedding-ada-002

現在推奨されている、Embeddingsモデルです。

・トークナイザー : cl100k_base
・最大入力トークン数 : 8191
・出力次元 : 1536
・2021年9月まで

6. Codex

「Codex」は、コードを理解および生成できるモデルです。GitHubの自然言語と数十億の公開コードの両方で学習しました。

3-1. code-davinci-002

最も高性能なCodexモデルです。特に自然言語からコードへの変換を得意とします。コードの補完だけでなく、コード内への補完の挿入もサポートします。

・8,000トークン
・2021年6月まで

3-2. code-cushman-001

davinciに次いで高機能で、davinciより高速なモデルです。

・2,048トークン
・2019年10月まで

7. Modelation

「Modelation」は、センシティブおよび安全でないテキストを検出するモデルです。テキストを次のカテゴリい分類する機能を提供します。

・hate
・hate/threatening
・self-harm
・sexual
・sexual/minors
・violence
・violence/graphic

7-1. text-moderation-latest

最も高性能なModelationモデルです。精度は、Stableモデルよりもわずかに高くなります。

7-2. text-moderation-stable

最新のモデルよりわずかに古いモデルです。

8. GPT-3

「GPT-3」は、自然言語を理解および生成する、GPT-3の旧モデルです。

・text-curie-001
・text-babbage-001
・text-ada-001
・davinci
・curie
・babbage
・ada

・2,049トークン
・2019年10月まで

参考

・Models
・Embeddings
・Moderation
・Model index for researchers