見出し画像

OpenAI API で提供されている モデル まとめ

「OpenAI API」で提供されている「モデル」をまとめました。

【最新版の情報は以下で紹介】


1. GPT-3モデル

「OpenAI API」は、用途に応じて様々なGPT-3モデルを提供しています。

・GPT-3 : 自然言語を理解し生成するモデル
・Codex : 自然言語からコードへの変換 および コードを理解し生成するモデル
・Content filter : センシティブ および 安全でないテキストを検出するモデル
・Embeddings : 埋め込み (ベクトル表現) を生成するモデル

2. GPT-3

「GPT-3」は、自然言語を理解し生成することができるモデルです。
性能の異なる4つの主要モデルを提供しています。Davinciは最も高性能、Adaは最も高速なモデルになります。

2-1. text-davinci-003

「GPT-3」の中で最も高性能なモデルです。他のモデルで可能なあらゆるタスクが可能で、多くの場合、より高い品質、より長い出力、より良い命令追従性が得られます。また、テキストに補完記号を挿入することも可能です。

・4,000トークン
・2021年6月まで

2-2. text-curie-001

Davinciに次いで高機能で、Davinciより高速、低価格なモデルです。

・2,048トークン
・2019年10月まで

2-3. text-babbage-001

素直な作業が可能で、非常に高速、低価格なモデルです。

・2,048トークン
・2019年10月まで

2-4. text-ada-001

単純な作業が可能で、最も高速、最も低価格なモデルです。

・2,048トークン
・2019年10月まで

3. Codex

「Codex」は、自然言語からコードへの変換 および コードを理解し生成するGPT-3ベースのモデルです。学習データには、自然言語とGitHubにある数十億行のパブリックコードの両方が含まれています。Pythonを最も得意とし、JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL、Shellを含む10以上の言語に精通しています。
現在、2つのモデルを提供しています。

3-1. code-davinci-002

「Codex」の中で最も高性能なモデルです。特に自然言語からコードへの変換を得意とします。コードの補完だけでなく、コード内への補完の挿入もサポートします。

・8,000トークン
・2021年6月まで

3-2. code-cushman-001

Davinciに次いで高機能で、Davinciより高速なモデルです。

・2,048トークン
・2019年10月まで

4. Content filter

「Content filter」は、センシティブ および 安全でないテキストを検出するモデルです。テキストを「安全」(safe)「センシティブ」(sensitive)「危険」(unsafe)の3種類に分類します。

4-1. content-filter-alpha

現在提供されている、唯一のContent filterモデルです。

5. Embeddings

「Embeddings」は、埋め込み (ベクトル表現) を生成するモデルです。旧世代版 (-001) もありますが、ほぼすべてのユースケースで text-embedding-ada-002 を使用することが推奨されています。より良く、より安く、より使いやすくなっています。

5.1 text-embedding-ada-002

現在推奨されている、Embeddingsモデルです。

・トークナイザー : cl100k_base
・最大入力トークン数 : 8191
・出力次元 : 1536
・2021年9月まで

6. GPT-3.5

「GPT-3.5」は、2021年第4四半期以前のテキストとコードをブレンドして学習させたモデルです。
以下のモデルが「GPT-3.5」ベースのモデルになります。

・code-davinci-002 : GPT-3.5のベースモデル。純粋なコード補完タスクに適している。
・text-davinci-002 : code-davinci-002をベースにしたInstructGPTモデル。
・text-davinci-003 : text-davinci-002の改良版。

7. InstructGPTモデル

「InstructGPT」は、人間の好みに合った文を出力するようにファインチューニングした「GPT-3」です。
以下のの3種類の手法で学習したInstructGPTモデルを提供しています。

7-1. SFT

人間のデモによる教師ありファインチューニングで学習します。

・davinci-instruct-beta1

7-2. FeedME

人間のデモ と 人間のラベル付け担当者によって7/7と評価されたモデルサンプル による教師ありファインチューニングで学習します。

・text-davinci-001
・text-davinci-002
・text-curie-001
・text-babbage-001

7-3. RLHF

RLHF(=Reinforcement Learning from Human Feedback、人間のフィードバックに基づいた強化学習)で学習しています。強化学習アルゴリズムはPPOが使われています。

・text-davinci-003

参考

Models
Embeddings
Model index for researchers



この記事が気に入ったらサポートをしてみませんか?