text-embedding-ada-002 の概要

2022年12月16日 20:10

新しい埋め込みモデル「text-embedding-ada-002」についてまとめました。

1. text-embedding-ada-002

OpenAIから新しい埋め込みモデル「text-embedding-ada-002」がリリースされました。性能が大幅に向上し、以前の最も高性能なモデル「davinci」よりも多くのタスクで上回っています。adaの費用はdavinciの0.2%になります。

2. 埋め込み

「埋め込み」は、概念を数列に変換したもので、コンピュータがそれらの概念間の関係を理解しやすくするための使います。パーソナライズ、レコメンド、検索などに使うことができます。

「OpenAI API」で埋め込みを取得するコードは、次のとおりです。

import openai
response = openai.Embedding.create(
    input="porcine pals say",
    model="text-embedding-ada-002"
)

3. 以前のモデルとの比較

◎ テキスト検索

◎ コード検索

◎ 文の類似性

◎ テキスト分類

以前のモデルとの違いは、次のとおりです。

◎ モデルの統合
機能別のモデル (text-similarity、text-search-query、text-search-doc、code-search-text、code-search-code)を1つに統合しました。

◎ コンテキストの長さの増加
コンテキストの長さが 2048 から 8192 に増えました。

◎ 埋め込みのサイズの減少
埋め込みのサイズは、davinci-001の8分の1になりました。

◎ 価格の値下げ
以前の同じサイズのモデルと比べ、価格を90%値下げしました。新モデルは、以前のdavinci以上のパフォーマンスで、99.8%低い価格を実現しています。

ただし、SentEval線形プローブ分類ベンチマークでは、新モデルはtext-similarity-davinci-001 を下回っていました。分類予測の場合は、比較して最適なモデルを選択することを推奨されています。