Claude3とGPT-4をコスト面から比較、コスパが良いのはどのLLM？

2024年3月19日 16:13

みなさんこんにちは。ケンブリッジ・テクノロジー・パートナーズでコンサル兼テクニカル・アーキテクトを担当している広沢です。

前回の記事ではClaude3とGPT-4の能力を比較し、文章のコンテキスト理解力という点においてClaude3（Opus）が頭一つ抜けているという検証をした記事「Claude3とGPT-4どちらが上か、あるいはタケノコの里」を書きました。本日はこの記事の続記事です。もしよろしければ前の記事もお読みください。

今回は、能力と切り離せない「コスト」の話をしていきたいと思います。
いくら良い能力が出ていても費用が高ければ使えませんよね。
なので、いわゆる「コスパが良いLLMはどれだ？」という検証です。
また1回の問い合わせで具体的にいくらくらいかかるの？というのを具体的な金額として算出してみたいと思います。

結論

ユースケース別に以下の基準で選ぶべし
- 能力を求めるならClaude3（Opus）一択
- そこまで能力にこだわりがないなら、Claude3（Sonnet）
- 実行回数が多くなるならClaude3（Haiku）またはGPT-3.5
能力とコストのポジショニングマップは以下のとおり
- 横軸がコンテキスト理解力、縦軸がコストとなります

各モデルのプライシング

今回比較したのは、前回の記事と同じ以下の6モデルです。
各モデルを開発元が提供するAPIで使用した場合の単価は以下になります。
（なお、ClaudeをAmazon Bedrockで使用した場合も同じ価格設定でした）

上記表は各モデルごとの入力（プロンプト）と出力（応答）のトークン数ごとの価格を示しています（トークンについては後述します）。
例えば、Claude3（Opus）の場合、入力プロンプト1万トークンあたり15ドル、出力応答1万トークンあたり75ドルということになります。

例えば、前回のブログ記事要約を例にすると、Claude3（Opus）だと以下の計算となり、1回の処理あたり「8.991円」となります（ユースケースによりますが、個人的にはかなり安いと感じました）。

➀入力トークン：2,000文字（≒2,000トークン）
- 10,000（単価トークン）÷2,000（入力トークン）×$15=$0.02994
- $0.02994×150円（為替）＝4.491円
➁出力トークン：400文字（≒400トークン）
- 10,000（単価トークン）÷400（出力トークン）×$75=$0.03
- $0.03×150円（為替）＝4.5円
1プロンプト合計
- ➀4.491円＋➁4.5円＝8.991円

日本語のトークン数のカウント方法

上記単価の中で出てきた「トークン」という用語について補足します。
トークンとは、LLMで扱われるプロンプトや応答文字列のカウント単位のことを指します。ではこのトークンの数え方は？というと、ざっくりではありますが、以下の考え方となります。

英語
- 短い単語：1単語＝1トークン
- 長い単語：1単語＝複数トークン（H-umb-urgerで3トークン）
日本語
- 日本語（ひらがな1文字）：0.5～1トークン
- 日本語（漢字1文字）　　：1～2トークン

OpenAI社がTokenizerを出してくれているのでそれで実際にカウント可能。
https://platform.openai.com/tokenizer

実際にカウントした結果が以下のとおりで、2002文字の記事は1996トークンとなっている。
文章によってカウントは変わると思いますが、感覚としては日本語の文字数に対してトークン数は100％か110%くらいになるイメージです。

価格シミュレーション

前回の記事の検証（入力約2,000トークン、出力400トークン）を事例に、6モデルがいくらになるのかを算出しました。

算出すると、3グループあることが分かりました。

高コストグループ：GPT-4、Claude3（Opus）
中コストグループ：Claude2.1、Claude3（Sonnet）
激安グループ　　：GPT-3.5、Claude3（Haiku）

こう見ると、Claude3がコスト面でもかなり頑張っていることが分かります。Claude3（Opus）は能力も頭一つ抜けているのに、GPT-4より約3割安くなっています。
またAnthropic社の中でも前モデルであるClaude2.1とClaude3（Haiku）を比べるとClaude2.1よりClaude3（Haiku）の方が9割5分も安くなっています。
これまでClaude2.1はコスト面でGPT-3.5に勝てなかったのですが、今回で追いつくことができました。

考察

今回の費用シミュレーションの結果と、前回の能力比較をマッピングしたポジショニングマップが冒頭に掲載した以下の図となります。

分かったこと
モデルの能力だけでなく、コスト面もシミュレーションして分かったこととしては、以下のとおりとなります。

Claude3（Opus）は能力が良いだけでなく、費用もGPT-4と比べて安くなっている。なので能力優先ならClaude3（Opus）一択しかない。
意外にダークホースなのがClaude3（Sonnet）。GPT-4相当の能力がありつつ、GPT-4の約9分の1の価格というコスパの良さ。
とはいえ、LLMの呼び出し回数が多い場合はコスト優先にしなければならないと思います。その場合は、GPT-3.5かClaude3（Haiku）を利用するのが良さそう。

最後に
ということで、当たり前ですが「LLMをどう使うか」によってどのモデルを利用するのが良いのかというのを決定する必要があると思います。その際に、この記事が参考になれば幸いです。

最後まで読んでいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか？