見出し画像

Claude の Prompt caching の概要

以下の記事が面白かったので、簡単にまとめました。

Prompt caching with Claude


1. Claude の Prompt caching

Prompt caching」は、開発者が頻繁に使用するコンテキストをキャッシュできる機能です。「Anthropic API」で利用できるようになりました。これを利用すると、顧客は「Claude」により多くのコンテキストと応答例を提供できると同時に、長プロンプトのコストが最大90%、遅延が最大85%削減できます。キャッシュの有効期間は5分で、キャッシュしたコンテンツが使用されるたびに更新されます。

現在、「Claude 3.5 Sonnet」「Claude 3 Haiku」のパブリックベータ版で利用可能で、「Claude 3 Opus」のサポートは近日中に開始する予定です。

2. Prompt caching に最適なユースケース

「Prompt caching」は、次のような大量のプロンプトコンテキストを一度送信し、その後の要求でその情報を繰り返し参照する必要がある場合に効果的です。

・会話エージェント: 特に長い指示やアップロードされたドキュメントを含む長時間の会話のコストと待ち時間を削減
・コーディングアシスタント : プロンプトにコードベースの要約を記述することで、オートコンプリートとコードベースの Q&A を改善
・大規模ドキュメントの処理 : 応答の遅延を増やすことなく、画像を含む完全な長文の資料をプロンプトに組み込む
・詳細な指示セット :指示、手順、例の広範なリストを共有して、Claudeの応答を微調整。開発者はプロンプトにいくつかの例を含めることがよくあるが、「Prompt caching」を使用すると、数十の多様な高品質の応答例を含めることで、さらに優れた性能を実現
・エージェントによる検索とツールの使用 : 通常、各ステップで新しいAPI呼び出しが必要となる、複数回のツール呼び出しと反復的な変更を伴うシナリオの性能を向上させる
・書籍、論文、ドキュメント、ポッドキャストのトランスクリプト、その他の長文コンテンツと対話 : ドキュメント全体をプロンプトに埋め込み、ユーザーが質問できるようにすることで、あらゆるナレッジ ベースを活性化

3. Prompt caching の使用例

・本とのチャット (100,000トークンのプロンプト)

・キャッシュなしのレイテンシ : 11.5秒
・キャッシュ時のレイテンシ : 2.4秒 (-79%)
・コスト削減 : -90%

・多ショットプロンプト(10,000トークンのプロンプト)

・キャッシュなしのレイテンシ : 1.6秒
・キャッシュ時のレイテンシ : 1.1秒 (-31%)
・コスト削減 : -86%

・マルチターン会話(10ターンの会話)

・キャッシュなしのレイテンシ : 約10秒
・キャッシュ時のレイテンシ : 約2.5秒 (-75%)
・コスト削減 : -53%

上記のレイテンシは、最初のトークンまでの時間です。

4. Prompt caching の使用料金

「Prompt caching」の使用料金は、キャッシュする入力トークンの数とそのコンテンツの使用頻度に基づいて決まります。キャッシュへの書き込みには基本入力トークン料金より25%高い料金がかかりますが、キャッシュされたコンテンツを使用すると大幅に安くなり、基本入力トークン料金の10%しかかかりません。

5. はじめる

「Anthropic API」の「Prompt caching」のパブリックベータ版の使用を開始するには、ドキュメント使用料金のページを参照してください。



この記事が気に入ったらサポートをしてみませんか?