Claude Prompt Caching入門:APIコストを90%削減する方法

AIを知りたい

Claude APIを使っていると、同じプロンプトを何度も送ることがあるんですけど、もっと効率的にできませんか?

AIエンジニア

それならPrompt Caching機能がぴったりです!同じプロンプトの一部をキャッシュして、コストと応答速度を大幅に改善できます。

AIを知りたい

キャッシュ?具体的にどうなるんですか?

AIエンジニア

通常は毎回プロンプト全体を処理しますが、キャッシュを使うと既に処理済みの部分をスキップできます。最大90%のコスト削減が可能になります。

Prompt Cachingとは

Prompt Cachingは、Anthropic Claude APIの機能で、プロンプトの一部をサーバー側にキャッシュすることで、繰り返しのAPI呼び出しのコストを削減し、応答速度を向上させる技術です。特にシステムプロンプトが長い場合やRAGで大量のドキュメントを渡す場合に効果を発揮します。

Prompt Cachingの仕組みと効果

AIを知りたい

どれくらいのコスト削減効果があるんですか?

AIエンジニア

具体的な数字を見てみましょう。

項目 通常 キャッシュ利用時
入力トークンコスト $3/百万トークン $0.3/百万トークン(90%削減)
キャッシュ書き込み $3.75/百万トークン(初回のみ)
応答速度(TTFT) 通常 最大85%高速化
キャッシュ有効期間 5分(最終使用から)

Prompt Cachingの実装方法

AIを知りたい

実際にどうやって使うんですか?

AIエンジニア

Python SDKを使った実装例を見てみましょう。

基本的な実装:

import anthropic

client = anthropic.Anthropic()

# 長いシステムプロンプトをキャッシュ
response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "あなたは法律の専門家です。以下の法律文書を参照して...(長い文書)",
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": "契約解除の条件を教えてください"}
    ]
)

# キャッシュ利用状況の確認
print(f"入力トークン: {response.usage.input_tokens}")
print(f"キャッシュ読取: {response.usage.cache_read_input_tokens}")
print(f"キャッシュ作成: {response.usage.cache_creation_input_tokens}")

RAGでのPrompt Caching活用

AIを知りたい

RAG(検索拡張生成)でも使えるんですか?

AIエンジニア

RAGとの相性は抜群です!大量のドキュメントをコンテキストに含める場合、キャッシュの恩恵が最大になります。

# RAGでのキャッシュ活用例
documents = fetch_relevant_docs(query)

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=2048,
    system=[
        {
            "type": "text",
            "text": "以下のドキュメントを参照して回答してください。",
        },
        {
            "type": "text",
            "text": "n".join(documents),
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": query}
    ]
)

キャッシュ戦略のベストプラクティス

AIを知りたい

効果的なキャッシュの使い方ってありますか?

AIエンジニア

いくつかのポイントを押さえておきましょう。

戦略 説明 効果
システムプロンプトのキャッシュ 変更頻度の低い部分を先頭に配置 コスト削減大
ドキュメントの共通部分 複数クエリで共有される文書をキャッシュ TTFT改善大
会話履歴の活用 長い会話履歴をキャッシュして継続 レスポンス改善
最低トークン数の確認 1024トークン以上でないとキャッシュ不可 要件確認

AIを知りたい

コスト削減にかなり効きそうですね!

AIエンジニア

特にプロダクション環境で同じシステムプロンプトを繰り返し使う場合は必須の機能です。まずは小規模に試して効果を確認してみてください!

関連記事