
AIを知りたい
Claude APIを使っていると、同じプロンプトを何度も送ることがあるんですけど、もっと効率的にできませんか?

AIエンジニア
それならPrompt Caching機能がぴったりです!同じプロンプトの一部をキャッシュして、コストと応答速度を大幅に改善できます。

AIを知りたい
キャッシュ?具体的にどうなるんですか?

AIエンジニア
通常は毎回プロンプト全体を処理しますが、キャッシュを使うと既に処理済みの部分をスキップできます。最大90%のコスト削減が可能になります。
Prompt Cachingとは
Prompt Cachingは、Anthropic Claude APIの機能で、プロンプトの一部をサーバー側にキャッシュすることで、繰り返しのAPI呼び出しのコストを削減し、応答速度を向上させる技術です。特にシステムプロンプトが長い場合やRAGで大量のドキュメントを渡す場合に効果を発揮します。
Prompt Cachingの仕組みと効果

AIを知りたい
どれくらいのコスト削減効果があるんですか?

AIエンジニア
具体的な数字を見てみましょう。
| 項目 | 通常 | キャッシュ利用時 |
|---|---|---|
| 入力トークンコスト | $3/百万トークン | $0.3/百万トークン(90%削減) |
| キャッシュ書き込み | – | $3.75/百万トークン(初回のみ) |
| 応答速度(TTFT) | 通常 | 最大85%高速化 |
| キャッシュ有効期間 | – | 5分(最終使用から) |
Prompt Cachingの実装方法

AIを知りたい
実際にどうやって使うんですか?

AIエンジニア
Python SDKを使った実装例を見てみましょう。
基本的な実装:
import anthropic
client = anthropic.Anthropic()
# 長いシステムプロンプトをキャッシュ
response = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
system=[
{
"type": "text",
"text": "あなたは法律の専門家です。以下の法律文書を参照して...(長い文書)",
"cache_control": {"type": "ephemeral"}
}
],
messages=[
{"role": "user", "content": "契約解除の条件を教えてください"}
]
)
# キャッシュ利用状況の確認
print(f"入力トークン: {response.usage.input_tokens}")
print(f"キャッシュ読取: {response.usage.cache_read_input_tokens}")
print(f"キャッシュ作成: {response.usage.cache_creation_input_tokens}")
RAGでのPrompt Caching活用

AIを知りたい
RAG(検索拡張生成)でも使えるんですか?

AIエンジニア
RAGとの相性は抜群です!大量のドキュメントをコンテキストに含める場合、キャッシュの恩恵が最大になります。
# RAGでのキャッシュ活用例
documents = fetch_relevant_docs(query)
response = client.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=2048,
system=[
{
"type": "text",
"text": "以下のドキュメントを参照して回答してください。",
},
{
"type": "text",
"text": "n".join(documents),
"cache_control": {"type": "ephemeral"}
}
],
messages=[
{"role": "user", "content": query}
]
)
キャッシュ戦略のベストプラクティス

AIを知りたい
効果的なキャッシュの使い方ってありますか?

AIエンジニア
いくつかのポイントを押さえておきましょう。
| 戦略 | 説明 | 効果 |
|---|---|---|
| システムプロンプトのキャッシュ | 変更頻度の低い部分を先頭に配置 | コスト削減大 |
| ドキュメントの共通部分 | 複数クエリで共有される文書をキャッシュ | TTFT改善大 |
| 会話履歴の活用 | 長い会話履歴をキャッシュして継続 | レスポンス改善 |
| 最低トークン数の確認 | 1024トークン以上でないとキャッシュ不可 | 要件確認 |

AIを知りたい
コスト削減にかなり効きそうですね!

AIエンジニア
特にプロダクション環境で同じシステムプロンプトを繰り返し使う場合は必須の機能です。まずは小規模に試して効果を確認してみてください!
