名詞解析 · prompt-techniques

Prompt Caching

提示詞緩存

prompt-techniques 進階

30 秒版 · 給沒耐心的人

Anthropic 提供的 API 功能，讓重複的 System Prompt 或上下文在首次處理後被緩存，後續請求只需付 10% 的費用重新讀取，而不需要重新計算整段 Token。對 System Prompt 超過 1,024 Token 的應用，這個功能能立即降低 20-40% 的 API 費用。

完整解說 +

01 · 這是什麼？

Prompt Caching 是 Anthropic 提供的 API 功能，讓你在 API 請求裡標記「這部分的文字是靜態的，請緩存它」。一旦一段文字被緩存，後續的 API 呼叫讀取這段緩存時，只需支付原始計算費用的 10%——也就是說，同樣的 System Prompt，第一次處理收全額費用，之後的每次讀取只收 10%。最直觀的理解：把你的 System Prompt 想像成一本工作手冊。沒有緩存的情況，每次 API 呼叫 Claude 都要從頭讀完整份手冊（全額計費）。有了緩存，Claude 第一次讀完後把理解結果記住，之後只要「確認一下手冊還是同一份」（10% 費用），大幅節省每次呼叫的處理成本。啟用條件：被標記為緩存的部分必須超過 1,024 Token（Claude 3 Haiku）或 2,048 Token（Claude 3.5 Sonnet 和 Opus）。緩存有效期為 5 分鐘，每次被使用都會重新計時。

02 · 為什麼存在？

Prompt Caching 的適用場景，按效益從高到低： **最高效益**：固定的大型 System Prompt（超過 2,000 Token）且每天有大量呼叫。每次呼叫省下的費用乘以每日呼叫次數，累積節省非常顯著。 **中等效益**：把參考文件注入 Context 的應用（例如 RAG 系統裡把背景文件放在 System Prompt 裡）。這些文件通常很長，緩存能大幅節省費用。 **低效益或不適用**：System Prompt 很短（低於門檻）；每次呼叫的 System Prompt 內容都不同（緩存命中率低）；呼叫頻率很低（緩存有效期 5 分鐘，低頻呼叫的緩存命中率低）。

03 · 如何影響你的決策？

實作 Prompt Caching 的技術細節： ```python response = client.messages.create( model="claude-sonnet-4-5", system=[ { "type": "text", "text": "[你的靜態 System Prompt 文字，超過 1,024 Token]", "cache_control": {"type": "ephemeral"} # 標記這部分要緩存 } ], messages=[{"role": "user", "content": user_message}], ) ``` 注意事項：只有 System Prompt 的靜態部分（每次呼叫都一樣的部分）適合緩存。如果你的 System Prompt 裡有動態內容（例如當前日期、用戶姓名），把動態部分放在靜態部分之後，只對靜態部分啟用 cache_control。監控緩存命中率：在 API 回應的 `usage` 欄位，有 `cache_creation_input_tokens`（首次計算）和 `cache_read_input_tokens`（緩存讀取）兩個數值，讓你知道緩存效率。

04 · 你該怎麼辦？

Prompt Caching 的最佳實踐： **結構化你的 System Prompt**：把靜態的、通用的規則放在前面（這部分緩存），把動態的、每次可能不同的內容放在後面（這部分不緩存）。這讓緩存命中率最大化。 **注意緩存有效期**：5 分鐘的緩存有效期，意味著如果你的應用在某些時段的呼叫間隔超過 5 分鐘，緩存會失效，下一次呼叫需要支付全額費用。對呼叫模式不規律的應用，實際的緩存節省可能比預期少。 **和 Prompt Compression 搭配**：先精簡 System Prompt（減少總 Token），再啟用 Caching（讓這些精簡後的 Token 只計算一次）——兩者搭配使用效果最好。 **適用於長篇文件 RAG**：如果你有固定的參考文件需要注入 Context，把文件放進 System Prompt 並啟用 Caching，能大幅節省每次查詢的費用。

實際例子 +

一個法律 AI 助手應用，System Prompt 裡包含了完整的法律責任說明和行為規範文件，總計 4,500 Token。這個應用的用戶每天總共發出 2 萬個問題。沒有 Prompt Caching：4,500 Token × 20,000 次 = 9,000 萬 Token/天有 Prompt Caching（假設 98% 命中率）：首次計算：4,500 Token × 400 次（2% 未命中）= 180 萬 Token；緩存讀取：4,500 × 10% × 19,600 次 = 882 萬 Token；總計：1,062 萬 Token（原來的 11.8%）這個應用的 System Prompt 相關費用從約 $27/天（以 Sonnet 定價估算）降到約 $3.2/天，月節省約 $710 美元。不改變任何用戶體驗，只需要在 API 請求裡加一個 cache_control 標記。

圖解

歡迎截圖分享，轉載請註明來源

常見誤解 +

✕ 誤解1

× 誤解一：Prompt Caching 會影響 Claude 的回答品質，因為它在「使用緩存的答案」。Prompt Caching 緩存的是 System Prompt 的「計算結果」（模型對 System Prompt 的內部表示），不是 Claude 的回答。每次呼叫 Claude 仍然根據這個緩存的上下文 + 你當次的問題，重新生成新的回答。緩存不影響輸出的多樣性或品質，只影響計算費用。

✕ 誤解2

× 誤解二：只要 System Prompt 超過 1,024 Token 就一定值得啟用 Prompt Caching。是否值得取決於呼叫頻率和緩存命中率。如果你的應用呼叫頻率很低（例如每小時只有幾次），5 分鐘的緩存有效期意味著大多數呼叫都是緩存未命中，首次計算費用，效益不明顯。Prompt Caching 最適合高頻應用（每分鐘多次呼叫）。

這件事跟你有什麼關係 +

直接影響

Prompt Caching 幾乎沒有明顯的取捨——它是純粹的費用優化，不影響輸出品質，實施成本也很低（只需在 API 請求裡加一個標記）。主要的考量點是：緩存失效的影響。如果你的應用在某個時段有很長的空閒期（超過 5 分鐘），緩存失效後的第一次呼叫需要支付全額費用。對呼叫模式很不規律的應用，實際節省可能比預期少。另外，緩存只適用於靜態的 System Prompt 部分——如果你的應用需要每次動態生成不同的 System Prompt，Prompt Caching 就不適用了。

提問

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →