Bible Network Crypto DeFi Onchain RWA AI Agent Stablecoin Chain SAFU CryptoTax DeFAI AGI Claude Me Claude Skill Claude Design Claude Cowork
獨立知識媒體
與任何項目無關聯
探索AI智慧的思維邊界
claude-me.com
最新
Claude 提示詞實戰入門:五個立刻能用的工作模板  ·  新手第一週:從零開始用好 Claude 的完整學習路徑  ·  Claude Code 完整使用指南:從安裝到進階工作流的一次說清楚  ·  Claude 4 模型家族深度解析:Opus、Sonnet、Haiku 的能力邊界和選型邏輯  ·  Anthropic 發布選舉防護更新:Claude 將在 2026 美國期中選舉及全球重大選舉中設置多重限制  ·  Anthropic 擴大前沿 AI 對話圈,邀多元領域學者共商治理框架
名詞解析 · prompt-techniques

Prompt Caching

提示詞緩存
prompt-techniques 進階

30 秒版 · 給沒耐心的人
Anthropic 提供的 API 功能,讓重複的 System Prompt 或上下文在首次處理後被緩存,後續請求只需付 10% 的費用重新讀取,而不需要重新計算整段 Token。對 System Prompt 超過 1,024 Token 的應用,這個功能能立即降低 20-40% 的 API 費用。
完整解說 +
01 · 這是什麼?
Prompt Caching 是 Anthropic 提供的 API 功能,讓你在 API 請求裡標記「這部分的文字是靜態的,請緩存它」。一旦一段文字被緩存,後續的 API 呼叫讀取這段緩存時,只需支付原始計算費用的 10%——也就是說,同樣的 System Prompt,第一次處理收全額費用,之後的每次讀取只收 10%。 最直觀的理解:把你的 System Prompt 想像成一本工作手冊。沒有緩存的情況,每次 API 呼叫 Claude 都要從頭讀完整份手冊(全額計費)。有了緩存,Claude 第一次讀完後把理解結果記住,之後只要「確認一下手冊還是同一份」(10% 費用),大幅節省每次呼叫的處理成本。 啟用條件:被標記為緩存的部分必須超過 1,024 Token(Claude 3 Haiku)或 2,048 Token(Claude 3.5 Sonnet 和 Opus)。緩存有效期為 5 分鐘,每次被使用都會重新計時。
02 · 為什麼存在?
Prompt Caching 的適用場景,按效益從高到低: **最高效益**:固定的大型 System Prompt(超過 2,000 Token)且每天有大量呼叫。每次呼叫省下的費用乘以每日呼叫次數,累積節省非常顯著。 **中等效益**:把參考文件注入 Context 的應用(例如 RAG 系統裡把背景文件放在 System Prompt 裡)。這些文件通常很長,緩存能大幅節省費用。 **低效益或不適用**:System Prompt 很短(低於門檻);每次呼叫的 System Prompt 內容都不同(緩存命中率低);呼叫頻率很低(緩存有效期 5 分鐘,低頻呼叫的緩存命中率低)。
03 · 如何影響你的決策?
實作 Prompt Caching 的技術細節: ```python response = client.messages.create( model="claude-sonnet-4-5", system=[ { "type": "text", "text": "[你的靜態 System Prompt 文字,超過 1,024 Token]", "cache_control": {"type": "ephemeral"} # 標記這部分要緩存 } ], messages=[{"role": "user", "content": user_message}], ) ``` 注意事項:只有 System Prompt 的靜態部分(每次呼叫都一樣的部分)適合緩存。如果你的 System Prompt 裡有動態內容(例如當前日期、用戶姓名),把動態部分放在靜態部分之後,只對靜態部分啟用 cache_control。 監控緩存命中率:在 API 回應的 `usage` 欄位,有 `cache_creation_input_tokens`(首次計算)和 `cache_read_input_tokens`(緩存讀取)兩個數值,讓你知道緩存效率。
04 · 你該怎麼辦?
Prompt Caching 的最佳實踐: **結構化你的 System Prompt**:把靜態的、通用的規則放在前面(這部分緩存),把動態的、每次可能不同的內容放在後面(這部分不緩存)。這讓緩存命中率最大化。 **注意緩存有效期**:5 分鐘的緩存有效期,意味著如果你的應用在某些時段的呼叫間隔超過 5 分鐘,緩存會失效,下一次呼叫需要支付全額費用。對呼叫模式不規律的應用,實際的緩存節省可能比預期少。 **和 Prompt Compression 搭配**:先精簡 System Prompt(減少總 Token),再啟用 Caching(讓這些精簡後的 Token 只計算一次)——兩者搭配使用效果最好。 **適用於長篇文件 RAG**:如果你有固定的參考文件需要注入 Context,把文件放進 System Prompt 並啟用 Caching,能大幅節省每次查詢的費用。
實際例子 +
一個法律 AI 助手應用,System Prompt 裡包含了完整的法律責任說明和行為規範文件,總計 4,500 Token。這個應用的用戶每天總共發出 2 萬個問題。 沒有 Prompt Caching:4,500 Token × 20,000 次 = 9,000 萬 Token/天 有 Prompt Caching(假設 98% 命中率):首次計算:4,500 Token × 400 次(2% 未命中)= 180 萬 Token;緩存讀取:4,500 × 10% × 19,600 次 = 882 萬 Token;總計:1,062 萬 Token(原來的 11.8%) 這個應用的 System Prompt 相關費用從約 $27/天(以 Sonnet 定價估算)降到約 $3.2/天,月節省約 $710 美元。不改變任何用戶體驗,只需要在 API 請求裡加一個 cache_control 標記。
圖解
Prompt Caching — Cost Comparison Over 100 API CallsSystem Prompt: 3,000 tokens · User input avg: 200 tokens · Cache hit rate: 95%Without CachingSystem Prompt300,000tokens (100 × 3,000)+ User input: 20,000Total input: 320,000 tokensWith Caching (95% hit rate)First call: 3,000 tokens (full)95 cached reads:14,250tokens (95 × 3,000 × 10%)+ 1 full: 3,000+ User input: 20,000Total: 37,250 tokensSavings: 320,000 → 37,250 tokens = 88% reduction on this workloadActual savings depend on System Prompt length, call frequency, and cache hit rateClaude Me · claude-me.com
歡迎截圖分享,轉載請註明來源
常見誤解 +
✕ 誤解1
× 誤解一:Prompt Caching 會影響 Claude 的回答品質,因為它在「使用緩存的答案」。Prompt Caching 緩存的是 System Prompt 的「計算結果」(模型對 System Prompt 的內部表示),不是 Claude 的回答。每次呼叫 Claude 仍然根據這個緩存的上下文 + 你當次的問題,重新生成新的回答。緩存不影響輸出的多樣性或品質,只影響計算費用。
✕ 誤解2
× 誤解二:只要 System Prompt 超過 1,024 Token 就一定值得啟用 Prompt Caching。是否值得取決於呼叫頻率和緩存命中率。如果你的應用呼叫頻率很低(例如每小時只有幾次),5 分鐘的緩存有效期意味著大多數呼叫都是緩存未命中,首次計算費用,效益不明顯。Prompt Caching 最適合高頻應用(每分鐘多次呼叫)。
這件事跟你有什麼關係 +
直接影響
Prompt Caching 幾乎沒有明顯的取捨——它是純粹的費用優化,不影響輸出品質,實施成本也很低(只需在 API 請求裡加一個標記)。主要的考量點是:緩存失效的影響。如果你的應用在某個時段有很長的空閒期(超過 5 分鐘),緩存失效後的第一次呼叫需要支付全額費用。對呼叫模式很不規律的應用,實際節省可能比預期少。另外,緩存只適用於靜態的 System Prompt 部分——如果你的應用需要每次動態生成不同的 System Prompt,Prompt Caching 就不適用了。
提問
請至少輸入 10 個字