名詞解析 · prompt-techniques

Prompt Compression

Q: Prompt Compression 為什麼重要？

**什麼時候我需要做提示詞壓縮，普通對話不用管嗎？** 一般的單次對話或短對話確實不需要。壓縮的需求來自「累積」：當你的對話已經跑了很多輪、或是一開始就塞了大量背景文件、或你在做多步驟的 Agent 任務，讓之前所有訊息都留在 context 裡，就會出現兩個問題：一是超出模型的 context window 上限，二是即使沒超出，你也在為那些不再需要的舊訊息的 token 付費、增加延遲。 一個簡單的判斷標準：如果你現在的提示詞已經超過 30K-50K tokens，或者你的 Agent 任務預計會跑很多輪，就值得開始思考壓縮策略。如果你只是問一個問題或做一兩輪對話，壓縮的邊際收益接近零。

Q: Prompt Compression 如何運作？

**壓縮摘要的時候，怎麼確保不遺漏重要資訊？** 幾個實用的原則。第一，保留決策和結論，捨棄推導過程。如果你和 Claude 討論了很久決定用 PostgreSQL 而不是 MongoDB，你需要保留「決定用 PostgreSQL，原因是 X」，不需要保留整個比較討論。第二，保留限制和約束。你在前面告訴 Claude 的「不能超過 1000 字」「輸出一定要是 JSON 格式」這類限制，必須原文保留或完整帶進摘要，因為它們影響後面所有輸出。 第三，懷疑自己是否可能後悔刪掉某段：如果你壓縮前問自己「這段的原文細節，我後面還可能需要嗎」，答案是「不確定」的就先留著，不要為了壓縮而壓縮。壓縮的目的是省掉確定不需要的部分，不是把所有東西都縮成最短。

Q: Prompt Compression 如何實際應用？

**有沒有工具或自動化方法幫我做提示詞壓縮，不用每次手動做？** 有幾種常見的自動化做法。最簡單的是滾動視窗：只保留最近 N 輪完整對話，更早的直接截掉。這個方法最粗糙，但對於上下文連貫性要求不高的任務夠用。 進階一點是讓 AI 自己摘要：在達到一定長度後，自動把前面的對話送給 Claude（或另一個更輕量的模型），請它摘要成幾行重點，再把摘要替換進 context。這方法效果好但每次摘要都要額外呼叫一次 API，有成本。更複雜的系統會引入向量資料庫（RAG 架構）：把對話歷史和文件嵌入成向量，需要時再查回相關段落，而不是把所有東西都放在 context 裡。這是目前長時間 Agent 系統最常見的架構，但實作複雜度也最高。

提示詞壓縮

prompt-techniques 中級

30 秒版 · 給沒耐心的人

提示詞壓縮是在不失去關鍵資訊的前提下，縮減送入 AI 模型的提示詞長度的技術。目的是讓對話在長時間或多輪次之後，不因為把所有歷史訊息都塞進上下文而超出模型的 context window，或造成不必要的費用和延遲。常用方法包括：把早期對話摘要成幾行重點、只保留最近幾輪完整記錄、刪去已經解決的分支、以及把長文件替換成精煉摘要。

完整解說 +

01 · 這是什麼？

什麼時候我需要做提示詞壓縮，普通對話不用管嗎？

一般的單次對話或短對話確實不需要。壓縮的需求來自「累積」：當你的對話已經跑了很多輪、或是一開始就塞了大量背景文件、或你在做多步驟的 Agent 任務，讓之前所有訊息都留在 context 裡，就會出現兩個問題：一是超出模型的 context window 上限，二是即使沒超出，你也在為那些不再需要的舊訊息的 token 付費、增加延遲。

一個簡單的判斷標準：如果你現在的提示詞已經超過 30K-50K tokens，或者你的 Agent 任務預計會跑很多輪，就值得開始思考壓縮策略。如果你只是問一個問題或做一兩輪對話，壓縮的邊際收益接近零。

02 · 為什麼存在？

壓縮摘要的時候，怎麼確保不遺漏重要資訊？

幾個實用的原則。第一，保留決策和結論，捨棄推導過程。如果你和 Claude 討論了很久決定用 PostgreSQL 而不是 MongoDB，你需要保留「決定用 PostgreSQL，原因是 X」，不需要保留整個比較討論。第二，保留限制和約束。你在前面告訴 Claude 的「不能超過 1000 字」「輸出一定要是 JSON 格式」這類限制，必須原文保留或完整帶進摘要，因為它們影響後面所有輸出。

第三，懷疑自己是否可能後悔刪掉某段：如果你壓縮前問自己「這段的原文細節，我後面還可能需要嗎」，答案是「不確定」的就先留著，不要為了壓縮而壓縮。壓縮的目的是省掉確定不需要的部分，不是把所有東西都縮成最短。

03 · 如何影響你的決策？

有沒有工具或自動化方法幫我做提示詞壓縮，不用每次手動做？

有幾種常見的自動化做法。最簡單的是滾動視窗：只保留最近 N 輪完整對話，更早的直接截掉。這個方法最粗糙，但對於上下文連貫性要求不高的任務夠用。

進階一點是讓 AI 自己摘要：在達到一定長度後，自動把前面的對話送給 Claude（或另一個更輕量的模型），請它摘要成幾行重點，再把摘要替換進 context。這方法效果好但每次摘要都要額外呼叫一次 API，有成本。更複雜的系統會引入向量資料庫（RAG 架構）：把對話歷史和文件嵌入成向量，需要時再查回相關段落，而不是把所有東西都放在 context 裡。這是目前長時間 Agent 系統最常見的架構，但實作複雜度也最高。

04 · 你該怎麼辦？

進階：在 Agent 系統裡，提示詞壓縮的策略和一般對話有什麼不同？

Agent 系統的壓縮比普通對話複雜得多，原因是 Agent 在執行過程中會累積大量「工具呼叫紀錄、中間結果、錯誤和重試紀錄」，這些東西有些對後續步驟有用，有些完全不需要。

幾個 Agent 場景特有的考量：第一，工具呼叫的輸出選擇性保留——如果 Agent 查了資料庫拿到 500 行結果、最後只用了 10 行做決策，壓縮時你需要的是「用來決策的那 10 行 + 決策結論」，不是 500 行原始輸出。第二，錯誤記錄需要區分「已解決」和「未解決」：已解決的可以摘要成「嘗試 X 失敗，改用 Y 成功」；未解決的必須原文保留，因為它影響後面的步驟規劃。第三，長時間 Agent 幾乎一定要設計週期性壓縮機制，而不是等到撞到 context 上限才處理。

實際例子 +

場景：你和 Claude 已經對話了 40 輪，正在合作寫一篇技術文章。前 30 輪討論了很多方向，最後決定聚焦在「MCP Server 的安全設計」這個角度，也確認了文章長度（1200 字）和受眾（中級開發者）。

問題：如果把 40 輪完整對話都保留，context 已經超過 60K tokens，費用高、而且早期那些被否定的方向根本不需要。

壓縮後的 context：摘要（3 行）：「我們討論過幾個方向，最終決定聚焦 MCP Server 安全設計。主要探討的問題是權限控管和傳輸加密。」保留原文：最新確認的角度、1200 字上限、受眾設定、最後三輪完整對話。刪除：所有被否決方向的完整討論。

結果：context 從 60K+ 縮到 8K 左右，Claude 仍然有所有需要的資訊來繼續寫作。

圖解

歡迎截圖分享，轉載請註明來源

常見誤解 +

✕ 誤解1

× 誤解一：提示詞壓縮就是把提示詞越短越好。短不是目標，「在最小 token 數內包含所有需要的資訊」才是。過度壓縮——把重要的細節也刪掉——會讓模型缺少做出好決策的背景，結果變差。壓縮是在「資訊完整性」和「token 效率」之間找最佳平衡，不是一味追求最短。

✕ 誤解2

× 誤解二：只要用「摘要」就能安全壓縮任何內容。摘要是有損壓縮——你一定會失去某些細節。問題是你事先不一定知道哪些細節後面會用到。對於關鍵的限制條件、確認過的決策、或精確的格式要求，「摘要」可能遺漏了正是下一步最關鍵的部分。這類內容應該原文保留，而不是只靠摘要。

✕ 誤解3

× 誤解三：壓縮是只在超出 context window 時才需要做的緊急手術。最好的做法是把壓縮策略設計進你的 Agent 或應用架構裡，讓它定期自動發生，而不是等到撞到上限才急著處理。主動壓縮比被動截斷更能保持上下文的品質，也更容易控制成本。

這件事跟你有什麼關係 +

直接影響

提示詞壓縮的核心取捨是：token 效率 vs 資訊完整性。

壓縮得越積極，費用越低、速度越快，但遺漏重要細節的風險越高。保留得越完整，資訊損失風險越低，但費用和延遲都上升，也更容易撞到 context 限制。

沒有放之四海皆準的策略，因為「什麼資訊後面還需要」在任務開始時你不一定知道。實務上最常見的折衷是：最新幾輪原文保留，早期歷史自動摘要，關鍵決策和限制顯式標注在 context 裡不讓它被壓縮。這樣能在大多數任務裡維持合理的品質和效率，同時讓最重要的資訊不會在摘要過程中消失。

提問

參照詞條

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →