プロンプト圧縮は、アウトプット品質を維持しながらAPIコールごとの入力トークン数を削減する技術の総称です——コストを削減し応答速度を向上させます。
なぜプロンプト圧縮が必要か:Claude APIはトークン単位で課金されます。高頻度アプリケーションでは、入力の累積コストは相当なものになります。2,000トークンのSystem Promptで1日10,000回のAPIコールは、System Promptだけで毎月約$180になります。800トークンに簡潔化すると同じ計算で約$72になり、$108節約できます。
4つの主なプロンプト圧縮の方向:System Promptの簡潔化;会話履歴の圧縮;ドキュメントの切り捨てとフィルタリング;構造化入力。
アウトプット品質を低下させずにSystem Promptを効果的に簡潔化するにはどうすればよいですか?
原則1:ルールの説明の代わりに例を使用する。冗長版(約80トークン):トーン要件の長い説明。簡潔版(約30トークン):「トーン:親切、技術用語を避ける。例:[好ましい表現を示す短い例]」。同じ効果で約60%少ないトークン。
原則2:動作に影響しない背景情報を削除する。タスク完了にClaudeが必要としない会社紹介や背景説明を削除します。
原則3:段落の代わりに構造化フォーマットを使用する。100トークンの段落説明は通常40トークンの箇条書きリストで同じか良い効果を達成できます。
検証方法:簡潔化後、最も一般的な10〜20のテストケースで前後のアウトプット品質を比較します。
マルチターン会話の履歴圧縮はどのように行うべきですか?いつ圧縮し、どのように圧縮するか?
会話履歴は最も速く成長するプロンプトコンポーネントです——各ターンが蓄積され、制御なしでは長い会話が最終的にコンテキストウィンドウ全体を埋めます。
いつ圧縮するか:トリガー条件を設定します——「会話履歴が15ターンを超える」または「現在のコンテキスト使用量が50%を超える」。
方法1——ローリング要約:最初のNターンのClaude生成要約で原文を置き換えます。
方法2——重要情報の保持:重要度評価をターンごとに行います。重要な決定、ユーザーの明示的な好み、重要なエラー修正を含むターンは原文を保持。
注意:圧縮された要約は会話履歴の最初(System Promptの後)に配置して、Claudeが続ける前にコンテキスト要約を読むようにします。
System Promptと会話履歴以外に、ドキュメント入力のトークンをどのように制御しますか?
長いドキュメントを分析するアプリケーションでは、ドキュメント自体がトークン消費の最大のソースであることが多いです。
方法1——階層フィルタリング:ドキュメント全体を入力しない。まず「関連性フィルター」を行います——Haiku(非常に低コスト)を使って段落レベルの関連性スコアリングを行い、4点以上の段落のみをメインのAPIコールに入力します。
方法2——構造化抽出:固定フォーマットのドキュメントには、元のテキスト全文ではなくキーフィールドを構造化フォーマットに抽出します。5,000トークンの契約は構造化抽出後500トークンになる可能性があります。
方法3——スライディングウィンドウ:非常に長いドキュメントには、ドキュメント全体ではなく最も関連性の高い「ウィンドウ」(例:関連セクションの前後各2,000トークン)のみを各コールに含めます。
月8,000件の契約を処理する法律テクノロジー会社のAI契約審査アプリケーション——プロンプト圧縮の実際のコスト影響を示す:
圧縮前:System Prompt 3,200トークン、各契約平均8,000トークン(全文)、Sonnet 4.6で約$0.056/契約、月8,000件で$448。
3つの圧縮措置:System Promptの簡潔化(3,200→900トークン);構造化抽出(Haikuを使って2,500トークンの構造化情報を抽出);Prompt Cachingを有効化。
圧縮後:約$0.033/契約、月8,000件で$264——$448から41%節約。
プロンプト圧縮のコアなトレードオフ:コスト最適化 vs エンジニアリング投資と保守コスト。効果的なプロンプト圧縮には時間がかかります:冗長な内容の分析、圧縮後の効果のテスト、会話履歴圧縮ロジックの設計、構造化ドキュメント抽出パイプラインの保守。プロンプト圧縮が価値があるかどうかの簡単な基準:期待される月次節約 × 12(年間節約)> 圧縮のエンジニアリング時間コスト、であれば価値があります。