用語解説 · core-concepts

Context Length Optimization

Q: Context Length Optimizationとは何ですか？

コンテキスト長の最適化はClaude APIコールでの入力 トークン 数を管理するエンジニアリング実践です。その目標は単に「コストを節約する」ことだけでなく——それが主な動機ですが——コスト、速度、アウトプット品質の間で最良のバランスを見つけることです。 重要な理由：Claude APIはトークンごとに課金し、入力トークン（送信するテキスト）と出力トークンは別々に請求されます。実際の本番アプリケーションでは、入力トークンは通常コストの60〜80%を占め、その大部分は最適化可能な「低価値トークン」です。さらに重要なのは「Lost in the Middle」効果です：Claudeはコンテキストの最初と最後への注意力が最も高く、中間の情報は希薄化されやすいです。

Q: Context Length Optimizationの仕組みは？

実装優先度順の4つの主要なコンテキスト長最適化技術： **技術1： システムプロンプト のトリミング（最高ROI）**： システムプロンプト は毎APIコールで課金されます。冗長な説明と繰り返しのフォーマット指示を圧縮し、各コールのベースコストを即座に削減します。 **技術2： プロンプトキャッシング （システムプロンプトが1,024 トークン 超の場合）**：Anthropicのプロンプトキャッシング機能でシステムプロンプトの静的部分をキャッシュし、後続の読み取りは10%のコストのみ。 **技術3：会話履歴のトランケーション**：全会話履歴を保持せず、最近のNターンのみ保持します。 **技術4：要約圧縮**：トランケーションよりも洗練された方法——安価なHaikuで古い会話履歴を要約に圧縮します。

コンテキスト長の最適化

core-concepts 進階

30秒バージョン · 忙しい方へ

APIコールでの入力<a href="/ja/glossary/core-concepts/token/">トークン</a>数を体系的に管理するエンジニアリング実践。アウトプット品質を維持しながらコストとレイテンシを削減することを目的とし、会話履歴のトランケーション、要約圧縮、<a href="/ja/glossary/prompt-techniques/system-prompt/">システムプロンプト</a>のトリミングなどの技術を組み合わせて適用します。本番のClaude API展開に欠かせないスキルです。

詳しく読む +

01 · これは何？

コンテキスト長の最適化はClaude APIコールでの入力トークン数を管理するエンジニアリング実践です。その目標は単に「コストを節約する」ことだけでなく——それが主な動機ですが——コスト、速度、アウトプット品質の間で最良のバランスを見つけることです。

重要な理由：Claude APIはトークンごとに課金し、入力トークン（送信するテキスト）と出力トークンは別々に請求されます。実際の本番アプリケーションでは、入力トークンは通常コストの60〜80%を占め、その大部分は最適化可能な「低価値トークン」です。さらに重要なのは「Lost in the Middle」効果です：Claudeはコンテキストの最初と最後への注意力が最も高く、中間の情報は希薄化されやすいです。

02 · なぜ存在する？

実装優先度順の4つの主要なコンテキスト長最適化技術：

技術1：システムプロンプトのトリミング（最高ROI）：システムプロンプトは毎APIコールで課金されます。冗長な説明と繰り返しのフォーマット指示を圧縮し、各コールのベースコストを即座に削減します。

技術2：プロンプトキャッシング（システムプロンプトが1,024トークン超の場合）：Anthropicのプロンプトキャッシング機能でシステムプロンプトの静的部分をキャッシュし、後続の読み取りは10%のコストのみ。

技術3：会話履歴のトランケーション：全会話履歴を保持せず、最近のNターンのみ保持します。

技術4：要約圧縮：トランケーションよりも洗練された方法——安価なHaikuで古い会話履歴を要約に圧縮します。

03 · 意思決定にどう影響する？

コンテキスト長の最適化は「会話メモリアーキテクチャ」の設計決定を通じてシステム設計に最も直接的な影響を与えます。多くの初心者はClaude会話履歴全体を渡しますが（最も簡単な実装）、これは長い会話でトークンの爆発を引き起こします。本番システムは通常「階層型メモリアーキテクチャ」を採用します：最近のターンの完全な記録（短期メモリ）+以前の交換の圧縮要約（中期メモリ）+タスクの重要な決定と事実（長期メモリ、RAGまたは直接注入を通じて）。

04 · どうすればいい？

コンテキスト長の最適化実装パスの推奨：

ステップ1：まずトークン消費の監査。console.Anthropic.com/settings/usageで日々のトークン消費分布を確認します。

ステップ2：システムプロンプトのトリミング。各文に対して「この文を削除するとClaudeの行動はどう変わるか？」を問います。

ステップ3：スライディングウィンドウ会話履歴を実装。最近の8ターンを保持することから始め、アウトプット品質が変化するかを観察します。

ステップ4：プロンプトキャッシングを評価。システムプロンプトが1,024トークンを超え、連続リクエストで変わらない場合、キャッシングを有効化します。

具体例 +

SaaS企業のAIカスタマーサービスシステムが毎日50,000件の会話リクエストを処理し、平均8ターン/会話。最適化前後の比較：System Promptを2,400から800トークンにトリミングし、Cachingを有効化。会話履歴を最近3ターン+要約に制限。総入力トークンが3.275億から4,750万に減少——85%削減、月次コストが$3,200から~$500に低下。

図解

スクリーンショット歓迎。転載時は出典を明記してください。

よくある誤解 +

✕ 誤解 1

× 誤解1：コンテキストは短いほど良い——可能な限り削減する。コンテキスト長の最適化は無差別な圧縮ではなく、すべてのトークンがアウトプット品質に貢献していることを確認することです。会話履歴をタスク完了に必要な重要なコンテキストを失うほど短くトランケートすると、品質低下によるビジネス損失がコスト節約を大幅に上回る可能性があります。

✕ 誤解 2

× 誤解2：より詳細なシステムプロンプトはClaudeのパフォーマンスを向上させるため、圧縮すべきではない。システムプロンプトの品質は長さと等しくありません。行動の境界とフォーマットルールを正確に定義した500語のシステムプロンプトは、冗長な説明に満ちた2,000語のシステムプロンプトよりも通常優れています。

The Missing Link +

直接的な影響

コンテキスト長の最適化の核心的なトレードオフ：エンジニアリングの複雑さ対コスト節約。最も単純な実装（すべての履歴を渡す）は最小のエンジニアリングコストですが、コストが予測不能；最も洗練された実装はコストを最小化しますが、エンジニアリングの複雑さが大幅に増加します。実践的な推奨：最も単純な実装から始め、コストが実際に問題になる前に過剰最適化しないでください。

質問する