コンテキストウィンドウとは、Claudeが一度の会話で処理できるテキストの最大量であり、トークン単位で計測されます。トークンは単語や文字と完全には一致せず、英語では約0.75単語が1トークン、日本語では1文字が約1〜2トークンに相当します。Claude Sonnet 4.6は最大20万トークンをサポートしています。
より重要な概念は、Claudeには会話をまたいだ長期記憶がないということです。毎回の会話はゼロから始まります。コンテキストウィンドウの中にないものは、Claudeには存在しないのと同じです。
コンテキストウィンドウが存在するのは、Transformerアーキテクチャの動作方式によるものです。入力処理には、テキスト全体にわたる「アテンション(注意)」の計算が必要です。この計算コストは入力長の二乗に比例して増加するため、非常に高コストです。コンテキストウィンドウの上限は、計算コスト、メモリ使用量、推論速度のトレードオフとして設計されたものです。
モデルによってコンテキストウィンドウのサイズが大きく異なるのはこのためです——それぞれの企業の技術的投資と計算インフラの違いを反映しています。
コンテキストウィンドウを理解することは、タスクの分割方法やプロンプトの組み立て方に直接影響します。大量の情報を一度に渡す習慣があると、ウィンドウが埋まるにつれてアウトプットの質が静かに低下します——Claudeは詳細を見落とし始め、回答が曖昧になりますが、「コンテキストが足りなくなってきました」とは教えてくれません。
開発者にとっては、コンテキストウィンドウのサイズはAPIコストに直結します。入力トークンも出力トークンも課金対象であり、毎回のリクエストでコンテキストを埋めると費用が急速に積み上がります。現在のタスクに本当に必要な情報だけを含める習慣がコスト管理の核心です。
すぐに実践できる調整:
重要な情報は先頭に置く:新しい会話を始めるたびに、役割設定、プロジェクトの背景、出力フォーマットの要件を最初のメッセージに含めてください。Claudeは先頭への注意力が最も高く、重要な情報を中間に埋めてはいけません。
長い文書は分割して処理する:長い文書はセクションごとに処理し、各セクションの終わりに要点の要約を求めてから次に進みましょう。
積極的に新しい会話を始める:会話が長くなりアウトプットの質が下がってきたと感じたら、同じ会話を続けるのではなく、新しい会話を開始し、重要な結論だけを持ち越しましょう。
システムプロンプトを活用する(開発者向け):固定の指示をシステムプロンプトに移すことで、毎回のトークン消費を減らし、モデルが常に確認できるようにします。
APIでトークン数を監視する:レスポンスのusageフィールドでprompt_tokensを確認し、上限に近づいたら積極的に管理しましょう。