ClaudeのコアアーキテクチャはTransformerで、「アテンション(注意)メカニズム」を通じて言語を理解します。アテンションにより、各トークンを処理する際に直前のいくつかの単語だけでなく、入力シーケンス全体を同時に参照できます。
Transformerアーキテクチャは2017年にGoogleの研究論文「Attention is All You Need」で導入され、自然言語処理の分野を根本的に変えました。Transformer以前の言語モデルは順次処理を行っており、長文処理の効率が低く、長距離依存関係を捉えるのが難しかったです。
Claudeの基盤となるアーキテクチャを理解することは、実際の使用にいくつかの直接的な影響があります。第一に、特定の情報を繰り返したり強調したりすることが効果的な理由を理解できます。第二に、幻覚の原因を理解できます。第三に、コンテキストウィンドウのサイズが重要な理由を理解できます。
TransformerとAttentionの理解を実際の使用テクニックに変換する:最も重要な指示をプロンプトの最初の段落に置く;タスクがClaudeに特定のセクションに特別な注意を払うことを要求する場合、明示的に言う;長い会話でClaudeが以前の重要な情報を「忘れ」始めたら、新しいメッセージで直接再述する。