用語解説 · core-concepts

Constitutional AI

コンスティチューショナルAI

core-concepts 中級

30秒バージョン · 忙しい方へ

Anthropicが提案したAIトレーニング方法で、個々の回答に対する人間の主観的なスコアリングに完全に依存するのではなく、明示的な行動原則（「憲法」）に従ってモデルが自己評価・改善できるよう訓練します。Claudeの誠実さと安全性の核心的なトレーニングメカニズムの一つです。

詳しく読む +

01 · これは何？

Constitutional AI（憲法的AI）はAnthropicが2022年に提案したAIアラインメントトレーニング方法です。コアアイデア：人間のアノテーターにどの回答が良いかを判断させる（RLHFのアプローチ）のではなく、モデルに明示的に書かれた行動原則のセット（「憲法」）を与え、それらの原則に従って自己評価と修正をさせます。

この「憲法」は明示的な原則リストで、例えば：「大規模な危害を引き起こす可能性のあることを人間が行うのを助けてはならない」「誠実であり、ユーザーを欺いてはならない」「人間の自律性を尊重し、特定の見方を押しつけてはならない」など。

02 · なぜ存在する？

Constitutional AIはRLHFの根本的な問題を解決するために登場しました：人間のアノテーターにはバイアスがあります。RLHFトレーニングでは、人間のアノテーターがモデルの回答を評価して、どちらが良いかを決定します。しかし人間の判断は多くの要因に影響されます：より自信があるように聞こえる回答（たとえ不正確でも）を好む場合があります。Constitutional AIはこれを解決しようとします：「アラインメントターゲット」を暗黙の人間の好みから、明示的に書かれた原則リストに変換します。

03 · 意思決定にどう影響する？

Constitutional AIを理解することで、Claudeのいくつかの行動特性の起源を理解する助けになります：

なぜClaudeは「この情報が正確かどうかわかりません」と言うことがあるのか？これは憲法原則「誠実さ」の具体的な体現です。

なぜClaudeは強い推薦や意見を求められたとき、「他の視点も考慮する価値があります」と付け加えることがあるのか？これは「人間の自律性の尊重」という憲法原則を反映しています。

なぜClaudeはリクエストを断る際に論理的な理由を示せるのか？原則のセットを学習しており、それに基づいて説明できるからです。

04 · どうすればいい？

Constitutional AIは研究コンセプトであり、直接「使用」できる機能ではありません。しかし理解することでClaudeとのインタラクションをより効果的にできます：

正直なフィードバックを望む場合、明示的に「同意する必要はありません——誠実さと役立つことの原則に基づいて問題点を教えてください」と言う。

Claudeがリクエストを断った場合、「このリクエストはどの原則に抵触しますか？」と尋ねることで通常より意味のある説明が得られます。

Constitutional AIについてさらに学ぶ：Anthropicは2022年に完全な研究論文（「Constitutional AI: Harmlessness from AI Feedback」）を発表しており、Anthropicの研究ページで見つけられます。

具体例 +

Constitutional AIの最も具体的な現れは、特定のシナリオでのClaudeと純粋にRLHFでトレーニングされたシステムとの行動の違いです。

シナリオ：ユーザーが記事を書いて「この記事をどう思いますか？」と聞きます。

純粋にRLHFでトレーニングされたシステムの傾向：主に肯定的なフィードバックを提供します（アノテーターが「肯定的な回答」を「批判的な回答」より良いと考えるため）。これが「お世辞傾向（Sycophancy）」です。

Claudeのアプローチ（Constitutional AIトレーニング付き）：Claudeは「誠実さ」を明示的なコア原則としてトレーニングされています——「ユーザーを気分良くさせる」より重要です。そのため、良い点を示しながらも記事の本当の問題を指摘する傾向があります。

図解

スクリーンショット歓迎。転載時は出典を明記してください。

よくある誤解 +

✕ 誤解 1

× 誤解1：Constitutional AIはClaudeに「自分の道徳的見解」を与え、独立して何が正しいかを決定できるようにする。Constitutional AIはClaudeに独立した道徳的推論能力を与えません——Anthropicが明示的に設定した原則に従うようClaudeをトレーニングします。Claudeは「何が正しいかを自分で考えている」のではなく、トレーニング中に学んだ原則を適用しています。

✕ 誤解 2

× 誤解2：Constitutional AIはClaudeが常に「政治的に正しい」回答を提供するようにする。Constitutional AIの目標は誠実さと無害性であり、政治的正しさではありません。Claudeは誰も不快にさせない曖昧な回答ではなく、たとえそれが一部の人を不快にさせても真実を伝えるようにトレーニングされています。

The Missing Link +

直接的な影響

Constitutional AIはトレーニング方法論です——ユーザーの視点から見ると、その影響は間接的ですが深遠です：Claudeの行動をより予測可能に、より誠実に、より理由のある拒否を行えるようにします。

利点：アラインメント目標を透明化する（Claudeの憲法を読める）；主観的な人間の好みへの依存を減らし、アラインメントトレーニングをよりスケーラブルに；モデルが特定の決定をなぜ行うかを説明できる。

課題と制限：原則自体を慎重に設計する必要がある；原則の適用はまだ確率的；原則間に競合が生じることがある；すべてのアラインメント問題を完全に解決するわけではない。

← 前の用語

Anthropic

次の用語 →

Context Length Optimization

質問する