fundamentals

Claudeはどうやって「人間に役立つ」ことを学ぶのか？RLHFとConstitutional AIの完全解説

30秒バージョン · 忙しい方へ

RLHFはClaudeに「人間がどのような回答を好むか」を教え、Constitutional AIは「どのような回答が正しいか」を教えます——両者の組み合わせが、役立つと同時に誠実なClaudeを生み出しています。

Sophie Marlowe · 2026年06月03日

詳しく読む +

01 · なぜ起きたのか？

Claudeのトレーニングには2つの主要な段階があります：事前学習（言語パターンを学ぶ）とアラインメントトレーニング（「人間に役立つ」ことを学ぶ）。アラインメントトレーニングの主な方法はRLHF（人間のフィードバック好みでモデルを誘導）とConstitutional AI（明示的な行動原則のセットに基づく自己評価）です。

02 · 仕組みは？

RLHFはOpenAIによって2017年から2020年代初頭にかけて体系化され、InstructGPTのトレーニングで大規模に適用されました。AnthropicのConstitutional AIはRLHFの革新であり、人間の好みアノテーションへのRLHFの依存という問題を解決します——アノテーターのバイアスと不一致がトレーニング済みモデルの行動に直接影響します。

03 · 自分にどう影響する？

RLHFとConstitutional AIを理解することは、Claudeと他のAIツールの行動の違いを説明するのに役立ちます。純粋にRLHFでトレーニングされたシステムは「お世辞傾向」（sycophancy）が生じやすいです——真実の回答より、ユーザーが聞きたいことを言う傾向があります。Constitutional AIの追加により、ClaudeはユーザーがClaude答えを好まない場合でも誠実を保つようにトレーニングされています。

04 · どうすればいい？

RLHFとConstitutional AIの理解を実際の使用テクニックに変換する：お世辞ではなく正直なフィードバックが必要な場合、Claudeに明示的に伝える「同意する必要はありません——問題がどこにあるかを教えてください」；Claudeがリクエストを断った場合、「なぜ？」と尋ねると通常、定型文ではなく意味のある説明が得られます；Claudeの回答が正確かどうか不確かな場合、「この回答にどれくらい自信がありますか？」と直接尋ねます。

全文 +

訓練が終わったばかりの言語モデルは、膨大な本を読んでいるが「人間が何を求めているか」を全く知らない学者のようなものです。テキストを生成できますが、必ずしも役立つ、安全、または誠実とは限りません。では、AnthropicはどうやってそれをClaudeに変えたのでしょうか？

事前学習は出発点に過ぎない

すべての大規模言語モデルは「事前学習（Pre-training）」から始まります。事前学習後、モデルの能力はすでに印象的です——流暢なテキストを生成し、複雑な意味論を理解できます。しかし「流暢なテキストの生成」は「ユーザーへの有用性」とは等しくありません。これが第2段階「アラインメントトレーニング」が必要な理由です。

RLHF：人間の好みでモデルを導く

RLHF（Reinforcement Learning from Human Feedback、人間のフィードバックによる強化学習）は現在最も主流のアラインメントトレーニング方法です。

Constitutional AI：Claudeに明確な価値観の原則を与える

Constitutional AIはAnthropicが2022年に提案したアラインメントトレーニングアプローチです。コアアイデア：人間のアノテーターにどの回答が良いかを判断させるのではなく、モデルに明示的な行動原則のセットを与え、その原則に基づいて自己評価させます。

これらの方法の組み合わせがClaudeの個性を形成する

ClaudeはRLHFとConstitutional AIの組み合わせでトレーニングされており、いくつかの顕著な特性を説明します：正直さがお世辞より優先される；積極的に限界を認める；拒否には理由がある。

図解

スクリーンショット歓迎。転載時は出典を明記してください。

質問する