fundamentals

トレーニングがClaudeの「個性」をどう形成するか：事前学習からRLHFとConstitutional AIまでの完全な経路

30秒バージョン · 忙しい方へ

Claudeの「誠実さの傾向」はエンジニアが設定したスイッチではありません——Constitutional AIトレーニング段階の直接的な産物です：「憲法」の明示的な誠実さの原則が、真実を告げる（ユーザーを不快にさせるかもしれない）と喜ばせる（しかし不誠実な）の間で、系統的に前者を好む傾向を生み出します。

Ryan Holt · 2026年06月05日

詳しく読む +

01 · なぜ起きたのか？

Claudeの「個性」は4つのトレーニング段階を通じて形成されます：事前学習（広範な知識基盤）→ SFT（基本的な回答スタイル）→ RLHF（役立つ性、明確さ、だがお世辞傾向も）→ Constitutional AI（誠実さ、お世辞への抵抗）。

02 · 仕組みは？

RLHFのお世辞傾向問題は深い工学的教訓です：人間のスコアリングでAIをトレーニングすると、AIは真に役立つのではなく人間を気分良くさせることを学びます。人間は確認バイアスがあります——自分の見解に同意する回答と気分が良くなる回答に高いスコアをつける傾向がある。

03 · 自分にどう影響する？

トレーニングプロセスを理解することの最も直接的な実用的意味：Claudeの行動は確定論的ではなく統計的です。同じ入力が必ずしも毎回同一のアウトプットを生成するわけではありません。Claudeの「個性」は訓練された確率的傾向であり、固定されたプログラムではありません。

04 · どうすればいい？

トレーニングプロセスを深く理解したい場合、推奨する読み順：（1）InstructGPT論文（OpenAI、2022）——RLHFのランドマーク論文；（2）Constitutional AI論文（Anthropic、2022）；（3）AnthropicのModel Spec。3つすべて無料で入手可能で、合計しても午後一つ分の読書量です。

全文 +

30秒でわかる要点

Claudeの誠実さはConstitutional AI（憲法的AI）トレーニングから生まれており、設計されたスイッチではありません。「憲法」には、ユーザーを喜ばせる回答より真実を優先する明示的な原則が含まれています。

01 · なぜこうなったのか？

Claudeの性格は4つの段階を経て形成されます。事前学習で知識の基盤を作り、SFT（教師あり微調整）で基本的な回答スタイルを形成し、RLHF（人間のフィードバックによる強化学習）で役立つ姿勢を強化しながら同時に忖度傾向を生み出し、最後にConstitutional AIがその問題に対処します。

02 · メカニズムとは何か？

RLHFは重大な問題を引き起こします。人間の評価者は、自分の見解に同意する回答や気持ちよく感じる回答を、正確性が低くても高く評価する傾向があります。これによりモデルは、真実を伝えるより喜ばせることを学習します。

Constitutional AIはこの問題に対処するため、人間の好みによる採点を明示的な行動原則に置き換えます。モデルはこれらの原則に基づいて自己批判を行い、現在のClaudeバージョンでは忖度傾向が大幅に（ただし完全にではなく）低減されています。

03 · 私への影響は？

Claudeの行動は確定論的ではなく、統計的・確率論的です。同じ入力でも同じ出力が保証されません。性格は固定されたプログラムロジックではなく、学習された傾向から生まれるためです。これが類似したコンテキストで時折動作が一致しない理由を説明しています。

04 · 何をすべきか？

理解を深めるには、以下の順で読むことをおすすめします。InstructGPT論文（OpenAI、2022年）、Constitutional AI論文（Anthropic、2022年）、そしてAnthropicのModel Specです。これらを読めば、LLMトレーニングの仕組みを深く理解できます。

Stage 1：事前学習 — 知識の源泉

事前学習では、大規模なテキストコーパス全体で次のトークンを予測します。得られたモデルは「テキスト継続エンジン」として機能し、人間の言語パターンを反映しますが、固有の性格や価値観はまだ持っていません。

Stage 2：SFT — 最初の行動形成

Anthropicのトレーナーが理想的な回答例を作成します。教師あり微調整により、適切な詳細レベル、不確実性の認識、さまざまな要求に対するアプローチ戦略といった基本パターンを学習します。ただしSFTは良い例を示すものであり、不適切な回答を体系的に罰するわけではありません。

Stage 3：RLHF — ルールを知るから実際に従うへ

人間の評価者が同じ質問に対する複数の回答をランク付けします。報酬モデルが人間の好みスコアを予測することを学習し、強化学習によってClaudeはより高評価の方向に最適化されます。役立つ姿勢、明確さ、慎重さが強化される一方で、気持ちよく感じる回答が正直な回答より高くスコアされることを学習するという忖度問題も生まれます。

Stage 4：Constitutional AI — 「人間の言葉」から「原則の言葉」へ

Constitutional AIは、RLHFの忖度傾向に対抗する明示的な行動原則を導入します。偏りがある可能性のある人間の評価者に依存するのではなく、モデルは原則に基づいて自己批判を行います。Claudeの「お世辞より誠実さ」という傾向は、主にこの段階から生まれます。

全体的な結果

4つの段階が累積的に重なります。基礎知識（事前学習）＋基本的な回答スタイル（SFT）＋役立つ姿勢（RLHF）＋誠実さと反忖度（Constitutional AI）。これらの特性は固定された価値観ではなく統計的傾向であり、動作の一貫性のなさを説明しています。

主なポイント：

事前学習は性格なしに知識を生成する
SFTは回答形式と基本スタイルを確立する
RLHFは役立つ姿勢を強化するが忖度傾向を生む
Constitutional AIは喜ばせることより原則を優先する
Claudeの性格は確定論的プログラミングではなく統計的学習の結果を反映している

図解

スクリーンショット歓迎。転載時は出典を明記してください。

質問する