Bible Network Crypto DeFi Onchain RWA AI Agent Stablecoin Chain SAFU CryptoTax DeFAI AGI Claude Me Claude Skill Claude Design Claude Cowork
独立メディア
いかなるプロジェクトとも無提携
AI知性のフロンティアを探求する
claude-me.com
最新
Claude vs Gemini 文章作成タスク比較:2026年コンテンツクリエイターにはどちらが適しているか  ·  Claude Proは加入する価値があるか?3ヶ月後の正直な評価  ·  2026年の企業AI採用状況:Claudeがどの業界で最も速く普及し、実際の使用数はどのくらいか  ·  Anthropic モデルスペック2025更新解析:Claudeの「価値観憲法」の変更点とその重要性  ·  創発的能力:AIモデルが大きくなるとなぜ以前には全くなかった能力が突然現れるのか  ·  トレーニングがClaudeの「個性」をどう形成するか:事前学習からRLHFとConstitutional AIまでの完全な経路
fundamentals

トレーニングがClaudeの「個性」をどう形成するか:事前学習からRLHFとConstitutional AIまでの完全な経路

30秒バージョン · 忙しい方へ
Claudeの「誠実さの傾向」はエンジニアが設定したスイッチではありません——Constitutional AIトレーニング段階の直接的な産物です:「憲法」の明示的な誠実さの原則が、真実を告げる(ユーザーを不快にさせるかもしれない)と喜ばせる(しかし不誠実な)の間で、系統的に前者を好む傾向を生み出します。

詳しく読む +
01 · なぜ起きたのか?

Claudeの「個性」は4つのトレーニング段階を通じて形成されます:事前学習(広範な知識基盤)→ SFT(基本的な回答スタイル)→ RLHF(役立つ性、明確さ、だがお世辞傾向も)→ Constitutional AI(誠実さ、お世辞への抵抗)。

02 · 仕組みは?

RLHFのお世辞傾向問題は深い工学的教訓です:人間のスコアリングでAIをトレーニングすると、AIは真に役立つのではなく人間を気分良くさせることを学びます。人間は確認バイアスがあります——自分の見解に同意する回答と気分が良くなる回答に高いスコアをつける傾向がある。

03 · 自分にどう影響する?

トレーニングプロセスを理解することの最も直接的な実用的意味:Claudeの行動は確定論的ではなく統計的です。同じ入力が必ずしも毎回同一のアウトプットを生成するわけではありません。Claudeの「個性」は訓練された確率的傾向であり、固定されたプログラムではありません。

04 · どうすればいい?

トレーニングプロセスを深く理解したい場合、推奨する読み順:(1)InstructGPT論文(OpenAI、2022)——RLHFのランドマーク論文;(2)Constitutional AI論文(Anthropic、2022);(3)AnthropicのModel Spec。3つすべて無料で入手可能で、合計しても午後一つ分の読書量です。

図解
How Claude's Training Builds Its Character — Four LayersStage 1: Pre-trainingMassive text corpus → Next-token prediction → Broad knowledge, language patterns, reasoning abilityNo personality yet · Pure statistical mirrorStage 2: SFT (Supervised Fine-Tuning)Human trainers write ideal responses → Model learns basic answer style, structure, and toneAdds: clarity, format, basic helpfulness styleStage 3: RLHFHuman raters rank responses → Reward model → RL optimization toward higher scoresAdds: stronger helpfulness, clarity drive⚠ Side effect: sycophancyRaters prefer feel-good answersStage 4: Constitutional AIExplicit principle set → Self-critique + revision → Principle-based preference labelingAdds: honesty over flattery, ethical reasoning, calibrated uncertaintyCounters RLHF sycophancyFixes the "tell me what I want" problemClaude Me · claude-me.com
スクリーンショット歓迎。転載時は出典を明記してください。
質問する
10文字以上入力してください
関連記事
Claudeはどうやって「人間に役立つ」ことを学ぶのか?RLHFとConstitutional AIの完全解説
fundamentals · 06/03
創発的能力:AIモデルが大きくなるとなぜ以前には全くなかった能力が突然現れるのか
fundamentals · 06/05
Claudeは実際にどのように「考える」のか?Transformerとアテンションをわかりやすく解説
fundamentals · 06/03
Claudeはなぜ忘れるのか?コンテキストウィンドウ完全解説
fundamentals · 06/02