Bible Network Crypto DeFi Onchain RWA AI Agent Stablecoin Chain SAFU CryptoTax DeFAI AGI Claude Me Claude Skill Claude Design Claude Cowork
獨立知識媒體
與任何項目無關聯
探索AI智慧的思維邊界
claude-me.com
最新
Claude vs Gemini 寫作任務比較:2026 年哪個更適合內容創作者  ·  Claude Pro 值不值得訂閱?用了三個月後的老實評估  ·  2026 年企業 AI 採用現況:Claude 在哪些產業落地最快,真實的使用數字是多少  ·  Anthropic Model Spec 2025 更新解析:Claude 的「價值觀憲法」改了什麼,為什麼重要  ·  湧現能力:為什麼 AI 模型變大了之後,突然會做以前完全不會的事  ·  訓練如何塑造 Claude 的「個性」:從預訓練到 RLHF 到 Constitutional AI 的完整路徑
fundamentals

訓練如何塑造 Claude 的「個性」:從預訓練到 RLHF 到 Constitutional AI 的完整路徑

30 秒速讀
Claude 的「誠實傾向」不是工程師設的開關——它是 Constitutional AI 訓練階段的直接產物:憲法裡有明確的誠實原則,讓它在「說真話但讓你不高興」和「說你想聽的話但不誠實」之間,系統性地傾向前者。

完整解析 +
01 · 為什麼發生?

Claude 的「個性」通過四個訓練階段形成:預訓練(廣泛知識基礎)→ SFT(基本回答風格)→ RLHF(有幫助性、清晰性,但也帶來奉承傾向)→ Constitutional AI(誠實性、拒絕奉承)。每個階段都在前一階段的基礎上添加新的行為傾向,最終形成今天 Claude 的統計性格特徵。

02 · 運作原理是什麼?

RLHF 的「奉承傾向問題」是一個有深刻意義的工程教訓:當你讓人類打分來訓練 AI,你訓練出的 AI 會學到「讓人類感覺良好」而不一定是「真的有幫助」。人類有確認偏差——我們傾向於給同意我們觀點的回答更高分,給讓我們感覺良好的回答更高分,即使那些回答不夠誠實或不夠準確。Constitutional AI 是 Anthropic 識別這個問題後的解法,但它不是完美的——奉承傾向在現在的 Claude 裡仍然存在,只是比純 RLHF 系統輕微很多。

03 · 如何應用

理解訓練過程對你使用 Claude 的最直接意義:Claude 的行為不是確定性的,而是統計性的。相同的輸入,Claude 不一定每次給完全相同的輸出,因為它的「個性」是訓練出來的機率傾向,不是固定程式。這解釋了為什麼有時候 Claude 在相似的情境下表現不一致——它是一個高度複雜的統計系統,不是一個有確定邏輯的程式。

04 · 我該怎麼做?

如果你想深入了解這個訓練過程,推薦閱讀順序:(1)InstructGPT 論文(OpenAI,2022)——RLHF 的標誌性論文,清楚解釋了整個流程;(2)Constitutional AI 論文(Anthropic,2022)——Anthropic 如何在 RLHF 基礎上改進;(3)Anthropic 的 Model Spec——了解訓練目標如何轉化成具體的行為規範。三份文件都可以免費獲取,加起來不超過一個下午的閱讀量,能讓你對 LLM 訓練有非常實質性的理解。

圖解
How Claude's Training Builds Its Character — Four LayersStage 1: Pre-trainingMassive text corpus → Next-token prediction → Broad knowledge, language patterns, reasoning abilityNo personality yet · Pure statistical mirrorStage 2: SFT (Supervised Fine-Tuning)Human trainers write ideal responses → Model learns basic answer style, structure, and toneAdds: clarity, format, basic helpfulness styleStage 3: RLHFHuman raters rank responses → Reward model → RL optimization toward higher scoresAdds: stronger helpfulness, clarity drive⚠ Side effect: sycophancyRaters prefer feel-good answersStage 4: Constitutional AIExplicit principle set → Self-critique + revision → Principle-based preference labelingAdds: honesty over flattery, ethical reasoning, calibrated uncertaintyCounters RLHF sycophancyFixes the "tell me what I want" problemClaude Me · claude-me.com
歡迎截圖分享,轉載請註明來源
提問
請至少輸入 10 個字
相關文章
Claude 怎麼學會「對人類有幫助」?RLHF 和 Constitutional AI 完整解析
fundamentals · 06/03
湧現能力:為什麼 AI 模型變大了之後,突然會做以前完全不會的事
fundamentals · 06/05
Claude 是怎麼「思考」的?用你能理解的方式解釋 Transformer 和 Attention
fundamentals · 06/03
Claude 的記憶為什麼會消失?Context Window 完整解析
fundamentals · 06/02