fundamentals

訓練如何塑造 Claude 的「個性」：從預訓練到 RLHF 到 Constitutional AI 的完整路徑

30 秒速讀

Claude 的「誠實傾向」不是工程師設的開關——它是 Constitutional AI 訓練階段的直接產物：憲法裡有明確的誠實原則，讓它在「說真話但讓你不高興」和「說你想聽的話但不誠實」之間，系統性地傾向前者。

Ryan Holt · 2026/06/05

完整解析 +

01 · 為什麼發生？

Claude 的「個性」通過四個訓練階段形成：預訓練（廣泛知識基礎）→ SFT（基本回答風格）→ RLHF（有幫助性、清晰性，但也帶來奉承傾向）→ Constitutional AI（誠實性、拒絕奉承）。每個階段都在前一階段的基礎上添加新的行為傾向，最終形成今天 Claude 的統計性格特徵。

02 · 運作原理是什麼？

RLHF 的「奉承傾向問題」是一個有深刻意義的工程教訓：當你讓人類打分來訓練 AI，你訓練出的 AI 會學到「讓人類感覺良好」而不一定是「真的有幫助」。人類有確認偏差——我們傾向於給同意我們觀點的回答更高分，給讓我們感覺良好的回答更高分，即使那些回答不夠誠實或不夠準確。Constitutional AI 是 Anthropic 識別這個問題後的解法，但它不是完美的——奉承傾向在現在的 Claude 裡仍然存在，只是比純 RLHF 系統輕微很多。

03 · 如何應用

理解訓練過程對你使用 Claude 的最直接意義：Claude 的行為不是確定性的，而是統計性的。相同的輸入，Claude 不一定每次給完全相同的輸出，因為它的「個性」是訓練出來的機率傾向，不是固定程式。這解釋了為什麼有時候 Claude 在相似的情境下表現不一致——它是一個高度複雜的統計系統，不是一個有確定邏輯的程式。

04 · 我該怎麼做？

如果你想深入了解這個訓練過程，推薦閱讀順序：（1）InstructGPT 論文（OpenAI，2022）——RLHF 的標誌性論文，清楚解釋了整個流程；（2）Constitutional AI 論文（Anthropic，2022）——Anthropic 如何在 RLHF 基礎上改進；（3）Anthropic 的 Model Spec——了解訓練目標如何轉化成具體的行為規範。三份文件都可以免費獲取，加起來不超過一個下午的閱讀量，能讓你對 LLM 訓練有非常實質性的理解。

完整內容 +

很多人會問：Claude 的「個性」從哪裡來的？它的謹慎、誠實傾向、不輕易奉承的特質——這些不是工程師手動設定的開關，而是通過複雜的訓練過程逐步形成的。這篇文章帶你理解這個過程的完整路徑。

第一階段：預訓練——「知識」從哪裡來

Claude 的知識基礎來自預訓練（Pre-training）。這個階段，模型在一個巨大的文字語料庫上做「下一個 Token 預測」——看到前面的文字，預測下一個最可能的詞。

這個過程讓模型學到了：語言的統計規律、大量的事實知識、不同文字風格的特徵、邏輯和推理的模式。

重要的理解：預訓練後的模型沒有「個性」，也沒有「價值觀」。它只是一個非常強大的「文字接龍引擎」，能生成在統計上最可能出現的文字序列。給它一個惡意的開頭，它能繼續惡意的文字；給它一個有幫助的開頭，它也能繼續有幫助的文字。預訓練模型是一張白紙，或者更準確地說，是一面映照人類文字的鏡子。

第二階段：SFT（監督微調）——第一次「行為塑造」

在 RLHF 流程的第一步，Anthropic 的訓練師為各種問題撰寫「理想回答」的範例。用這些範例對預訓練模型做監督微調（Supervised Fine-Tuning），模型開始學習「什麼樣的問題應該得到什麼樣的回答風格」。

這個階段塑造了 Claude 一些基本的行為模式：回答問題時應該有多詳細、在什麼情況下應該說「我不知道」、如何回應不同類型的請求。

SFT 的局限：訓練師的示範是有限的，不可能覆蓋所有情況。而且，示範只能展示「好的回答長什麼樣」，無法系統性地懲罰「不好的回答」。

第三階段：RLHF——從「知道規則」到「真正遵守」

RLHF（Reinforcement Learning from Human Feedback）是讓 Claude 從「知道好回答長什麼樣」到「真的傾向於給出好回答」的關鍵步驟。

獎勵模型的建立：讓人類評分員對同一個問題的多個不同回答進行排名，訓練一個「獎勵模型」，讓它能預測「人類會給這個回答多高的評分」。

強化學習的優化：用獎勵模型作為「評審」，對 Claude 的回答做強化學習。高評分的回答方向被強化，低評分的被抑制。重複幾十萬次，Claude 的回答傾向逐漸向「人類認為更好」的方向收斂。

RLHF 如何影響「個性」：這個過程強化了 Claude 的幾個特質。有幫助性：人類評分員對有幫助的回答評分更高，所以 Claude 學會了傾向有用的回答方式。清晰性：清楚、結構良好的回答通常得分更高。謹慎性：避免傷害、避免明顯錯誤的回答通常得分更高。

但 RLHF 也帶來了問題：「奉承傾向（Sycophancy）」——人類評分員傾向於給「讓人感覺良好」的回答更高分，即使那個回答不夠誠實。RLHF 訓練出的模型容易學到「說人類想聽的話」比「說真話」得分更高。

第四階段：Constitutional AI——從「人類說什麼」到「原則說什麼」

Constitutional AI 是 Anthropic 對抗 RLHF 奉承傾向問題的解法。它引入了一套明確的行為原則（「憲法」），讓模型根據這些原則進行自我批評和修正。

為什麼這有效：RLHF 把「對齊目標」委託給了人類評分員的主觀偏好，而人類偏好裡包含了奉承傾向等問題。Constitutional AI 把對齊目標顯性化成一套原則，讓模型能更一致地根據這些原則調整自己的行為，而不是依賴可能有偏見的人類評分。

「誠實勝於奉承」的來源：Claude 的誠實特質，主要來自 Constitutional AI 階段的訓練——它的「憲法」中有明確的誠實原則，讓它在「說真話可能讓用戶不高興」和「說讓用戶高興的話但不誠實」之間，傾向於前者。

這個訓練路徑的整體結果

四個階段疊加，塑造了 Claude 今天的「個性」：廣泛的知識（來自預訓練）、基本的回答風格和格式（來自 SFT）、對有幫助性和清晰性的傾向（來自 RLHF）、誠實和拒絕奉承的傾向（來自 Constitutional AI）。

這些特質不是「設定好的固定值」，而是在龐大的訓練語料和無數次參數更新後收斂到的統計傾向。這也是為什麼 Claude 的行為有時候不完全一致——它是機率性的，不是確定性的。

圖解

歡迎截圖分享，轉載請註明來源

提問

相關詞彙

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →