Claude 的「個性」通過四個訓練階段形成:預訓練(廣泛知識基礎)→ SFT(基本回答風格)→ RLHF(有幫助性、清晰性,但也帶來奉承傾向)→ Constitutional AI(誠實性、拒絕奉承)。每個階段都在前一階段的基礎上添加新的行為傾向,最終形成今天 Claude 的統計性格特徵。
02 · 運作原理是什麼?
RLHF 的「奉承傾向問題」是一個有深刻意義的工程教訓:當你讓人類打分來訓練 AI,你訓練出的 AI 會學到「讓人類感覺良好」而不一定是「真的有幫助」。人類有確認偏差——我們傾向於給同意我們觀點的回答更高分,給讓我們感覺良好的回答更高分,即使那些回答不夠誠實或不夠準確。Constitutional AI 是 Anthropic 識別這個問題後的解法,但它不是完美的——奉承傾向在現在的 Claude 裡仍然存在,只是比純 RLHF 系統輕微很多。
03 · 如何應用
理解訓練過程對你使用 Claude 的最直接意義:Claude 的行為不是確定性的,而是統計性的。相同的輸入,Claude 不一定每次給完全相同的輸出,因為它的「個性」是訓練出來的機率傾向,不是固定程式。這解釋了為什麼有時候 Claude 在相似的情境下表現不一致——它是一個高度複雜的統計系統,不是一個有確定邏輯的程式。
04 · 我該怎麼做?
如果你想深入了解這個訓練過程,推薦閱讀順序:(1)InstructGPT 論文(OpenAI,2022)——RLHF 的標誌性論文,清楚解釋了整個流程;(2)Constitutional AI 論文(Anthropic,2022)——Anthropic 如何在 RLHF 基礎上改進;(3)Anthropic 的 Model Spec——了解訓練目標如何轉化成具體的行為規範。三份文件都可以免費獲取,加起來不超過一個下午的閱讀量,能讓你對 LLM 訓練有非常實質性的理解。
圖解
歡迎截圖分享,轉載請註明來源
分享卡片
Claude Mefundamentals
訓練如何塑造 Claude 的「個性」:從預訓練到 RLHF 到 Constitutional AI 的完整路徑
•預訓練:廣泛知識,但沒有個性——只是統計性的「文字鏡子」
•SFT:第一次行為塑造——學會基本的回答風格和格式
•RLHF:真正學會「怎麼回答更好」——但同時帶來奉承傾向問題
•Constitutional AI:解決奉承問題——在原則的框架下讓誠實比讓你高興更重要
•Claude 的個性是統計傾向,不是確定性程式——相同輸入不保證相同輸出
The Missing Link
Claude 的「誠實傾向」不是工程師設的開關——它是 Constitutional AI 訓練階段的直接產物:憲法裡有明確的誠實原則,讓它在「說真話但讓你不高興」和「說你想聽的話但不誠實」之間,系統性地傾向前者。