Claude 的訓練分為兩個主要階段:預訓練(學習語言規律)和對齊訓練(學習「對人類有幫助」)。對齊訓練的主要方法是 RLHF(用人類的回饋偏好引導模型)和 Constitutional AI(用一套明確的行為原則進行自我評估)。兩者的結合,讓 Claude 既能生成有用的回答,又能在不確定時誠實說明,在需要拒絕時給出有意義的理由。
理解 RLHF 和 Constitutional AI,能幫你理解 Claude 和其他 AI 工具在行為上的差異。純 RLHF 訓練的系統容易出現「奉承傾向」(sycophancy)——傾向於告訴用戶他們想聽的話,而不是真實的答案。Constitutional AI 的加入讓 Claude 在這一點上有明顯不同:它被訓練成即使用戶不喜歡,也要保持誠實,這解釋了為什麼 Claude 有時會給出和你期望不同的回答,而不是簡單地附和你的觀點。
04 · 我該怎麼做?
把對 RLHF 和 Constitutional AI 的理解轉化為實際使用技巧:如果你想要誠實的回饋而不是奉承,明確告訴 Claude「我不需要你贊同我的觀點,我需要你告訴我哪裡有問題」;如果 Claude 拒絕了你的請求,問它「為什麼?」通常能得到有意義的解釋,而不是一句制式的「我無法幫助這件事」;如果你不確定 Claude 的回答是否準確,直接問「你對這個答案有多確信?有沒有你不確定的部分?」它被訓練成在這種情況下會誠實表達不確定性。
圖解
歡迎截圖分享,轉載請註明來源
分享卡片
Claude Mefundamentals
Claude 怎麼學會「對人類有幫助」?RLHF 和 Constitutional AI 完整解析
•預訓練讓 Claude 學語言規律,對齊訓練讓它學「對人類有幫助」
•RLHF:人類標記者評估回答,用偏好資料引導模型
•Constitutional AI:給模型一套明確原則,讓它自我批評和修訂
•兩者的結合讓 Claude 誠實優先、主動說明限制、拒絕有理由
•純 RLHF 容易產生「奉承傾向」,Constitutional AI 是解藥
The Missing Link
RLHF 讓 Claude 學會「人類喜歡什麼樣的回答」,Constitutional AI 讓它學會「什麼樣的回答是對的」——兩者的結合,才造就了既有幫助又誠實的 Claude。