頭條 · AI 基礎原理
RLHF 讓 Claude 學會「人類喜歡什麼樣的回答」,Constitutional AI 讓它學會「什麼樣的回答是對的」——兩者的結合,才造就了既有幫助又誠實的 Claude。
Sophie Marlowe
·
2026年06月03日
一個剛訓練完的語言模型,就像一個讀了海量書籍但完全不知道「人類想要什麼」的學者。它能生成文字,但不一定有幫助、不一定安全、不一定誠實。那 Anthropic 是怎麼把它變成 Claude 的?
## 預訓練只是起點
所有大型語言模型的第一階段都是「預訓練(Pre-training)」——把模型暴露在海量的文字資料裡,讓它學習語言的統計規律:什麼詞通常跟在什麼詞後面,什麼樣的句子結構是合法的,不同主題的文字有什麼特徵。
預訓練後,模型的能力已經很強——它能生成流暢的文字、理解複雜的語意。但「能生成流暢的文字」不等於「對用戶有幫助」。一個預訓練完的模型,給它一個問題,它可能輸出任何和這個問題相關的文字,包含不正確的資訊、有偏見的觀點、甚至危險的內容——因為這些內容都出現在它的訓練資料裡。
這就是為什麼需要第二個階段:**對齊訓練(Alignment...