Constitutional AI 和 RLHF 可以同時用嗎,還是互相取代?
兩者不是取代關係,而是結合使用。Anthropic 的做法是把 Constitutional AI 和 RLHF 整合進同一套訓練流程——SL-CAI 階段用的是監督學習,RLHF-CAI 階段用的是強化學習搭配 AI 生成的偏好標注。你可以把 Constitutional AI 理解為「替 RLHF 的偏好標注提供原則依據的框架」,而不是一個完全獨立的替代方案。
實際上,Anthropic 仍然會用人工回饋作為補充,特別是在需要主觀判斷的情境裡。Constitutional AI 的主要貢獻是讓這個流程更有原則依據、更能規模化,而不是完全消除人的角色。
那部「憲法」裡面的原則是哪裡來的,為什麼 Anthropic 有資格決定?
這是一個合理的、也是 Anthropic 自己在公開文件裡承認的問題。那部憲法的原則來源包括:聯合國人權宣言(被選擇是因為它有廣泛的國際共識基礎)、Anthropic 研究者自己的判斷(關於什麼樣的 AI 行為對人類有益)、以及從用戶和社會回饋裡提煉出的觀點。
為什麼是 Anthropic 來決定?因為他們是訓練這個模型的公司,目前沒有一個公認的外部機構有能力做這件事。Anthropic 對此的立場是:把憲法公開,讓任何人都可以讀到、批評、辯論它的內容,這本身就是一種問責機制。但他們也承認,誰來寫憲法是一個開放的問題,未來的對齊研究可能會找到更具參與性和代表性的方式來決定這些原則。
AI 用原則批評自己這件事,可靠嗎?它不會有盲點嗎?
會有盲點,而且 Anthropic 自己也承認這一點。AI 在用原則批評自己的回應時,可能出現幾種系統性問題:第一,如果原則的措辭本身有歧義,AI 對原則的詮釋可能就已經偏了,批評也跟著偏。第二,AI 的訓練資料裡可能有某些偏見,讓它在面對特定類型的有害內容時,比面對其他類型更敏感或更不敏感。第三,AI 很可能不擅長批評那些它「不知道自己不知道」的問題——它意識不到的盲點,自然也無法批評。
這也是為什麼 Anthropic 把 Constitutional AI 和其他方法(包括人工紅隊測試)結合使用,而不是把所有事情都交給 AI 自我批評。自我批評是一個有效的工具,但不是萬能的。
進階:Constitutional AI 和 Anthropic 提到的 Claude 個性(soul document)有什麼關係?
兩者是不同層次的東西,但相互影響。Constitutional AI 是一套訓練方法論——它決定了訓練過程怎麼走、用什麼原則來引導模型行為。Claude 的個性文件(Anthropic 內部稱為 soul document 或 character spec)則是對 Claude 作為一個 AI 助手應該有什麼樣的性格、價值觀、溝通風格的描述。
關係是這樣的:憲法裡的原則影響了模型在訓練過程中發展出的傾向;個性文件則進一步塑造了這些傾向如何在實際互動中表現出來。你可以把憲法想成是「塑造模型骨架」的工具,把個性文件想成是「描述這個骨架如何在日常生活中行動」的說明。兩者加在一起,才能解釋為什麼 Claude 在面對同樣的問題時,會以特定的方式、特定的語氣回應。
你有沒有好奇過,Anthropic 怎麼讓 Claude「知道」什麼該說、什麼不該說?答案不是一份規則表,也不是一個人工過濾的清單。它叫做 Constitutional AI,一套讓 AI 學會用原則而不是用例子清單來判斷自己行為的訓練方法。
這篇文章的目標是讓你真正理解這套方法的核心邏輯——不只是「知道這個詞」,而是能夠說清楚它和其他對齊方法的差別,以及為什麼它對 Claude 的行為有實際影響。
在 Constitutional AI 出現之前,主流的 AI 對齊方法叫做 RLHF(人類回饋強化學習)。做法是讓真人評估員看兩個回應,選出他們覺得比較好的那個,再用這些選擇訓練一個「偏好模型」,最後用偏好模型來引導 AI 往好的方向走。
這個方法的問題是規模。你需要大量的人工標注,而人工標注有成本、有速度限制、而且不同評估員對「什麼是好的回應」的判斷不一定一致。更根本的問題是:評估員是在根據感覺投票,不是在執行一套明確的原則。這讓 AI 很難從這個過程中學到一套穩定的、可說明的判斷標準。
Anthropic 的解法是:與其讓人來打分,不如給 AI 一套明文寫出來的原則(就是「憲法」),然後讓 AI 自己用這套原則來評估和改進自己的回應。
這部「憲法」是一份包含幾十條原則的文件,涵蓋了無害性、誠實性、對人類有益等面向。原則的來源多元:有聯合國人權宣言的精神、有 Anthropic 自己的研究判斷、也有從用戶回饋裡提煉出來的洞察。重點是:這些原則是明文的、可讀的、可被質疑的,不是藏在人工標注的黑盒子裡。
第一階段叫做 SL-CAI(監督學習版):先讓 Claude 對一些有害或有問題的提示產生回應,然後讓它用憲法原則來批評自己的回應(「這個回應有哪裡違反了誠實原則?」),最後根據批評來重寫一個更好的版本。把這些「原始回應 → 改進回應」的配對拿來做監督式微調。
第二階段叫做 RLHF-CAI(強化學習版):對同一個提示生成兩個回應,再讓 AI 本身用憲法原則來判斷哪個比較好——這個判斷本身就是訓練資料,用來訓練一個偏好模型,再用偏好模型做強化學習。這個流程裡,AI 既是學生也是評分者,但評分的依據是明確的原則,不是感覺。
Constitutional AI 最重要的貢獻有兩個。第一是可解釋性:你可以讀懂那部憲法,理解 Claude 在判斷某件事時依據的原則是什麼。這讓 AI 的行為有了可以被追問和討論的依據,而不只是一個黑盒子。第二是規模效率:減少了對大量人工標注的依賴,讓訓練過程可以更快、更大規模地迭代。
限制也是真實的。憲法本身的內容是由 Anthropic 決定的,所以「誰來寫憲法」本身就是一個權力問題。原則的措辭方式也會影響 AI 的行為——模糊的原則會產生模糊的判斷。而且 AI 在「用原則批評自己」這個環節,也可能有系統性的盲點,不是每次都能準確識別自己的問題。
理解 Constitutional AI,最直接的影響是你知道 Claude 的某些拒絕或限制不是「隨機的」,而是有原則依據的。如果 Claude 拒絕了你的某個請求,通常可以追溯到那部憲法裡的某條原則。這也意味著,如果你能重新框架你的請求,讓它在憲法原則下看起來更合理,Claude 的回應方式可能會不同。理解這套邏輯,讓你和 Claude 的互動從「碰運氣」變成「知道在跟什麼對話」。