fundamentals

Claude 怎麼學會「對人類有幫助」？RLHF 和 Constitutional AI 完整解析

30 秒速讀

RLHF 讓 Claude 學會「人類喜歡什麼樣的回答」，Constitutional AI 讓它學會「什麼樣的回答是對的」——兩者的結合，才造就了既有幫助又誠實的 Claude。

Sophie Marlowe · 2026/06/03

完整解析 +

01 · 為什麼發生？

Claude 的訓練分為兩個主要階段：預訓練（學習語言規律）和對齊訓練（學習「對人類有幫助」）。對齊訓練的主要方法是 RLHF（用人類的回饋偏好引導模型）和 Constitutional AI（用一套明確的行為原則進行自我評估）。兩者的結合，讓 Claude 既能生成有用的回答，又能在不確定時誠實說明，在需要拒絕時給出有意義的理由。

02 · 運作原理是什麼？

RLHF 由 OpenAI 在 2017-2020 年代初期系統化，並在 InstructGPT 的訓練中被大規模應用，後來成為訓練 ChatGPT 的核心方法。Anthropic 的 Constitutional AI 是在 RLHF 基礎上的創新，目的是解決 RLHF 依賴人類偏好標記的問題——人類標記者的偏見和不一致性，會直接影響 RLHF 訓練出來的模型的行為，Constitutional AI 試圖用明確的原則取代主觀偏好判斷。

03 · 如何應用

理解 RLHF 和 Constitutional AI，能幫你理解 Claude 和其他 AI 工具在行為上的差異。純 RLHF 訓練的系統容易出現「奉承傾向」（sycophancy）——傾向於告訴用戶他們想聽的話，而不是真實的答案。Constitutional AI 的加入讓 Claude 在這一點上有明顯不同：它被訓練成即使用戶不喜歡，也要保持誠實，這解釋了為什麼 Claude 有時會給出和你期望不同的回答，而不是簡單地附和你的觀點。

04 · 我該怎麼做？

把對 RLHF 和 Constitutional AI 的理解轉化為實際使用技巧：如果你想要誠實的回饋而不是奉承，明確告訴 Claude「我不需要你贊同我的觀點，我需要你告訴我哪裡有問題」；如果 Claude 拒絕了你的請求，問它「為什麼？」通常能得到有意義的解釋，而不是一句制式的「我無法幫助這件事」；如果你不確定 Claude 的回答是否準確，直接問「你對這個答案有多確信？有沒有你不確定的部分？」它被訓練成在這種情況下會誠實表達不確定性。

完整內容 +

一個剛訓練完的語言模型，就像一個讀了海量書籍但完全不知道「人類想要什麼」的學者。它能生成文字，但不一定有幫助、不一定安全、不一定誠實。那 Anthropic 是怎麼把它變成 Claude 的？

預訓練只是起點

所有大型語言模型的第一階段都是「預訓練（Pre-training）」——把模型暴露在海量的文字資料裡，讓它學習語言的統計規律：什麼詞通常跟在什麼詞後面，什麼樣的句子結構是合法的，不同主題的文字有什麼特徵。

預訓練後，模型的能力已經很強——它能生成流暢的文字、理解複雜的語意。但「能生成流暢的文字」不等於「對用戶有幫助」。一個預訓練完的模型，給它一個問題，它可能輸出任何和這個問題相關的文字，包含不正確的資訊、有偏見的觀點、甚至危險的內容——因為這些內容都出現在它的訓練資料裡。

這就是為什麼需要第二個階段：對齊訓練（Alignment Training）。

RLHF：用人類的偏好來引導模型

RLHF（Reinforcement Learning from Human Feedback，人類回饋強化學習）是目前最主流的對齊訓練方法，OpenAI 用它訓練了 ChatGPT，Anthropic 也用了它。

RLHF 的流程大致是這樣的：

第一步：監督式微調（SFT） 從預訓練模型開始，讓人類標記者示範「理想的回答應該長什麼樣」——對於各種不同的問題，人類寫出他們認為最好的回答，然後用這些「示範資料」對模型進行微調，讓模型學習「這種問題應該這樣回答」。

第二步：訓練獎勵模型（Reward Model） 讓人類標記者評估同一個問題的多個不同回答，排序哪個更好。用這些偏好資料訓練一個「獎勵模型」——這個模型的工作是預測「人類會認為這個回答有多好」，給出一個分數。

第三步：強化學習優化 用獎勵模型作為「老師」，讓語言模型嘗試各種不同的回答，獎勵那些能獲得高分的回答方向，懲罰那些低分的。通過大量反覆的「嘗試-獎懲-調整」，模型逐漸學會生成人類認為更好的回答。

RLHF 的限制：人類標記者是有偏見的

RLHF 的核心問題：它把「人類偏好」當成了「正確答案」的代理，但人類偏好並不等於正確或安全。

人類標記者可能偏好聽起來更有把握的回答（即使它不準確）、偏好更長更詳細的回答（即使簡短的更好）、或者在某些文化和政治議題上有明顯的系統性偏見。如果標記者的偏好有問題，RLHF 訓練出來的模型就會有對應的問題。

這就是 Anthropic 在 RLHF 之外額外開發「Constitutional AI」的原因。

Constitutional AI：給 Claude 一套明確的價值觀原則

Constitutional AI（憲法式 AI）是 Anthropic 在 2022 年提出的一種對齊訓練方法，它的核心想法是：與其讓人類標記者判斷什麼回答更好，不如給模型一套明確的行為原則，讓它根據這些原則自我評估。

這套「憲法」（Constitution）是一份明確寫出的原則清單，例如：「不應該幫助人類做可能造成大規模傷害的事情」「應該誠實，不應該欺騙使用者」「應該尊重人類的自主性，不強迫特定觀點」。

Constitutional AI 的訓練流程：

第一步：AI 生成批評（AI Critique） 讓模型對自己的回答進行批評——根據憲法裡的原則，指出自己的回答哪裡有問題。

第二步：AI 修訂回答（AI Revision） 讓模型根據自己的批評，修訂回答，生成更符合憲法原則的版本。

第三步：AI 偏好標記（AI Preference Labeling） AnthropicConstitutional AI 的關鍵創新：讓模型本身（而不是人類標記者）對多個回答做出評分和排序——依據的是憲法裡的原則，而不是純主觀的偏好。

這個方法能大幅減少對人類標記者的依賴，同時讓對齊訓練的「目標」更明確、更一致。

這兩種方法的結合，造就了 Claude 的個性

Claude 不是 RLHF 訓練出來的、也不是 Constitutional AI 單獨訓練出來的——Anthropic 把兩者結合，形成了一個多層次的訓練流程。

這個訓練過程解釋了 Claude 的幾個顯著特性：

誠實優於討好：Claude 被訓練成即使回答讓用戶不舒服，也要保持誠實，而不是說用戶想聽的話。這和純 RLHF 的系統不同——純 RLHF 系統很容易學會「人類喜歡被告訴他們想聽的話」，從而傾向於奉承。

主動說明限制：Claude 被訓練成在不確定時主動表明不確定性，在超出能力範圍時主動說明，而不是假裝無所不知。

拒絕有理由：Claude 不是因為設了一份「禁止清單」才拒絕某些請求，而是因為它學習了一套原則，根據原則判斷某些請求不應該被滿足。這讓它能對「為什麼拒絕」給出有意義的解釋。

圖解

歡迎截圖分享，轉載請註明來源

提問

相關詞彙