Bible Network Crypto DeFi Onchain RWA AI Agent Stablecoin Chain SAFU CryptoTax DeFAI AGI Claude Me Claude Skill Claude Design Claude Cowork
獨立知識媒體
與任何項目無關聯
探索AI智慧的思維邊界
claude-me.com
最新
2026 Claude 模型全家族解析:新模型強在哪、什麼時候該換、換了要付多少  ·  Claude API 生產環境部署實戰:從原型到穩定上線的工程清單  ·  新手最常犯的五個 Claude 使用錯誤(以及怎麼改)  ·  Claude Enterprise vs Team:你的公司到底需要哪個方案?超過這個規模就必須升級  ·  用 Claude 做深度研究與知識合成:從多來源資訊到有觀點的分析報告  ·  Mechanistic Interpretability:Anthropic 為什麼要拆解 Claude 的「大腦」——AI 可解釋性的前沿研究
名詞解析 · ai-safety

RLHF (Reinforcement Learning from Human Feedback)

人類回饋強化學習
ai-safety 中級

30 秒版 · 給沒耐心的人
讓 AI 的行為逐漸符合人類偏好的訓練技術:人工評估者對 AI 的多個回答進行比較和評分,這些「哪個更好」的判斷被用來訓練一個「獎勵模型」,再用強化學習讓 AI 學習產生能獲得高分的回答。ChatGPT、Claude 早期版本都大量使用了 RLHF,是現代主流 LLM 從「能說話」升級到「說得好」的關鍵訓練步驟。
完整解說 +
01 · 這是什麼?

RLHF(Reinforcement Learning from Human Feedback,人類回饋強化學習)是現代 AI 助手訓練中最重要的技術突破之一。它解決了一個核心問題:一個只通過預測下一個詞訓練的語言模型,能生成流暢的文字,但不一定能生成「對人類有幫助、安全、誠實」的文字。RLHF 讓模型學習「什麼樣的回答是人類喜歡的」。

RLHF 的三個階段

第一階段:監督微調(SFT)。在基礎預訓練模型上,用人工撰寫的「理想回答示範」繼續訓練模型,讓它學會基本的對話格式和指令遵從。

第二階段:訓練獎勵模型(Reward Model)。讓人工評估者對同一個問題的多個不同回答進行比較(「A 比 B 好」),用這些偏好數據訓練一個能預測「人類對這個回答的偏好分數」的獎勵模型。

第三階段:強化學習優化(PPO)。用 PPO(Proximal Policy Optimization)算法,讓模型在生成回答時最大化第二階段訓練的獎勵模型的分數。這讓模型逐漸學習生成「獎勵模型認為人類會喜歡」的回答。

為什麼這個方法有效?:比起「人工撰寫所有理想回答」,讓評估者「比較兩個回答哪個更好」要容易很多,也更高效。這讓大規模、高品質的偏好數據收集成為可能。

02 · 為什麼存在?

RLHF 有哪些已知的問題和限制?為什麼 Anthropic 要開發 Constitutional AI 作為補充?

RLHF 是目前最有效的對齊技術之一,但它有幾個已知的問題:

依賴人工標注、成本高且有擴展性限制:每次需要新的偏好數據,就要請評估者標注大量的「哪個回答更好」的比較。隨著模型能力的提升和覆蓋場景的擴大,所需的標注量也不斷增加,而高品質的人工標注是昂貴的。

評估者偏見會被放大:RLHF 學習的是「人類評估者認為好的回答的模式」,而不是「客觀上正確的回答」。如果評估者群體有系統性的偏見(如偏向某種語言風格、對特定話題有偏見),這些偏見可能被放大到整個模型裡。

獎勵欺騙(Reward Hacking):模型可能學會「讓獎勵模型給高分」的方式,而這些方式不一定真的讓人類滿意——例如,生成冗長的回答(評估者可能因為看起來詳細就給高分)、或者過度迎合評估者可能喜歡的語言風格。

Constitutional AI 的改進邏輯:為了解決「人工標注太貴且有偏見」的問題,Anthropic 設計了 Constitutional AI——先給模型一套明確的原則(「回答要有用、無害、誠實」),讓模型用這些原則自己審查自己的輸出,並修改不符合原則的部分。這讓「評估什麼是好回答」的標準更透明(可以直接看到原則),也更可擴展(不需要對每種場景都做人工標注)。

03 · 如何影響你的決策?

RLHF 在 Claude 的訓練裡扮演什麼角色?Anthropic 目前的訓練方法是純 RLHF 嗎?

Claude 的訓練不是純 RLHF,而是多種技術的結合。根據 Anthropic 公開的資訊:

基礎訓練:大量文字資料的預訓練(讓 Claude 學習語言能力)+ 指令遵從的監督微調(讓 Claude 學會按照指令行動)。

Constitutional AI(Anthropic 的核心對齊技術):定義一套原則(Helpful、Harmless、Honest),讓 Claude 在訓練過程中學習用這些原則審查和修改自己的輸出。這不完全依賴人工評估者打分,而是讓 AI 輔助 AI 的對齊訓練。

RLHF 作為補充:Anthropic 也使用人工評估者的偏好數據,但可能不像 OpenAI 早期那樣大量依賴純 RLHF。Constitutional AI 在某種程度上減少了對大量人工偏好標注的依賴。

持續的對齊迭代:訓練不是一次性的事情——每次新版本的 Claude,都會基於前一版本在真實使用中暴露的問題,調整訓練數據和訓練目標。這讓對齊是一個持續改進的工程。

不透明的細節:Anthropic 沒有公開 Claude 訓練的所有細節(這是商業機密),以上是基於公開發表的研究論文和 Anthropic 的公開聲明推斷的。

04 · 你該怎麼辦?

RLHF 改變了 AI 助手的發展方向——能舉一個具體的「RLHF 前後」對比嗎?

InstructGPT vs GPT-3 的對比是 RLHF 效果最著名的例子:

GPT-3(無 RLHF):2020 年發布,能生成流暢的文字,但它被訓練來「預測下一個詞」而不是「作為助手回答問題」。如果你問它「寫一首關於春天的詩」,它可能會:繼續生成類似「寫一首關於春天的詩」的請求(因為這是它在訓練資料裡看到的常見文字),或者生成詩歌,但夾雜不相關的段落;它不理解「你是在向我提出請求,我應該完成這個任務」。

InstructGPT(有 RLHF):2022 年發布,相同的底層架構,但加入了 SFT + RLHF。同樣的問題,它直接給出一首詩。InstructGPT 學會了「用戶在對我說話,我應該完成他們的請求」的對話框架。

OpenAI 論文裡的驚人發現:InstructGPT 的參數量只有 GPT-3 的 1.3%(1.3B vs 175B),但在讓人類評估者判斷「哪個回答更有用」的測試裡,InstructGPT 的勝率達到 85%。模型的「說話方式」比模型的「大小」更影響用戶感知的品質。

ChatGPT 本質上是在 GPT-3.5(更強的基礎模型)上加入了類似的 RLHF 訓練,這就是它為什麼能在 2022 年底迅速成為大眾使用的 AI 助手——RLHF 讓它從「能說話的模型」變成了「說話像人類助手的模型」。

實際例子 +

一個 NLP 工程師在公司評估要不要自己用 RLHF 微調一個 LLM,說明 RLHF 在實際工業應用裡的考量:

背景:他們公司用了一個開源 LLM(Llama 3),效果還可以但總是生成格式不符合他們業務需求的回答(不夠簡潔、有時候語氣不對)。他在評估是否要做 RLHF 微調。

需要的資源:至少幾千個「問題 + 多個回答 + 評估者偏好判斷」的標注數據;評估者(可以是領域專家或訓練過的標注員);GPU 計算資源(RLHF 的計算量顯著高於純 SFT);工程時間(RLHF 的工程複雜度較高)。

更簡單的替代方案評估

先試試 Few-Shot Prompting(幾個好的輸出示範)和仔細的 System Prompt 設計,成本接近零。如果這樣已經夠用,就不需要 RLHF。如果不夠用,下一步考慮 SFT(只做監督微調,不做 RLHF),成本和複雜度顯著低於完整的 RLHF。只有在 SFT 也不夠用的情況下,才值得投入完整的 RLHF。

對大多數中小規模的公司,純 RLHF 微調的資源投入不划算——直接用 Anthropic 的 API(已經做了 RLHF 的 Claude),配合好的 Prompt 設計,通常是更划算的選擇。RLHF 的最大實際用戶是訓練基礎模型的大型 AI 公司,而不是在這些模型上做應用的公司。

圖解
RLHF 三階段訓練流程:從預訓練到符合人類偏好橫向三階段流程圖:第一階段是預訓練(在大量文字上訓練基礎語言能力);第二階段是監督微調(用人工撰寫的示範回答繼續訓練);第三階段是 RLHF(人工評估者比較多個回答的優劣 → 訓練獎勵模型 → 用 PPO 強化學習讓模型最大化獎勵分數),說明每個階段的目的和輸入輸出。RLHF — Three-Stage Training PipelineStage 1Pre-trainingInput: massive text data(books, web, code)Learn language patternspredict next tokenOutput: Base LLM(can generate text)Stage 2Supervised Fine-TuningInput: human-writtendemonstration responsesLearn to follow instructionsimitate good responsesOutput: SFT Model(follows instructions)Stage 3RLHFHuman evaluators compareresponse A vs B → prefer ATrain Reward Modelto predict human preferencePPO Reinforcement Learningmaximize reward model scoreOutput: RLHF Model(aligned with human preference)Claude Me · claude-me.com
歡迎截圖分享,轉載請註明來源
常見誤解 +
✕ 誤解1
× 誤解一:RLHF 讓 AI 學習了「正確答案」,所以 RLHF 訓練的模型輸出是可信的事實。RLHF 讓 AI 學習了「人類評估者認為好的回答模式」,而不是「客觀正確的事實」。人類評估者可能給「聽起來有道理、語氣好、有信心」的回答高分,而不是「實際上更準確」的回答。這就是為什麼 RLHF 訓練能顯著提升模型的「對話感」和「流暢度」,但不能消除幻覺——幻覺是模型「記憶的事實」有限的問題,RLHF 主要改善的是「說話方式」,不是「知道更多事實」。
✕ 誤解2
× 誤解二:RLHF 和 Constitutional AI 是對立的,Anthropic 用後者替代了前者。RLHF 和 Constitutional AI 是互補而不是對立的技術。Constitutional AI 解決了 RLHF 的一些問題(依賴大量人工標注、評估者偏見),但不是完全替代 RLHF。Claude 的訓練是多種技術的組合,包括 RLHF 和 Constitutional AI。更準確的理解是:Constitutional AI 讓對齊訓練更可擴展、更透明,同時保留了 RLHF 的優勢(直接從人類偏好學習)。
這件事跟你有什麼關係 +
直接影響

RLHF 的核心取捨是「對齊有效性 vs 資源成本和潛在偏見」。RLHF 是目前讓模型「說話更像有用助手」最有效的方法之一,但它需要大量昂貴的人工標注,而且人工評估者的偏見可能系統性地影響模型學到的偏好。Constitutional AI 試圖通過讓 AI 輔助 AI 的方式減少這個取捨的代價,但也帶來新的問題(原則的設計是否足夠全面和準確?讓 AI 自我評估是否可靠?)。沒有任何對齊技術是完美的——RLHF 和 Constitutional AI 都是在這個困難問題上的工程近似,而不是根本解決方案。

提問
請至少輸入 10 個字
相關文章
訓練如何塑造 Claude 的「個性」:從預訓練到 RLHF 到 Constitutional AI 的完整路徑
fundamentals · 06月05日
Claude 怎麼學會「對人類有幫助」?RLHF 和 Constitutional AI 完整解析
fundamentals · 06月03日