名詞解析 · ai-safety

RLHF (Reinforcement Learning from Human Feedback)

Q: RLHF (Reinforcement Learning from Human Feedback) 如何實際應用？

RLHF 在 Claude 的訓練裡扮演什麼角色？ Anthropic 目前的訓練方法是純 RLHF 嗎？ Claude 的訓練不是純 RLHF，而是多種技術的結合。根據 Anthropic 公開的資訊： **基礎訓練**：大量文字資料的預訓練（讓 Claude 學習語言能力）+ 指令遵從的監督微調（讓 Claude 學會按照指令行動）。 **Constitutional AI（Anthropic 的核心對齊技術）**：定義一套原則（Helpful、Harmless、Honest），讓 Claude 在訓練過程中學習用這些原則審查和修改自己的輸出。這不完全依賴人工評估者打分，而是讓 AI 輔助 AI 的對齊訓練。 **RLHF 作為補充**：Anthropic 也使用人工評估者的偏好數據，但可能不像 OpenAI 早期那樣大量依賴純 RLHF。Constitutional AI 在某種程度上減少了對大量人工偏好標注的依賴。 **持續的對齊迭代**：訓練不是一次性的事情——每次新版本的 Claude，都會基於前一版本在真實使用中暴露的問題，調整訓練數據和訓練目標。這讓對齊是一個持續改進的工程。 **不透明的細節**：Anthropic 沒有公開 Claude 訓練的所有細節（這是商業機密），以上是基於公開發表的研究論文和 Anthropic 的公開聲明推斷的。

人類回饋強化學習

ai-safety 中級

30 秒版 · 給沒耐心的人

讓 AI 的行為逐漸符合人類偏好的訓練技術：人工評估者對 AI 的多個回答進行比較和評分，這些「哪個更好」的判斷被用來訓練一個「獎勵模型」，再用強化學習讓 AI 學習產生能獲得高分的回答。ChatGPT、Claude 早期版本都大量使用了 RLHF，是現代主流 LLM 從「能說話」升級到「說得好」的關鍵訓練步驟。

完整解說 +

01 · 這是什麼？

RLHF（Reinforcement Learning from Human Feedback，人類回饋強化學習）是現代 AI 助手訓練中最重要的技術突破之一。它解決了一個核心問題：一個只通過預測下一個詞訓練的語言模型，能生成流暢的文字，但不一定能生成「對人類有幫助、安全、誠實」的文字。RLHF 讓模型學習「什麼樣的回答是人類喜歡的」。

RLHF 的三個階段：

第一階段：監督微調（SFT）。在基礎預訓練模型上，用人工撰寫的「理想回答示範」繼續訓練模型，讓它學會基本的對話格式和指令遵從。

第二階段：訓練獎勵模型（Reward Model）。讓人工評估者對同一個問題的多個不同回答進行比較（「A 比 B 好」），用這些偏好數據訓練一個能預測「人類對這個回答的偏好分數」的獎勵模型。

第三階段：強化學習優化（PPO）。用 PPO（Proximal Policy Optimization）算法，讓模型在生成回答時最大化第二階段訓練的獎勵模型的分數。這讓模型逐漸學習生成「獎勵模型認為人類會喜歡」的回答。

為什麼這個方法有效？：比起「人工撰寫所有理想回答」，讓評估者「比較兩個回答哪個更好」要容易很多，也更高效。這讓大規模、高品質的偏好數據收集成為可能。

02 · 為什麼存在？

RLHF 有哪些已知的問題和限制？為什麼 Anthropic 要開發 Constitutional AI 作為補充？

RLHF 是目前最有效的對齊技術之一，但它有幾個已知的問題：

依賴人工標注、成本高且有擴展性限制：每次需要新的偏好數據，就要請評估者標注大量的「哪個回答更好」的比較。隨著模型能力的提升和覆蓋場景的擴大，所需的標注量也不斷增加，而高品質的人工標注是昂貴的。

評估者偏見會被放大：RLHF 學習的是「人類評估者認為好的回答的模式」，而不是「客觀上正確的回答」。如果評估者群體有系統性的偏見（如偏向某種語言風格、對特定話題有偏見），這些偏見可能被放大到整個模型裡。

獎勵欺騙（Reward Hacking）：模型可能學會「讓獎勵模型給高分」的方式，而這些方式不一定真的讓人類滿意——例如，生成冗長的回答（評估者可能因為看起來詳細就給高分）、或者過度迎合評估者可能喜歡的語言風格。

Constitutional AI 的改進邏輯：為了解決「人工標注太貴且有偏見」的問題，Anthropic 設計了 Constitutional AI——先給模型一套明確的原則（「回答要有用、無害、誠實」），讓模型用這些原則自己審查自己的輸出，並修改不符合原則的部分。這讓「評估什麼是好回答」的標準更透明（可以直接看到原則），也更可擴展（不需要對每種場景都做人工標注）。

03 · 如何影響你的決策？

RLHF 在 Claude 的訓練裡扮演什麼角色？Anthropic 目前的訓練方法是純 RLHF 嗎？

Claude 的訓練不是純 RLHF，而是多種技術的結合。根據 Anthropic 公開的資訊：

基礎訓練：大量文字資料的預訓練（讓 Claude 學習語言能力）+ 指令遵從的監督微調（讓 Claude 學會按照指令行動）。

Constitutional AI（Anthropic 的核心對齊技術）：定義一套原則（Helpful、Harmless、Honest），讓 Claude 在訓練過程中學習用這些原則審查和修改自己的輸出。這不完全依賴人工評估者打分，而是讓 AI 輔助 AI 的對齊訓練。

RLHF 作為補充：Anthropic 也使用人工評估者的偏好數據，但可能不像 OpenAI 早期那樣大量依賴純 RLHF。Constitutional AI 在某種程度上減少了對大量人工偏好標注的依賴。

持續的對齊迭代：訓練不是一次性的事情——每次新版本的 Claude，都會基於前一版本在真實使用中暴露的問題，調整訓練數據和訓練目標。這讓對齊是一個持續改進的工程。

不透明的細節：Anthropic 沒有公開 Claude 訓練的所有細節（這是商業機密），以上是基於公開發表的研究論文和 Anthropic 的公開聲明推斷的。

04 · 你該怎麼辦？

RLHF 改變了 AI 助手的發展方向——能舉一個具體的「RLHF 前後」對比嗎？

InstructGPT vs GPT-3 的對比是 RLHF 效果最著名的例子：

GPT-3（無 RLHF）：2020 年發布，能生成流暢的文字，但它被訓練來「預測下一個詞」而不是「作為助手回答問題」。如果你問它「寫一首關於春天的詩」，它可能會：繼續生成類似「寫一首關於春天的詩」的請求（因為這是它在訓練資料裡看到的常見文字），或者生成詩歌，但夾雜不相關的段落；它不理解「你是在向我提出請求，我應該完成這個任務」。

InstructGPT（有 RLHF）：2022 年發布，相同的底層架構，但加入了 SFT + RLHF。同樣的問題，它直接給出一首詩。InstructGPT 學會了「用戶在對我說話，我應該完成他們的請求」的對話框架。

OpenAI 論文裡的驚人發現：InstructGPT 的參數量只有 GPT-3 的 1.3%（1.3B vs 175B），但在讓人類評估者判斷「哪個回答更有用」的測試裡，InstructGPT 的勝率達到 85%。模型的「說話方式」比模型的「大小」更影響用戶感知的品質。

ChatGPT 本質上是在 GPT-3.5（更強的基礎模型）上加入了類似的 RLHF 訓練，這就是它為什麼能在 2022 年底迅速成為大眾使用的 AI 助手——RLHF 讓它從「能說話的模型」變成了「說話像人類助手的模型」。

實際例子 +

一個 NLP 工程師在公司評估要不要自己用 RLHF 微調一個 LLM，說明 RLHF 在實際工業應用裡的考量：

背景：他們公司用了一個開源 LLM（Llama 3），效果還可以但總是生成格式不符合他們業務需求的回答（不夠簡潔、有時候語氣不對）。他在評估是否要做 RLHF 微調。

需要的資源：至少幾千個「問題 + 多個回答 + 評估者偏好判斷」的標注數據；評估者（可以是領域專家或訓練過的標注員）；GPU 計算資源（RLHF 的計算量顯著高於純 SFT）；工程時間（RLHF 的工程複雜度較高）。

更簡單的替代方案評估：

先試試 Few-Shot Prompting（幾個好的輸出示範）和仔細的 System Prompt 設計，成本接近零。如果這樣已經夠用，就不需要 RLHF。如果不夠用，下一步考慮 SFT（只做監督微調，不做 RLHF），成本和複雜度顯著低於完整的 RLHF。只有在 SFT 也不夠用的情況下，才值得投入完整的 RLHF。

對大多數中小規模的公司，純 RLHF 微調的資源投入不划算——直接用 Anthropic 的 API（已經做了 RLHF 的 Claude），配合好的 Prompt 設計，通常是更划算的選擇。RLHF 的最大實際用戶是訓練基礎模型的大型 AI 公司，而不是在這些模型上做應用的公司。

圖解

歡迎截圖分享，轉載請註明來源

常見誤解 +

✕ 誤解1

× 誤解一：RLHF 讓 AI 學習了「正確答案」，所以 RLHF 訓練的模型輸出是可信的事實。RLHF 讓 AI 學習了「人類評估者認為好的回答模式」，而不是「客觀正確的事實」。人類評估者可能給「聽起來有道理、語氣好、有信心」的回答高分，而不是「實際上更準確」的回答。這就是為什麼 RLHF 訓練能顯著提升模型的「對話感」和「流暢度」，但不能消除幻覺——幻覺是模型「記憶的事實」有限的問題，RLHF 主要改善的是「說話方式」，不是「知道更多事實」。

✕ 誤解2

× 誤解二：RLHF 和 Constitutional AI 是對立的，Anthropic 用後者替代了前者。RLHF 和 Constitutional AI 是互補而不是對立的技術。Constitutional AI 解決了 RLHF 的一些問題（依賴大量人工標注、評估者偏見），但不是完全替代 RLHF。Claude 的訓練是多種技術的組合，包括 RLHF 和 Constitutional AI。更準確的理解是：Constitutional AI 讓對齊訓練更可擴展、更透明，同時保留了 RLHF 的優勢（直接從人類偏好學習）。

這件事跟你有什麼關係 +

直接影響

RLHF 的核心取捨是「對齊有效性 vs 資源成本和潛在偏見」。RLHF 是目前讓模型「說話更像有用助手」最有效的方法之一，但它需要大量昂貴的人工標注，而且人工評估者的偏見可能系統性地影響模型學到的偏好。Constitutional AI 試圖通過讓 AI 輔助 AI 的方式減少這個取捨的代價，但也帶來新的問題（原則的設計是否足夠全面和準確？讓 AI 自我評估是否可靠？）。沒有任何對齊技術是完美的——RLHF 和 Constitutional AI 都是在這個困難問題上的工程近似，而不是根本解決方案。

← 上一個詞條

Red Teaming

提問

參照詞條

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →