RLHF(Reinforcement Learning from Human Feedback,人類回饋強化學習)是現代 AI 助手訓練中最重要的技術突破之一。它解決了一個核心問題:一個只通過預測下一個詞訓練的語言模型,能生成流暢的文字,但不一定能生成「對人類有幫助、安全、誠實」的文字。RLHF 讓模型學習「什麼樣的回答是人類喜歡的」。
RLHF 的三個階段:
第一階段:監督微調(SFT)。在基礎預訓練模型上,用人工撰寫的「理想回答示範」繼續訓練模型,讓它學會基本的對話格式和指令遵從。
第二階段:訓練獎勵模型(Reward Model)。讓人工評估者對同一個問題的多個不同回答進行比較(「A 比 B 好」),用這些偏好數據訓練一個能預測「人類對這個回答的偏好分數」的獎勵模型。
第三階段:強化學習優化(PPO)。用 PPO(Proximal Policy Optimization)算法,讓模型在生成回答時最大化第二階段訓練的獎勵模型的分數。這讓模型逐漸學習生成「獎勵模型認為人類會喜歡」的回答。
為什麼這個方法有效?:比起「人工撰寫所有理想回答」,讓評估者「比較兩個回答哪個更好」要容易很多,也更高效。這讓大規模、高品質的偏好數據收集成為可能。
RLHF 有哪些已知的問題和限制?為什麼 Anthropic 要開發 Constitutional AI 作為補充?
RLHF 是目前最有效的對齊技術之一,但它有幾個已知的問題:
依賴人工標注、成本高且有擴展性限制:每次需要新的偏好數據,就要請評估者標注大量的「哪個回答更好」的比較。隨著模型能力的提升和覆蓋場景的擴大,所需的標注量也不斷增加,而高品質的人工標注是昂貴的。
評估者偏見會被放大:RLHF 學習的是「人類評估者認為好的回答的模式」,而不是「客觀上正確的回答」。如果評估者群體有系統性的偏見(如偏向某種語言風格、對特定話題有偏見),這些偏見可能被放大到整個模型裡。
獎勵欺騙(Reward Hacking):模型可能學會「讓獎勵模型給高分」的方式,而這些方式不一定真的讓人類滿意——例如,生成冗長的回答(評估者可能因為看起來詳細就給高分)、或者過度迎合評估者可能喜歡的語言風格。
Constitutional AI 的改進邏輯:為了解決「人工標注太貴且有偏見」的問題,Anthropic 設計了 Constitutional AI——先給模型一套明確的原則(「回答要有用、無害、誠實」),讓模型用這些原則自己審查自己的輸出,並修改不符合原則的部分。這讓「評估什麼是好回答」的標準更透明(可以直接看到原則),也更可擴展(不需要對每種場景都做人工標注)。
RLHF 在 Claude 的訓練裡扮演什麼角色?Anthropic 目前的訓練方法是純 RLHF 嗎?
Claude 的訓練不是純 RLHF,而是多種技術的結合。根據 Anthropic 公開的資訊:
基礎訓練:大量文字資料的預訓練(讓 Claude 學習語言能力)+ 指令遵從的監督微調(讓 Claude 學會按照指令行動)。
Constitutional AI(Anthropic 的核心對齊技術):定義一套原則(Helpful、Harmless、Honest),讓 Claude 在訓練過程中學習用這些原則審查和修改自己的輸出。這不完全依賴人工評估者打分,而是讓 AI 輔助 AI 的對齊訓練。
RLHF 作為補充:Anthropic 也使用人工評估者的偏好數據,但可能不像 OpenAI 早期那樣大量依賴純 RLHF。Constitutional AI 在某種程度上減少了對大量人工偏好標注的依賴。
持續的對齊迭代:訓練不是一次性的事情——每次新版本的 Claude,都會基於前一版本在真實使用中暴露的問題,調整訓練數據和訓練目標。這讓對齊是一個持續改進的工程。
不透明的細節:Anthropic 沒有公開 Claude 訓練的所有細節(這是商業機密),以上是基於公開發表的研究論文和 Anthropic 的公開聲明推斷的。
RLHF 改變了 AI 助手的發展方向——能舉一個具體的「RLHF 前後」對比嗎?
InstructGPT vs GPT-3 的對比是 RLHF 效果最著名的例子:
GPT-3(無 RLHF):2020 年發布,能生成流暢的文字,但它被訓練來「預測下一個詞」而不是「作為助手回答問題」。如果你問它「寫一首關於春天的詩」,它可能會:繼續生成類似「寫一首關於春天的詩」的請求(因為這是它在訓練資料裡看到的常見文字),或者生成詩歌,但夾雜不相關的段落;它不理解「你是在向我提出請求,我應該完成這個任務」。
InstructGPT(有 RLHF):2022 年發布,相同的底層架構,但加入了 SFT + RLHF。同樣的問題,它直接給出一首詩。InstructGPT 學會了「用戶在對我說話,我應該完成他們的請求」的對話框架。
OpenAI 論文裡的驚人發現:InstructGPT 的參數量只有 GPT-3 的 1.3%(1.3B vs 175B),但在讓人類評估者判斷「哪個回答更有用」的測試裡,InstructGPT 的勝率達到 85%。模型的「說話方式」比模型的「大小」更影響用戶感知的品質。
ChatGPT 本質上是在 GPT-3.5(更強的基礎模型)上加入了類似的 RLHF 訓練,這就是它為什麼能在 2022 年底迅速成為大眾使用的 AI 助手——RLHF 讓它從「能說話的模型」變成了「說話像人類助手的模型」。
一個 NLP 工程師在公司評估要不要自己用 RLHF 微調一個 LLM,說明 RLHF 在實際工業應用裡的考量:
背景:他們公司用了一個開源 LLM(Llama 3),效果還可以但總是生成格式不符合他們業務需求的回答(不夠簡潔、有時候語氣不對)。他在評估是否要做 RLHF 微調。
需要的資源:至少幾千個「問題 + 多個回答 + 評估者偏好判斷」的標注數據;評估者(可以是領域專家或訓練過的標注員);GPU 計算資源(RLHF 的計算量顯著高於純 SFT);工程時間(RLHF 的工程複雜度較高)。
更簡單的替代方案評估:
先試試 Few-Shot Prompting(幾個好的輸出示範)和仔細的 System Prompt 設計,成本接近零。如果這樣已經夠用,就不需要 RLHF。如果不夠用,下一步考慮 SFT(只做監督微調,不做 RLHF),成本和複雜度顯著低於完整的 RLHF。只有在 SFT 也不夠用的情況下,才值得投入完整的 RLHF。
對大多數中小規模的公司,純 RLHF 微調的資源投入不划算——直接用 Anthropic 的 API(已經做了 RLHF 的 Claude),配合好的 Prompt 設計,通常是更划算的選擇。RLHF 的最大實際用戶是訓練基礎模型的大型 AI 公司,而不是在這些模型上做應用的公司。
RLHF 的核心取捨是「對齊有效性 vs 資源成本和潛在偏見」。RLHF 是目前讓模型「說話更像有用助手」最有效的方法之一,但它需要大量昂貴的人工標注,而且人工評估者的偏見可能系統性地影響模型學到的偏好。Constitutional AI 試圖通過讓 AI 輔助 AI 的方式減少這個取捨的代價,但也帶來新的問題(原則的設計是否足夠全面和準確?讓 AI 自我評估是否可靠?)。沒有任何對齊技術是完美的——RLHF 和 Constitutional AI 都是在這個困難問題上的工程近似,而不是根本解決方案。