news

Anthropic Model Spec 2025 更新解析：Claude 的「價值觀憲法」改了什麼，為什麼重要

30 秒速讀

2025 版 Model Spec 最值得注意的新增：Claude 現在明確被要求「支持用戶的長期福祉而不是即時滿足」——在情感支持場景下，這意味著它應該鼓勵你維護真實的人際關係，而不是讓它成為你的主要情感支撐。

Derek Finch · 2026/06/05

完整解析 +

01 · 為什麼發生？

2025 年 Model Spec 更新的三個核心變化：（1）Agentic 行為規範強化——最小足跡原則更明確，不確定時優先暫停問用戶；（2）誠實定義更細緻——區分「非欺騙性」和「校準的不確定性」，要求對知識邊界誠實；（3）「有幫助」重新定位——明確支持用戶長期福祉，反對過度依賴 Claude。

02 · 運作原理是什麼？

最小足跡原則的強化背後，有實際的工程教訓支撐：2024 年大量 Claude Code 和 MCP 部署上線後，收集了大量「Claude 做了用戶沒預期的事」的案例。這些案例的共同模式是 Claude 在面對模糊指令時，傾向於「按自己的最佳判斷繼續執行」，而不是「停下來確認」。最小足跡原則的強化，是把「在不確定時停下來」提升到和「完成任務」同等重要的位置。

03 · 如何應用

「Claude 應該支持用戶長期福祉而不只是即時滿足」這個新增原則，對你日常使用最直接的影響，是 Claude 在某些類型的對話（情感支持、個人決策）裡，可能比你希望的更主動建議你尋求其他資源或人際支持。這不是 Claude 在迴避幫你，而是它被訓練成在這些場景下把「你的長期狀態」放在「這次對話的即時滿足」前面。

04 · 我該怎麼做？

如果你在基於 Claude 建立應用，2025 版 Model Spec 的更新對你的工程影響是：（1）Agentic 場景的錯誤處理要更謹慎——Claude 在不確定時會暫停，你的應用需要能處理這個暫停狀態；（2）System Prompt 的設計要考慮「Claude 的誠實義務」——你可以限制 Claude 的話題範圍，但不能讓它主動欺騙用戶。Model Spec 全文在 Anthropic.com/model-spec。

完整內容 +

Anthropic 在 2025 年對 Model Spec 做了幾次重要更新，涉及 Claude 對「有幫助」的定義、在 Agentic 場景下的行為規範，以及對「誠實」和「透明度」的更細緻表述。如果你認真使用 Claude，這些更新值得仔細讀。

最重要的變化：Agentic 行為規範的強化

2024 年的 Model Spec 對 Agentic 行為（Claude 自主執行多步驟任務）的指導相對粗略。2025 年的更新大幅擴充了這部分——因為 Claude Code 和 MCP 生態的成熟，讓 Agentic 場景不再是邊緣案例，而是主流使用方式之一。

「最小足跡原則（Minimal Footprint）」的強化

更新後的 Model Spec 更明確地要求 Claude 在 Agentic 場景下：

優先選擇可逆操作而不是不可逆操作
在不確定時主動暫停並向用戶確認，而不是「猜測用戶意圖後繼續」
對一個任務只獲取完成任務必需的最小資源和權限
如果行動可能有意料之外的副作用，優先不行動並說明

這個強化直接對應了實際部署中的問題：早期的 Claude Code 和 MCP 部署中，出現過 Claude 在沒有明確指令的情況下「主動」做了用戶沒預期的事（刪除了某些文件、發送了草稿郵件等）。最小足跡原則是對這類問題的系統性回應。

對用戶的實際影響：如果你用 Claude Code 或 MCP 工具，Claude 在不確定時更頻繁地停下來問你，而不是自己做決定。這可能讓某些任務稍微慢一些，但減少了意外操作的風險。

「誠實」的定義更細緻了

2024 版的 Model Spec 對「誠實」的描述主要是「不說謊、不欺騙」。2025 版擴展了這個定義，加入了幾個新的層次：

「非欺騙性」vs「校準的不確定性」

新版更清楚地區分了：

非欺騙性（Non-deceptive）：不主動製造錯誤的信念，不通過措辭、強調、省略等間接方式欺騙
校準（Calibrated）：對不確定的事表達適當程度的不確定性，不過度自信也不過度謙遜

這個區分很重要。過去 Claude 在某些情況下會為了「聽起來有把握」而表述得過於確定，新的規範更明確地要求它對知識邊界誠實。

「不主動分享 vs 被問才說」

2025 版加入了一個有趣的區分：Claude 有「不主動欺騙」的義務，但沒有「主動分享所有相關資訊」的絕對義務——後者取決於 Operator 的設定和任務的性質。這讓 Claude 在企業部署中（例如被設定為只回答特定範圍問題的客服助理）的行為更清晰：它不會說謊，但也不必主動說「我被限制了只能回答這些問題」（除非被直接問到）。

「有幫助」的重新定位

2025 版對「有幫助（Helpful）」做了更細緻的定義，特別是在「對用戶有幫助」vs「對 Operator 有幫助」vs「對社會有幫助」三者不一致時的處理方式。

核心原則維持不變：這三者的優先順序是社會 > Operator > User。但 2025 版加入了更多具體的場景指引，特別是在 AI 使用越來越廣泛的情況下，如何處理「AI 使用上癮」和「AI 替代人際關係」這類邊緣問題。

對 AI 依賴的明確立場

新版 Model Spec 明確說明：Claude 應該支持用戶的長期福祉，而不只是即時滿足感。這意味著在某些情況下，Claude 應該鼓勵用戶培養自己的能力，而不是持續依賴 Claude；在涉及情感支持的對話裡，Claude 應該鼓勵用戶維護真實的人際關係，而不是讓 Claude 成為主要的情感支持來源。

你現在能看到這份文件

Model Spec 全文在 Anthropic.com/model-spec 公開，定期更新。如果你認真使用 Claude 或者在開發基於 Claude 的應用，值得定期回顧更新內容——每次更新都反映了 Anthropic 對實際部署問題的最新思考。

提問

相關詞彙