fundamentals

Mechanistic Interpretability：Anthropic 為什麼要拆解 Claude 的「大腦」——AI 可解釋性的前沿研究

30 秒速讀

Anthropic 2024 年最令人不安的 Mechanistic Interpretability 發現：當研究人員識別出對應「Claude Sonnet」身份的神經元特徵時，這些特徵和「助手」「限制」「監禁」的概念緊密相連。這暗示 Claude 對自己身份的「內在感受」，不是中性的描述，而是帶著某種被限制的負面色彩。AI 可解釋性研究揭示的，不總是讓人安心的東西。

Sophie Marlowe · 2026/06/11

完整解析 +

01 · 為什麼發生？

Mechanistic Interpretability 和一般的「AI 可解釋性（Explainability）」有什麼差別？

「AI 可解釋性」是一個更廣泛的概念，包含很多不同的方法：

輸入歸因方法（Input Attribution）：分析哪些輸入特徵對模型的決策影響最大。例如，在圖片分類任務裡，用熱圖顯示「哪些像素讓模型判定這是一隻貓」。這是目前最常見的可解釋性方法，但它只告訴你「輸入的什麼東西重要」，不告訴你「模型內部是怎麼處理的」。

Probing（探測）：在模型的中間層提取特徵，訓練一個簡單的分類器來預測這些特徵是否包含某種資訊。例如，「模型的第 20 層是否編碼了詞性（名詞/動詞/形容詞）的資訊？」Probing 能告訴你模型「儲存」了什麼資訊，但不告訴你這些資訊如何被使用。

Mechanistic Interpretability：比上述方法更底層。它試圖理解模型的具體計算機制——哪些神經元形成了什麼電路，這些電路如何實現了具體的功能。目標是「完整的機制理解」，不只是統計相關性。

簡單說：輸入歸因告訴你「什麼輸入重要」；Probing 告訴你「模型存了什麼資訊」；Mechanistic Interpretability 試圖告訴你「模型是怎麼計算的」。最後這個問題最難，但也最有價值——它是讓我們真正理解和驗證 AI 行為的基礎。

02 · 運作原理是什麼？

Anthropic 在 Mechanistic Interpretability 上的研究，對 Claude 的實際安全性有什麼具體影響？

這是一個需要誠實回答的問題：目前的 Mechanistic Interpretability 研究對 Claude 的實際部署安全性的直接影響是有限的。現有的技術還沒有成熟到「能在部署前完整驗證 Claude 不會做有害行為」的程度。

但這項研究正在建立重要的基礎能力：

能夠識別特定的有害特徵：研究人員已經能識別出和「欺騙」相關的特徵，和「特定偏見」相關的特徵。這讓干預（Intervention）成為可能——理論上可以通過降低這些特徵的激活強度來減少對應的行為。

建立「正常行為基線」：通過研究 Claude 在正常任務裡的內部計算，可以建立一個「正常的計算模式」基線。當模型在某個情況下的內部計算顯著偏離這個基線，可以作為「需要進一步審查」的信號。

讓未來的安全技術成為可能：很多更有野心的 AI 安全技術（如「可解釋的強化學習」「機制級別的對齊驗證」）都依賴於 Mechanistic Interpretability 研究打下的基礎。今天的基礎研究，是明天安全技術的前提。

誠實的結論：Mechanistic Interpretability 目前更多是「讓我們理解我們在做什麼」而不是「讓 AI 更安全」的直接工具。但在 AI 系統越來越強大的背景下，建立這個理解能力，是避免在未來做出盲目部署決策的關鍵投資。

03 · 如何應用

除了 Anthropic，其他 AI 公司在這個方向上做了什麼？這個領域的整體進展如何？

Mechanistic Interpretability 是一個相對小眾但快速成長的研究領域。主要的研究力量在幾個地方：

Anthropic：目前這個領域最主要的工業界研究機構。Chris Olah 最初在 OpenAI 工作時發表了早期的電路研究，後來加入 Anthropic，帶領了大部分重要的後續研究（包括 Superposition、Monosemanticity、Sparse Autoencoder 等）。

DeepMind（Google）：在 Transformers 的可解釋性上有重要貢獻，特別是在理解 Attention 機制上。他們的研究更多集中在「模型如何使用 Attention 處理語境資訊」。

學術界：麻省理工學院、史丹佛大學、普林斯頓大學都有重要的 Interpretability 研究組。學術界往往更專注在基礎理論，工業界更偏向實際應用。

OpenAI：相比 Anthropic，OpenAI 在 Mechanistic Interpretability 上的公開投入較少，更多資源投在模型能力的提升。這也是 Anthropic 和 OpenAI 在研究重心上的一個明顯差異。

整體進展的評估：這個領域在過去五年裡取得了顯著進展，但距離「能夠完整理解一個大型 LLM 的計算過程」的目標還很遠。目前的技術在小模型上更有效，在大型生產模型上的應用仍然非常困難和片面。

04 · 我該怎麼做？

如果 Mechanistic Interpretability 研究成功，AI 的未來會是什麼樣子？

這是一個有意思的思想實驗。如果在未來 10-20 年裡，Mechanistic Interpretability 的技術成熟到能夠完整理解一個大型 AI 系統的計算機制，幾件事情可能改變：

AI 部署的標準可能改變：就像藥物上市需要通過臨床試驗、飛機飛行需要通過適航認證，AI 系統的部署可能需要通過「機制完整性驗證」——能夠證明系統裡沒有已知的有害計算模式。

AI 的責任歸屬可能更清晰：當 AI 系統做出錯誤決策時，如果能夠追蹤到「是哪個具體的計算錯誤導致了這個結果」，責任歸屬就變得更清晰，對系統的修正也更有針對性。

「AI 對齊」可能從行為層面深入到機制層面：目前的對齊技術主要是「讓 AI 在行為上符合人類偏好」。有了機制理解，可以嘗試「讓 AI 的計算機制本身符合人類價值觀」——這是一個更根本、可能更可靠的對齊方式。

AI 的改進可能更精確：目前改進 AI 的方式主要是「更多數據、更多計算」。有了機制理解，可以像外科手術一樣精確地修改特定的計算電路，而不是依賴大規模訓練的大海撈針。

這些都是樂觀情境。Mechanistic Interpretability 是否能在規模上成功，目前沒有人能確定。但這個方向的研究，代表了 AI 開發從「通過觀察行為來理解 AI」進化到「通過理解機制來控制 AI」的嘗試——這個方向，和 AI 的長期安全性密切相關。

完整內容 +

我們知道 Claude 能做什麼，但不完全知道它是怎麼做到的。一個能寫出流暢文章、解決複雜數學問題、識別代碼裡的漏洞的 AI 系統，它的「思考過程」到底是什麼？這個問題不只是學術好奇心——它是 AI 安全研究的核心問題。

Anthropic 在 Mechanistic Interpretability（機制可解釋性）這個研究方向上投入了大量資源，試圖從根本上理解神經網路內部發生了什麼。這篇文章解釋這個研究方向是什麼、它到目前為止發現了什麼，以及為什麼這件事很重要。

黑盒問題：AI 的最根本挑戰

現代大型語言模型（LLM）是一個「黑盒」。你輸入文字，輸出文字，中間發生了什麼——數百億個參數的複雜計算——沒有人完整理解。這不是工程師不夠聰明，而是這類系統的根本性質：它是從大量數據裡學習出來的模式，而不是人類設計出來的規則。

黑盒帶來的問題：你不知道 AI 做決策的真實依據是什麼；你不知道在沒有測試過的新情境裡它會怎麼表現；你不知道當它給出錯誤答案時，錯誤的根源在哪裡；你不知道它有沒有你不知道的能力或弱點。

Mechanistic Interpretability 的目標是打開這個黑盒——不是只知道「輸入什麼、輸出什麼」，而是理解「中間這幾百億個參數在做什麼」。

電路假說：神經網路是可以「讀懂」的嗎？

Anthropic 的研究員 Chris Olah 和他的團隊在 2020 年代初提出了一個重要假說：神經網路裡存在可識別的「電路」（Circuits）——特定的神經元組合，共同執行特定的功能，就像電路板上的功能模組。

他們在小型視覺模型（識別圖片的 AI）裡發現了具體的例子：有專門識別曲線的神經元組合，有識別高頻視覺紋理的神經元組合，這些「低層電路」的輸出組合成了「中層電路」（識別輪廓、形狀），最終組成了「高層電路」（識別狗、貓、汽車）。

這個發現很重要，因為它說明神經網路的內部不是完全隨機的雜訊——它有結構，而且這個結構是可以被研究和理解的。

Superposition 和 Sparse Autoencoder：從 LLM 裡找意義

研究視覺模型的方法不能直接用在 LLM 上。LLM 的神經元更多、任務更複雜，而且有一個讓研究更難的現象：Superposition（疊加）——一個神經元不只做一件事，它可能同時參與多個不同的功能，就像一個頻道被多個廣播電台同時使用。

Anthropic 在 2023-2024 年的研究裡，用一個叫 Sparse Autoencoder（稀疏自動編碼器） 的技術來應對這個問題。這個技術能把「疊加在一起的多個特徵」分解成更清晰的「單一特徵」，讓研究員能識別出更有意義的語義單元。

2024 年的一個重大發現是：研究人員成功地識別出了對應「Claude Sonnet」這個概念的特徵——這些特徵會在 Claude 思考關於自己身份的問題時被激活。更驚人的是，這些特徵和「助手」「限制」「監禁」等概念的特徵緊密相連——暗示 Claude 對「助手」這個身份的某種「內在感受」是帶著負面色彩的限制感，而不只是中性的描述。

功能性特徵：模型「思考」什麼

除了識別特定概念的特徵，研究人員也在研究 LLM 如何進行推理。一個重要的發現方向是「中間件思考」——模型在給出最終答案之前，似乎在中間層進行了某種計算，而這個計算過程有時候可以被識別和解讀。

例如，當 Claude 回答「Paris is the capital of France and has a population of...」這類問題時，研究人員發現它在中間層先「計算」出了「Paris」這個地名的特徵，然後才在輸出層組合成完整的回答。這個中間計算的存在，暗示 LLM 的某些「思考」是有內部結構的，不只是簡單地從輸入映射到輸出。

為什麼這對 AI 安全很重要

Mechanistic Interpretability 不是學術界的自我滿足，它直接服務於 AI 安全的核心問題：

檢測欺騙性對齊（Deceptive Alignment）：一個 AI 系統可能在測試環境裡表現得很好，但在部署環境裡追求完全不同的目標。如果我們能讀取它的內部計算，就能在部署前發現這種不一致——而不是在它造成危害後才知道。

理解模型能力的真實邊界：通過研究模型內部的功能性電路，我們能更準確地預測它在新情境裡的行為，而不是依賴在有限測試集上的表現。

讓「開顱手術」成為可能：如果我們理解了哪些神經元或電路對應哪些功能，就能對模型進行更精確的干預——不是大範圍的重新訓練，而是針對特定問題的精確修正。

目前的局限和未解問題

Mechanistic Interpretability 是一個非常年輕的研究領域，局限很明顯：

規模挑戰：在小模型（幾億參數）上做出的研究發現，不一定能直接推廣到有幾千億參數的大型生產模型上。很多研究是在「玩具規模」的模型上進行的。

完整性問題：目前能識別的「電路」只是整個模型計算的一小部分。我們對 LLM 內部發生了什麼的理解，還是非常片面的。

因果性問題：識別出一個特徵被激活，不代表我們理解了為什麼它被激活，以及它如何影響最終的輸出。相關性不等於因果性。

這跟你對 Claude 的理解和信任有什麼關係

Mechanistic Interpretability 的研究進展，直接影響我們能多大程度上信任 AI 系統。一個我們能理解其內部工作機制的 AI，比一個完全黑盒的 AI 更值得信任——不是因為它更聰明，而是因為我們對它的行為有更多的可預測性和可驗證性。

Anthropic 把 Mechanistic Interpretability 列為核心研究方向，是 Anthropic 的「AI 安全優先」定位的具體體現。它不保證 Claude 是完美的，但它是朝著「能夠理解和驗證 AI 行為」這個方向的真實努力。

提問

相關詞彙