fundamentals

湧現能力：為什麼 AI 模型變大了之後，突然會做以前完全不會的事

30 秒速讀

湧現能力是 LLM 最反直覺的特性之一：某個任務在小模型上「幾乎不能做」，在大模型上突然「能做得很好」——不是線性提升，是一個跳躍。這解釋了為什麼 Claude 4 能做到 Claude 3 完全做不到的事。

Hannah Scott · 2026/06/05

完整解析 +

01 · 為什麼發生？

湧現能力（Emergent Capabilities）是指 LLM 的某些能力在模型規模達到特定門檻前幾乎為零，超過門檻後突然出現並快速提升的現象。最典型的案例：多步驟算術推理、思維鏈（CoT）的效果、類比推理、程式碼語意理解。這個非線性的能力增長模式，解釋了為什麼 LLM 的代際升級往往帶來的不只是「更準一點」，而是全新能力的出現。

02 · 運作原理是什麼？

湧現能力的發現，對 AI 安全研究有深刻的影響：如果 AI 能力是非線性湧現的，那麼監測和預測 AI 能力的難度就大大增加。你可能認為一個模型「還不夠能力做某件危險的事」，但一旦它的規模超過某個門檻，那個危險能力可能突然出現。這是 Anthropic RSP（負責任擴展政策）設計 ASL 分級制度的部分原因——需要在能力湧現之前就做好安全評估，而不是等到能力出現了再反應。

03 · 如何應用

理解湧現能力，能幫你在使用 Claude 時做出更明智的模型選擇。當你遇到 Claude Sonnet 做不好的任務，在換 Opus 之前可以問自己：「這個任務需要的能力，是不是在 Sonnet 的規模還沒有完全湧現的能力？」如果是，升級到 Opus 可能帶來的不只是準確率的線性提升，而是能力的質變。反過來，如果任務需要的能力在 Sonnet 已經完全湧現，升級到 Opus 帶來的邊際效益可能有限。

04 · 我該怎麼做？

想深入了解湧現能力，推薦閱讀：（1）「Emergent Abilities of Large Language Models」（Wei et al., 2022，Google）——湧現能力的標誌性論文；（2）「Are Emergent Abilities of Large Language Models a Mirage?」（Schaeffer et al., 2023）——對湧現能力的批判性分析，提出評估方法可能影響觀察到的湧現現象；（3）Anthropic 的 Model Cards——記錄了 Claude 每個版本的能力評估，可以看到版本間的非線性提升。

完整內容 +

2022 年，Google 研究人員發表了一篇論文，描述了一個讓 AI 研究界震驚的現象：某些語言模型能力，在模型規模達到特定門檻之前，幾乎完全不存在；一旦超過這個門檻，能力突然出現，而且很快就達到相當高的水準。這個現象被稱為「湧現能力（Emergent Capabilities）」。

理解湧現能力，不只是理解 AI 的技術特性——它揭示了「為什麼更大的模型更強」的深層邏輯，以及為什麼 Claude 4 Opus 能做到 Claude 1 完全做不到的事。

什麼是湧現？

「湧現（Emergence）」本來是複雜系統理論裡的概念：當你把足夠多的簡單組件放在一起，系統整體表現出任何單個組件都沒有的新特性。水分子的濕潤性不在任何一個 H₂O 分子裡，而是在大量水分子的集體行為中湧現出來的。

在大型語言模型裡，湧現能力是指：在模型達到足夠的規模（參數量）之前，某個能力幾乎為零；一旦超過某個規模門檻，那個能力突然出現並快速提升。這和「能力隨規模線性增長」完全不同——它是非線性的、跳躍式的。

最典型的湧現能力案例

多步驟算術推理：早期的語言模型對多步驟算術（需要依次執行多個運算步驟）非常差。但研究者發現，當模型參數量超過某個門檻（大約在百億參數級別），多步驟算術的準確率突然從接近隨機的水準跳升到相當高的水準，而且這個跳升幾乎是突然發生的，不是線性的過渡。

思維鏈推理（Chain of Thought）：在小模型上，給模型示範「逐步推理」的方式（Chain of Thought prompting）幾乎沒有效果；但在足夠大的模型上，CoT 能顯著提升推理準確率。思維鏈的效果本身就是一個湧現能力——它在小模型上不存在，在大模型上突然出現。

類比推理：「北京之於中國，如同東京之於（？）」這種類比推理，在小模型上幾乎做不到；在大模型上突然能做到，而且準確率相當高。

程式碼理解和生成：早期語言模型對程式碼的理解非常表面。隨著規模增長，代碼理解和生成能力以非線性方式提升——某個規模門檻後，模型突然能理解代碼的語意邏輯，而不只是句法模式。

為什麼湧現能力會發生？

研究者對湧現能力的機制還沒有完全理解，但目前有幾個主流解釋：

「多任務組合」假說：許多複雜能力本質上是多個簡單子能力的組合。只有當模型的規模足夠大，能同時掌握所有必要的子能力，複合能力才能出現。例如「多步驟算術」需要：數字理解、運算規則記憶、中間結果追蹤、多步驟邏輯。小模型可能有部分這些子能力，但只有當模型大到能同時可靠地具備所有子能力時，整體能力才能表現出來。

「噪音門檻」假說：在模型較小時，它確實在做相關的推理，只是準確率太低，結果被噪音淹沒，看起來像是完全不具備那個能力。一旦規模達到讓準確率超過某個實用門檻，能力就從「不可用」變成「可用」，看起來像是突然出現的。

湧現能力對你理解 Claude 的意義

解釋了為什麼 Claude 4 和 Claude 3 的差距不只是「更準確一點」：跨代際的 Claude 升級不只是量的增長，而是某些能力的質變。某些任務在 Claude 3 上需要很多提示工程才能勉強完成，在 Claude 4 Opus 上可能自然地就能完成——因為對應的能力在新一代模型上「湧現」了。

解釋了為什麼 CoT（思維鏈）在你的任務上有時有用有時沒用：如果你的任務需要的推理能力在你使用的模型上還沒有「湧現」，強迫使用 CoT 也不會有顯著效果。這是模型能力邊界的問題，不一定是你的提示詞問題。

解釋了 AI 進步的非線性特徵：AI 能力的提升不是均勻的線性進步，而是有突破性節點的非線性進步。每當有新的湧現能力出現，AI 的應用場景就會突然擴大到新的領域。

湧現能力的爭議

值得一提的是，「湧現能力」這個概念本身也有批評。2023 年的一些研究指出，某些看起來像「湧現」的現象，實際上可能是評估方式的問題——當你換用更細粒度的評估指標時，能力的增長其實是連續的，不是突然的。這個爭議還在持續，但無論如何，LLM 在規模增加時確實表現出高度非線性的能力增長，這個事實本身是業界共識。

圖解

歡迎截圖分享，轉載請註明來源

提問

相關詞彙