湧現能力(Emergent Capabilities)是指 LLM 的某些能力在模型規模達到特定門檻前幾乎為零,超過門檻後突然出現並快速提升的現象。最典型的案例:多步驟算術推理、思維鏈(CoT)的效果、類比推理、程式碼語意理解。這個非線性的能力增長模式,解釋了為什麼 LLM 的代際升級往往帶來的不只是「更準一點」,而是全新能力的出現。
湧現能力的發現,對 AI 安全研究有深刻的影響:如果 AI 能力是非線性湧現的,那麼監測和預測 AI 能力的難度就大大增加。你可能認為一個模型「還不夠能力做某件危險的事」,但一旦它的規模超過某個門檻,那個危險能力可能突然出現。這是 Anthropic RSP(負責任擴展政策)設計 ASL 分級制度的部分原因——需要在能力湧現之前就做好安全評估,而不是等到能力出現了再反應。
理解湧現能力,能幫你在使用 Claude 時做出更明智的模型選擇。當你遇到 Claude Sonnet 做不好的任務,在換 Opus 之前可以問自己:「這個任務需要的能力,是不是在 Sonnet 的規模還沒有完全湧現的能力?」如果是,升級到 Opus 可能帶來的不只是準確率的線性提升,而是能力的質變。反過來,如果任務需要的能力在 Sonnet 已經完全湧現,升級到 Opus 帶來的邊際效益可能有限。
想深入了解湧現能力,推薦閱讀:(1)「Emergent Abilities of Large Language Models」(Wei et al., 2022,Google)——湧現能力的標誌性論文;(2)「Are Emergent Abilities of Large Language Models a Mirage?」(Schaeffer et al., 2023)——對湧現能力的批判性分析,提出評估方法可能影響觀察到的湧現現象;(3)Anthropic 的 Model Cards——記錄了 Claude 每個版本的能力評估,可以看到版本間的非線性提升。