模型蒸餾(Model Distillation)是一種讓小型模型從大型模型的輸出裡學習的訓練技術。核心思想:不是讓學生模型從頭學習人類標記的訓練資料,而是讓它學習「教師模型對每個輸入的輸出概率分布」。
為什麼這樣更有效?考慮一個分類任務,輸入是「一隻貓」。直接監督學習的訓練訊號是「答案 = 貓」(硬標籤);蒸餾的訓練訊號是教師模型的完整輸出:「貓:85%、小貓:8%、狗:4%……」。蒸餾的訓練訊號不只說「答案是貓」,還隱含地說明了「貓和小貓在概念上很接近,貓和狗有些像」——這些概念關係讓學生模型能用少得多的訓練數據學到更豐富的知識。
在 LLM 領域,Claude Haiku 這樣的輕量模型,部分能力就是通過蒸餾從 Claude Sonnet 或 Opus 那裡學來的——Haiku 「觀看」Sonnet/Opus 在各種任務上的回答,學習如何以輕量的方式做出類似的輸出。
02 · 為什麼存在?
蒸餾技術的核心優勢在於「軟目標(Soft Targets)」帶來的信息密度。一個教師模型對某個輸入的概率分布,包含了遠比單一正確答案更豐富的知識。「King - Man + Woman ≈ Queen」這樣的語意關係,就是在軟目標的概率分布裡隱含編碼的。
任務特化蒸餾是工業界最常見的應用:你不一定需要蒸餾教師模型的全部能力,可以只蒸餾特定任務上的能力。例如,如果你的應用只需要「情感分析」,你可以只用教師模型在情感分析任務上的輸出來訓練學生模型,得到一個極其精簡、在情感分析上表現出色的模型,推理延遲可以降到毫秒級。
蒸餾資料的品質直接決定學生模型的上限:用 Claude Opus 作為教師,蒸餾出來的學生通常比用 Claude Haiku 作為教師更好——因為更強的教師能提供更豐富的「軟知識」。
03 · 如何影響你的決策?
模型蒸餾對你使用 Claude 的影響,主要體現在理解為什麼不同 Claude 版本的能力分布是這樣的:Haiku 在某些任務上表現出色,在其他任務上明顯弱於 Sonnet——這不完全是「Haiku 能力不足」,而是因為蒸餾過程中不同任務的知識傳遞效率不同。一般性的任務(翻譯、摘要、簡單問答)蒸餾效果很好;複雜推理任務(多步驟邏輯、高難度代碼)蒸餾損失更大。
對開發者來說,如果你的應用有非常特定的任務需求,並且面臨成本和延遲的限制,考慮用 Claude Opus 或 Sonnet 的高品質輸出,蒸餾訓練一個針對你任務的輕量模型——這是許多生產 AI 應用的實際選擇。
注意 API 使用條款:用 Claude 輸出訓練針對你自己業務特定任務的模型通常被允許,但不得用來訓練和 Anthropic 直接競爭的模型,使用前請確認最新條款。
一個法律科技公司想建立一個「合約條款風險識別」的輕量化模型,需要在用戶上傳合約的瞬間就識別高風險條款(低延遲是關鍵需求)。直接用 Claude Opus 的延遲太高(每個條款需要 3-5 秒),費用也不可接受。
他們的蒸餾方案:Step 1,收集 5,000 份合約,讓 Claude Opus 對每個條款進行詳細的風險分析,生成高品質的「教師輸出」(包括風險等級 + 原因 + 相關法規)。Step 2,用這些 Claude Opus 的輸出,蒸餾訓練一個小型的 BERT-based 模型。Step 3,部署蒸餾模型:延遲 < 200ms(比 Claude Opus 快 15-20 倍),成本降低 98%,在標準合約條款上的準確率達到 Claude Opus 的 91%。對於置信度低的高複雜度條款,系統再呼叫 Claude Opus 做深度分析——兩層架構兼顧了速度、成本和準確率。