名詞解析 · core-concepts

Model Distillation

模型蒸餾

core-concepts 進階

30 秒版 · 給沒耐心的人

用大型「教師」模型的輸出來訓練小型「學生」模型，讓小模型在保留大模型核心能力的同時，大幅降低計算需求。就像讓資深專家密集指導新人，把多年的隱性知識壓縮傳授——新人達到專家 80% 的能力，但只需要 10% 的「體量」。

完整解說 +

01 · 這是什麼？

模型蒸餾（Model Distillation）是一種讓小型模型從大型模型的輸出裡學習的訓練技術。核心思想：不是讓學生模型從頭學習人類標記的訓練資料，而是讓它學習「教師模型對每個輸入的輸出概率分布」。

為什麼這樣更有效？考慮一個分類任務，輸入是「一隻貓」。直接監督學習的訓練訊號是「答案 = 貓」（硬標籤）；蒸餾的訓練訊號是教師模型的完整輸出：「貓：85%、小貓：8%、狗：4%……」。蒸餾的訓練訊號不只說「答案是貓」，還隱含地說明了「貓和小貓在概念上很接近，貓和狗有些像」——這些概念關係讓學生模型能用少得多的訓練數據學到更豐富的知識。

在 LLM 領域，Claude Haiku 這樣的輕量模型，部分能力就是通過蒸餾從 ClauClaude Sonnetpus 那裡學來的——Haiku 「觀看」Sonnet/Opus 在各種任務上的回答，學習如何以輕量的方式做出類似的輸出。

02 · 為什麼存在？

蒸餾技術的核心優勢在於「軟目標（Soft Targets）」帶來的信息密度。一個教師模型對某個輸入的概率分布，包含了遠比單一正確答案更豐富的知識。「King - Man + Woman ≈ Queen」這樣的語意關係，就是在軟目標的概率分布裡隱含編碼的。

任務特化蒸餾是工業界最常見的應用：你不一定需要蒸餾教師模型的全部能力，可以只蒸餾特定任務上的能力。例如，如果你的應用只需要「情感分析」，你可以只用教師模型在情感分析任務上的輸出來訓練學生模型，得到一個極其精簡、在情感分析上表現出色的模型，推理延遲可以降到毫秒級。

蒸餾資料的品質直接決定學生模型的上限：用 Claude Opus 作為教師，蒸餾出來的學生通常比用 Claude Haiku 作為教師更好——因為更強的教師能提供更豐富的「軟知識」。

03 · 如何影響你的決策？

模型蒸餾對你使用 Claude 的影響，主要體現在理解為什麼不同 Claude 版本的能力分布是這樣的：Haiku 在某些任務上表現出色，在其他任務上明顯弱於 Sonnet——這不完全是「Haiku 能力不足」，而是因為蒸餾過程中不同任務的知識傳遞效率不同。一般性的任務（翻譯、摘要、簡單問答）蒸餾效果很好；複雜推理任務（多步驟邏輯、高難度代碼）蒸餾損失更大。

對開發者來說，如果你的應用有非常特定的任務需求，並且面臨成本和延遲的限制，考慮用 Claude Opus 或 Sonnet 的高品質輸出，蒸餾訓練一個針對你任務的輕量模型——這是許多生產 AI 應用的實際選擇。

注意 API 使用條款：用 Claude 輸出訓練針對你自己業務特定任務的模型通常被允許，但不得用來訓練和 Anthropic 直接競爭的模型，使用前請確認最新條款。

04 · 你該怎麼辦？

如果你想嘗試用 Claude 的輸出做蒸餾訓練，幾個實務建議：

生成高品質蒸餾資料：確保教師模型（Claude Opus/Sonnet）輸出的品質足夠高——蒸餾資料的品質直接決定學生模型的上限。包含多樣化的輸入（不要只用一種問題類型），讓學生模型學到更好的泛化能力。

選擇合適的學生架構：常見選擇是 BERT-based（適合分類、NER）或 GPT-based 小型模型（適合生成任務）。如果你要部署在邊緣設備，考慮用 DistilBERT 或 Phi-3-mini 這樣的輕量基底模型。

使用標準蒸餾框架：HuggingFace 的 trl 庫支援 SFT（監督微調）和 KD（知識蒸餾），是目前最成熟的開源選擇。OpenAI 也提供了蒸餾 API，讓你能用 GPT-4 的輸出直接訓練 GPT-4o-mini，原理相同。

實際例子 +

一個法律科技公司想建立一個「合約條款風險識別」的輕量化模型，需要在用戶上傳合約的瞬間就識別高風險條款（低延遲是關鍵需求）。直接用 Claude Opus 的延遲太高（每個條款需要 3-5 秒），費用也不可接受。

他們的蒸餾方案：Step 1，收集 5,000 份合約，讓 Claude Opus 對每個條款進行詳細的風險分析，生成高品質的「教師輸出」（包括風險等級 + 原因 + 相關法規）。Step 2，用這些 Claude Opus 的輸出，蒸餾訓練一個小型的 BERT-based 模型。Step 3，部署蒸餾模型：延遲 < 200ms（比 Claude Opus 快 15-20 倍），成本降低 98%，在標準合約條款上的準確率達到 Claude Opus 的 91%。對於置信度低的高複雜度條款，系統再呼叫 Claude Opus 做深度分析——兩層架構兼顧了速度、成本和準確率。

圖解

歡迎截圖分享，轉載請註明來源

常見誤解 +

✕ 誤解1

× 誤解一：蒸餾後的學生模型能超越教師模型。蒸餾的上限是教師模型的能力——學生在被蒸餾的任務上最多能達到教師的水準，通常還會有一定的損失（70-90%）。蒸餾能讓小模型達到大模型的大部分能力，但不能讓它超越大模型。想要更強的模型，需要更強的教師或更好的訓練方法，而不是更好的蒸餾技術。

✕ 誤解2

× 誤解二：蒸餾只是複製教師模型的答案，沒有真正的學習。蒸餾和單純複製的根本差別在於「軟目標（Soft Targets）」：教師模型的完整概率分布包含了比任何單一答案更豐富的資訊——它隱含地編碼了概念之間的相似性和關係。學生模型通過學習軟目標，能獲得「概念結構的理解」，而不只是「答案的記憶」。這就是為什麼蒸餾效果比直接用教師的輸出做 SFT（監督微調）更好的根本原因。

這件事跟你有什麼關係 +

直接影響

模型蒸餾的核心取捨是「能力損失 vs 效率提升」。蒸餾必然帶來一定的能力損失（學生 < 教師），但換來的是更小的模型尺寸、更低的推理延遲、更便宜的運行成本。在特定任務上，蒸餾能讓這個取捨非常划算（損失 5-10% 的準確率，但換來 90%+ 的成本降低）。不適合蒸餾的場景：需要最高準確率、不能接受任何能力損失；任務範圍非常廣泛（通用助理），蒸餾到小模型很難保持廣泛能力。最適合蒸餾的場景：特定任務、高頻率調用、對延遲和成本敏感的生產應用。

← 上一個詞條

LLM (Large Language Model)

下一個詞條 →

Multimodal

提問

參照詞條

實用資源

Claude API 狀態 → 模型定價 → Prompt 試驗場 → Token 計算器 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →