用語解説 · core-concepts

Model Distillation

モデル蒸留

core-concepts 進階

30秒バージョン · 忙しい方へ

大きな「教師」モデルの出力を使って小さな「学生」モデルをトレーニングし、小さなモデルが大きなモデルの核心的な能力を保ちながら、計算要件を大幅に削減できるようにします。ベテランの専門家が新人を集中的に指導し、長年の暗黙知を圧縮して伝授するようなもの——新人は専門家の能力の80%を達成するが、「サイズ」はわずか10%。

詳しく読む +

01 · これは何？

モデル蒸留は小さなモデルが大きなモデルの出力から学ぶトレーニング技術です。コアアイデア：学生モデルに人間がラベル付けしたトレーニングデータをゼロから学ばせるのではなく、「各入力に対して教師モデルが出力する確率分布」を学ばせます。

なぜこれがより効果的か？蒸留のトレーニングシグナルは「答えは猫」だけでなく、「猫と子猫は概念的に近い」という概念的な関係も暗黙的に伝えます。LLMの領域では、Claude HaikuのようなモデルはClaude SonnetやOpusからの蒸留を通じて一部の能力を習得します。

02 · なぜ存在する？

蒸留のコアな優位性は「ソフトターゲット」が提供する情報密度にあります。教師モデルのある入力に対する確率分布は、単一の正解よりもはるかに豊富な知識を含んでいます。「King - Man + Woman ≈ Queen」のような意味的関係は、これらのソフトターゲット確率分布に暗黙的にエンコードされています。

タスク固有の蒸留は最も一般的な産業アプリケーションです。蒸留データの品質が学生モデルの上限を直接決定します：より強力な教師はより豊富な「ソフト知識」を提供します。

03 · 意思決定にどう影響する？

モデル蒸留がClaude使用に与える影響は、主に異なるClaudeバージョンの能力分布がなぜこのようになっているかを理解することに現れます。Haikuは特定のタスクでは優れていますが、他のタスクではSonnetより明らかに弱い——蒸留プロセス中にタスクタイプによって知識転送効率が異なるためです。

APIの利用規約への注意：自分のビジネスの特定のタスクに特化したモデルをトレーニングするためにClaudeの出力を使用することは通常許可されていますが、Anthropicと直接競合するモデルのトレーニングには使用できません。

04 · どうすればいい？

Claudeの出力を使って蒸留トレーニングを試みる場合の実践的な推奨事項：

高品質な蒸留データを生成する：教師モデル（Claude Opus/Sonnet）のアウトプット品質が十分に高いことを確認してください——蒸留データの品質が学生モデルの上限を直接決定します。多様な入力を含めます。

適切な学生アーキテクチャを選択する：BERTベース（分類、NERに適している）またはGPTベースの小型モデル（生成タスクに適している）。

標準的な蒸留フレームワークを使用する：HuggingFaceのtrlライブラリはSFTとKDをサポートしています。

具体例 +

法律テック企業が「契約条項リスク識別」のための軽量モデルを構築したいと考えています（低レイテンシが重要な要件）。蒸留アプローチ：ステップ1、5,000件の契約を収集し、Claude Opusに各条項の詳細なリスク分析を実行させ高品質の「教師出力」を生成。ステップ2、小さなBERTベースのモデルを蒸留トレーニング。ステップ3、蒸留モデルをデプロイ：レイテンシ < 200ms、コスト98%削減、Claude Opusの91%の精度。2層アーキテクチャが速度、コスト、精度のバランスを取ります。

図解

スクリーンショット歓迎。転載時は出典を明記してください。

よくある誤解 +

✕ 誤解 1

× 誤解1：蒸留された学生モデルは教師モデルを超えることができる。蒸留の上限は教師モデルの能力です——学生は蒸餾されたタスクで最大でも教師のレベルに達することができ（通常は70〜90%）、超えることはできません。

✕ 誤解 2

× 誤解2：蒸留は教師モデルの回答をコピーするだけで、本物の学習がない。蒸留と単純なコピーの根本的な違い：「ソフトターゲット」——教師の完全な確率分布は単一の回答よりもはるかに豊富な情報を含んでいます。学生はソフトターゲットを学ぶことで「回答の記憶」だけでなく「概念構造の理解」を得ます。

The Missing Link +

直接的な影響

モデル蒸留の核心的なトレードオフ：「能力損失 vs 効率向上」。蒸留は必然的にある程度の能力損失をもたらします（学生 < 教師）が、より小さなモデルサイズ、より低い推論レイテンシ、より安いコストをもたらします。特定のタスクでは、このトレードオフは非常に価値があります（5〜10%の精度損失と引き換えに90%以上のコスト削減）。蒸留に最適なシナリオ：特定のタスク、高頻度呼び出し、レイテンシとコストに敏感な本番アプリケーション。

← 前の用語

LLM (Large Language Model)

次の用語 →

Multimodal

質問する