Model Distillation(モデル蒸留)とは?

読み方: モデルディスティレーション

30秒まとめ

大規模モデル(教師)の知識を小規模モデル(生徒)に転移する技術。低コスト・高速推論を実現。

Model Distillation(モデル蒸留)の意味・定義

Model Distillation(モデル蒸留)は、Hinton et al. (2015) で提唱された手法で、大規模な「教師モデル」(GPT-5、Claude Opus 4.7、Gemini 3 Ultra等)の出力分布を小規模な「生徒モデル」に学習させ、性能を保持しつつ推論コスト・レイテンシ・GPUメモリを削減する技術です。2026年のLLM運用では、本番デプロイの主要戦略として位置付けられ、Claude Haiku、GPT-5 mini / nano、Gemini 3 Flash、Llama 3.3 / 4、Mistral Small/Tinyなどはいずれも蒸留技術が活用されています。実装手法は(1)Response-based(教師の出力ロジットを生徒に学習)、(2)Feature-based(中間層の特徴量を転移)、(3)Relation-based(サンプル間の関係性を転移)の3系統。DistilBERT(パラメータ40%削減で性能97%維持)、TinyBERT、MiniLM が古典的成功例。LLM時代では「合成データ蒸留」(教師モデルの出力で大量の学習データを生成し、それで生徒を学習)が主流。OpenAIの蒸留API、Anthropic Claude Haiku 4.5、Together AIの蒸留サービス等で本番ワークロードのコストを5-10分の1に削減できる事例が多数。エッジ・モバイル展開、リアルタイム推論、コスト最適化に必須の技術。

関連するAIツール

関連する用語

運営者が開発したAIマーケティングツール