知识蒸馏的应用_知识蒸馏综述:网络结构搜索应用

1. 知识蒸馏-Distilling the knowledge in a neural network

“很多昆虫在幼虫形态的时候是最擅长从环境中吸取能量和养分的，而当他们成长为成虫的时候则需要擅长完全不同能力比如迁移和繁殖。”在2014年Hinton发表的知识蒸馏的论文中用了这样一个很形象的比喻来说明知识蒸馏的目的。在大型的机器学习任务中，我们也用两个不同的阶段 training stage 和 deployment stage 来表达两种不同的需求。training stage（训练阶段）可以利用大量的计算资源不需要实时响应，利用大量的数据进行训练。但是在deployment stage （部署阶段）则会有很多限制，比如计算资源，计算速度要求等。知识蒸馏就是为了满足这种需求而设计的一种模型压缩的方法。

知识蒸馏的概念最早是在2006年由Bulica提出的，在2014年Hinton对知识蒸馏做了归纳和发展。知识蒸馏的主要思想是训练一个小的网络模型来模仿一个预先训练好的大型网络或者集成的网络。这种训练模式又被称为 "teacher-student"，大型的网络是“老师”，小型的网络是“学生”。

在知识蒸馏中，老师将知识传授给学生的方法是：在训练学生的过程中最小化一个以老师预测结果的概率分布为目标的损失函数。老师预测的概率分布就是老师模型的最后的softmax函数层的输出，然而，在很多情况下传统的softmax层的输出，正确的分类的概率值非常大，而其他分类的概率值几乎接近于0。因此，这样并不会比原始的数据集提供更多有用的信息，没有利用到老师强大的泛化性能，比如，训练MNIST任务中数字‘3’相对于数字‘5’与数字‘8’的关系更加紧密。为了解决这个问题，Hinton在2015年发表的论文中提出了‘softmax temperature’的概念，对softmax函数做了改进：

这里的就是指 temperature 参数。当等于1 时就是标准的softmax函数。当增大时，softmax输出的概率分布就会变得更加 soft（平滑），这样就可以利用到老师模型的更多信息（老师觉得哪些类别更接近于要预测的类别）。Hinton将这样的蕴含在老师模型中的信息称之为 "dark knowledge"，蒸馏的方法就是要将这些 "dark knowledge" 传给学生模型。在训练学生的时候，学生的softmax函数使用与老师的相同的，损失函数以老师输出的软标签为目标。这样的损失函数我们称为"distillation loss"。

在Hinton的论文中，还发现了在训练过程加上正确的数据标签（hard label）会使效果更好。具体方法是，在计算distillation loss的同时，我利用hard label 把标准的损失（）也计算出来，这个损失我们称之为 "student loss"。将两种 loss 整合的公式如下：

这里的是输入，是学生模型的参数，是交叉熵损失函数，是 hard label ，是参数有的函数，是系数，分别是学生和老师的logits输出。模型的具体结构如下图所示：

在上述公式中，是作为超参数人为设置的，Hinton的论文中使用的的范围为1到20，他们通过实验发现，当学生模型相对于老师模型非常小的时候，的值相对小一点效果更好。这样的结果直观的理解就是，如果增加的值，软标签的分布蕴含的信息越多导致一个小的模型无法"捕捉"所有信息但是这也只是一种假设，还没有明确的方法来衡量一个网络“捕捉”信息的能力。关于，Hinton的论文中对两个loss用了加权平均：。他们实验发现，在普通情况下相对于非常小的情况下能得到最好的效果。其他人也做了一些实验没用加权平均，将设置为1，而对进行调整。

Hinton的论文中做了三个实验，前两个是MNIST和语音识别，在这两个实验中通过知识蒸馏得到的学生模型都达到了与老师模型相近的效果，相对于直接在原始数据集上训练的相同的模型在准确率上都有很大的提高。下面主要讲述第三个比较创新的实验：将知识蒸馏应用在训练集成模型中。

训练集成模型（训练多个同样的模型然后集成得到更好的泛化效果）是利用并行计算的非常简单的方法，但是当数据集很大种类很多的时候就会产生巨大的计算量而且效果也不好。Hinton在论文中利用soft label的技巧设计了一种集成模型降低了计算量又取得了很好的效果。这个模型包含两种小模型：generalist model 和 specialist model（网络模型相同，分工不同）整个模型由很多个specialist model 和一个generalist model 集成。顾名思义generalist model 是负责将数据进行粗略的区分（将相似的图片归为一类），而specialist model（专家模型）则负责将相似的图片进行更细致的分类。这样的操作也非常符合人类的大脑的思维方式先进行大类的区分再进行具体分类，下面我们看这个实验的具体细节。
实验所用的数据集是谷歌内部的JFT数据集，JFT数据集非常大，有一亿张图片和15000个类别。实验中 generalist model 是用所有数据集进行训练的，有15000个输出，也就是每个类别都有一个输出概率。将数据集进行分类则是用Online k-means聚类的方法对每张图片输入generalist model后得到的软标签进行聚类，最终将3%的数据为一组分发给各个specialist，每个小数据集包含一些聚集的图片，也就是generalist认为相近的图片。
在specialist model的训练阶段，模型的参数在初始化的时候是完全复制的generalist中的数值（specialist和generalist的结构是一模一样的），这样可以保留generalist模型的所有知识，然后specialist对分配的数据集进行hard label训练。但是问题是，specialist如果只专注于分配的数据集（只对分配的数据集训练）整个网络很快就会过拟合于分配的数据集上，所以Hinton提出的方法是用一半的时间进行hard label训练，另一半的时间用知识蒸馏的方法学习generalist生成的soft label。这样specialist就是花一半的时间在进行小分类的学习，另一半的时间是在模仿generalist的行为。
整个模型的预测也与往常不同。在做top-1分类的时候分为以下两步：
第一步：将图片输入generalist model 得到输出的概率分布，取概率最大的类别k。
第二步：取出数据集包含类别k的所有specialists，为集合（各个数据集之间是有类别重合的）。然后求解能使如下公式最小化的概率分布q作为预测分布。

这里的KL是指KL散度（用于刻画两个概率分布之间的差距）和分别是测试图片输入generalist 和specialists(m)之后输出的概率分布，累加就是考虑所有属于集合的specialist的“意见”。

由于Specialist model的训练数据集很小，所以需要训练的时间很短，从传统方法需要的几周时间减少到几天。下图是在训练好generalist模型之后逐个增加specialist进行训练的测试结果：

从图中可以看出，specialist个数的增加使top1准确个数有明显的提高。

本文结合Hinton在2014年发表的论文对知识蒸馏和相关实验做了一个简单的介绍，如今很多模型都用到了知识蒸馏的方法，但知识蒸馏在深度学习中还是非常新的方向，还有非常多的应用场景等待研究。

项目地址： https://momodel.cn/explore/5dc3b1223752d662e35925a3?type=app

[1]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015.
[2] https://nervanasystems.github.io/distiller/knowledge_distillation.html
[3] https://www.youtube.com/watch?v=EK61htlw8hY&t=3323s

2. 知识蒸馏综述:网络结构搜索应用

【GiantPandaCV导语】知识蒸馏将教师网络中的知识迁移到学生网络，而NAS中天然的存在大量的网络，使用KD有助于提升超网整体性能。两者结合出现了许多工作，本文收集了部分代表性工作，并进行总结。

知识蒸馏可以看做教师网络通过提供soft label的方式将知识传递到学生网络中，可以被视为一种更高级的label smooth方法。soft label与hard label相比具有以下优点：

那么知识蒸馏在网络结构搜索中有什么作用呢？总结如下：

知识蒸馏在很多工作中作为训练技巧来使用，比如OFA中使用渐进收缩训练策略，使用最大的网络指导小网络的学习，采用inplace distillation进行蒸馏。BigNAS中则使用三明治法则，让最大的网络指导剩下网络的蒸馏。

目标：解决教师网络和学生网络的匹配问题（知识蒸馏中教师网络和学生网络匹配的情况下效果更好）。

在知识蒸馏中，选择不同的教师网络、不同的学生网络的情况下，最终学生网络的性能千差万别。如果学生网络和教师网络的容量相差过多，会导致学生难以学习的情况。Cream这篇文章就是为了解决两者匹配问题。

普通的SPOS方法如左图所示，通过采样单路径子网络进行训练。右图则是结合了知识蒸馏的方法，Cream提出了两个模块：

Cream中心思想是，子网络可以在整个训练过程中协作学习并相互教导，目的是提高单个模型的收敛性。

消融实验如下：

目标：通过教师引导各个block特征层的学习，根据loss大小评判各子网的性能。

这是一篇将NAS和KD融合的非常深的一个工作，被CVPR20接收。之前写过一篇文章进行讲解，这里简单回顾一下。

DNA是两阶段的one-shot NAS方法，因此其引入蒸馏也是为了取代普通的acc指标，提出了使用子网络与教师网络接近程度作为衡量子网性能的指标。

在训练的过程中，进行了分块蒸馏，学生网络某一层的输入来自教师网络上一层的输出，并强制学生网络这一层的输出与教师网络输出一致（使用MSELoss)。在搜索过程结束后，通过计算各子网络与教师网络的接近程度来衡量子网络。

目标：通过改进KL divergence防止学生over estimate或者under estimate教师网络。

上图展示了OFA,BigNAS等搜索算法中常用到的蒸馏方法，子网使用的是KL divergence进行衡量，文中分析了KL 散度存在的局限性：即避零性以及零强制性。如下公式所示，p是教师的逻辑层输出，q是学生逻辑层输出。

AlphaNet提出了一个新的散度衡量损失函数，防止出现过估计或者低估的问题。如下所示，引入了。

其中不为0或者1，这样如下图所示：

蓝色线对应example 2表示，当为负值，如果q过估计了p中的不确定性，的值会变大。

紫色线对应example 1表示，当为正数，如果q低估了p中的不确定性，的值会变大

同时考虑两种情况，取两者中最大值作为散度：

目标：提出了衡量学生网络和教师网络 内部激活相似度 衡量指标，通过表征匹配可以用来加速网络结构搜索。

这部分其实是属于知识蒸馏分类中基于关系的知识，构建的知识由不同样本之间的互作用构成。

具体的指标构成如上图所示，是一个bsxbs大小的矩阵，这个在文中被称为Representational Dissmilarity Matrix，其功能是构建了激活层内部的表征，可以通过评估RDM的相似度通过计算上三角矩阵的关系系数，比如皮尔逊系数。

该文章实际上也是构建了一个指标P+TG来衡量子网的性能，挑选出最优子网络。

如上图所示，RDM的计算是通过衡量教师网络的feature以及学生网络的feature的相似度，并选择选取其中最高的RDM相似度。通过构建了一组指标，随着epoch的进行，排序一致性很快就可以提高。

目标：固定教师网络，搜索最合适的学生网络。

对于相同的教师网络来说，不同的架构的学生网络，即便具有相同的flops或者参数，其泛化能力也有所区别。在这个工作中选择固定教师网络，通过网络搜索的方法找到最优的学生网络，使用L1 Norm优化基础上，选择出与教师网络KL散度差距最小的学生网络。

目标：在给定教师网络情况下，搜索最合适的学生网络。

神经网络中的知识不仅蕴含于参数，还受到网络结构影响。KD普遍方法是将教师网络知识提炼到学生网络中，本文提出了一种架构感知的知识蒸馏方法Architecture-Aware KD （AKD），能够找到最合适提炼给特定教师模型的学生网络。

Motivation: 先做了一组实验，发现不同的教师网络会倾向于不同的学生网络，因此在NAS中，使用不同的教师网络会导致模型倾向于选择不同的网络结构。

AKD做法是选择使用强化学习的方法指导搜索过程，使用的是ENAS那种通过RNN采样的方法。

目标：从集成的教师网络中学习，并使用NAS调整学生网络模型的容量。NAS+KD+集成。

这篇文章之前也进行了讲解，是网络结构搜索，知识蒸馏，模型集成的大杂烩。

详见： https://blog.csdn.net/DD_PP_JJ/article/details/121268840

这篇文章比较有意思，使用上一步中得到的多个子网络进行集成，可以得到教师网络，然后使用知识蒸馏的方法来引导新的子网络的学习。关注重点在于：

AdaNAS受Born Again Network（BAN）启发, 提出Adaptive Knowledge Distillation（AKD)的方法以辅助子网络的训练。

集成模型选择 ：

从左到右代表四次迭代，每个迭代中从搜索空间中选择三个模型。绿色线框出的模型代表每个迭代中最优的模型，AdaNAS选择将每个迭代中最优subnet作为集成的对象。

最终集成的时候还添加了额外的weight参数w1-w4：

最终输出逻辑层如下所示：（这个w权重也会被训练，此时各个集成网络的权重是固定的，只优化w）

Knowledge Distillation

目标：解决知识蒸馏的效率和有效性，通过使用特征聚合来引导教师网络与学生网络的学习，网络结构搜索则是体现在特征聚合的过程，使用了类似darts的方法进行自适应调整放缩系数。ECCV20

文章总结了几种蒸馏范式：

最后一种是本文提出的方法，普通的特征蒸馏都是每个block的最后feature map进行互相蒸馏，本文认为可以让教师网络的整个block都引导学生网络。

具体如何将教师网络整个block中所有feature map进行聚合，本文使用的是darts的方法进行动态聚合信息。(a) 图展示的是对group i进行的可微分搜索过程。(b)表示从教师到学生的路径loss构建，使用的是CE loss。(c)表示从学生到教师网络的路径loss构建，使用的是L2 Loss。其中connector实际上是一个1x1 卷积层。

（ps: connector让人想到VID这个工作）

3. 名师出高徒：关于知识蒸馏技术的一点思考

在最初听说知识蒸馏技术的时候，我是持怀疑态度的，甚至觉得不可思议，为什么通过用简单模型去学习复杂模型的效果会比直接用训练标签来训练简单模型要好？？？

但是,它的存在必有其合理性,更何况是我偶像,深度学习第一人Hinton等人最早开始提出这种思想的.
于是便带着疑惑,对所谓的模型蒸馏技术做了一番研究,发现这个东西确实有过人之处,能够用更简单的模型获得更优质的推理效果,这在工程上,简直是妙不可言.下面就让我们来think think,模型蒸馏为什么有用,又是怎么来实现的.

众所周知,对于各类任务,当有足够多的数据的情况下,我们的神经网络模型越大越深,往往效果也会越好,正如ResNet50在图像任务上摧枯拉朽,Large Bert在语言任务上效果拔群,除了优秀的模型结构涉及,可以归结为是大力出奇迹.
但是,在实际的生产中,部署一个很大的推理模型是十分困难的,因为它的计算量是无数大大小小公司不能承受之痛,并不是每个企业都像Google那样拥有成千上万的TPU,当然即使有,在大部分场景下,也显然是不划算的.为了解决日益增长的模型预测效果的追求和和工程师想要提高性能老板想要节省成本之间的矛盾,有人提出了知识蒸馏技术.
即我们先在原始的训练数据上训练一个大的复杂的拟合的好泛化能力也很好的巨无霸模型(教师模型),再用这个复杂模型的inference结果取代原有的标签,用于训练一个新的更小的效果跟教师模型相差不大的模型(学生模型).然后生产环节只要部署这个性能强劲和推理效果足够好的学生模型就可以了.

好,这个想法实在是太好了..但是旁观者大概会有些不明觉厉....直接从原始的训练数据学不好吗?干嘛还多此一举去学一个更不精确的拟合结果数据?

这样做自然是有好处滴,且听我给你慢慢分析...这一切应该从一个软妹字说起..... [噗..抱歉,多打了一个妹字...

人类能够非常好的从许许多多的特征之中找到主要特征来区分不同的物品,而不会被表面很多相似的特征所迷惑,比如,人类可以较好的区分一只像猫的狗或是一只像狗的猫,而对于深度神经网络来说,却并没有那么容易.正如Hinton等人的一个经典论述: 一辆宝马被深度网络识别为一台垃圾车的可能性很小,但是被错误的识别为一个胡萝卜的可能性却要高很多倍.
为了让网络能够获得学习这些东西的能力,我们不得不让网络变得更深更复杂.知识蒸馏的目的就是希望大模型能够将学习到的这些区分近似特征的能力教给小模型,教育这种知识的精髓就恰好在于用softmax的软特征来取代原始one-hot标注的硬特征.

仔细想一下,软特征的好处实际上是显而易见的.

就拿手写数字识别的例子来说,我们的标注数据的不同分类之间,实际是无法捕捉到它们之间的关系的,因为它们都是只有自己的分类位置是0,其余位置是1,每个目标向量之间的距离是一样的,因此这种标注的方式实际上是存在一定缺陷的,它无法包含这样一种信息:比如数字1,和只带有一点点弯曲的7实际是极为相似的,但实际的标注数据并不能体现这一点.但是经过一个大模型的学习之后,或许对于一个只有一点点弯曲的7模型的预测结果中,1的score是0.4,7的score是0.5,其余score都接近0. 当我们看到这样一组特征向量的时候,是可以很清晰的发现这个手写图片非常相7同时又有点像1而和其他数字不像.
因此,再用这个向量作为target给小模型进行学习的时候,小模型只需要很小的代价就能学习到这一复杂的关系了~

是不是觉得我上面的说法很有道理? 如果你真的就这么认为,那就too naive了! 梦想很丰满,而现实却很骨感..真实的情况是,经过softmax函数之后,几乎不可能出现某个分类0.5,另一个分类0.4的情况,更一般的是某个分类0.99,另一个分类0.01......

当然,别担心,前面的想法这么好,自然遇到一点困难不该轻易放弃,既然softmax不行,那我们就不如就给它调整一下..

Hinton等大佬的解决方案是:将原始logits传递给softmax之前,将教师模型的原始logits按一定的温度进行缩放.这样,就会在可用的类标签上得到更加广泛的分布.并且这个温度缩放机制同样可以用于学生模型.

然后,原始的softmax操作就变成了:

其中，便是一个缩放因子的超参数,这些得到的结果便是所谓的软目标...
变大，类别概率就会变软，也就是说会相互之间更加接近，从而达到了捕捉类别间关系的目的.

除了上述这种方法,还有其他人有一些别的不使用softmax获得软特征的方法,各有优劣...因为想快点写完这篇,所以别的方法先不介绍了,有兴趣可以自己了解,或者改天有时间我回来补充上这个部分....

如果想要更大限度的压缩模型,可以使用一些十分高效的传统机器学习方法作为学生去蒸馏
比如决策树。我觉得这可能是一个很好的方法,尽管它们的表达能力不如神经网络，但它们的预测非常可控和具有解释性,并有可能实现自动的更新和快速迭代.可以看一下Hinton他们的研究,读下这篇论文 Distilling a Neural Network Into a Soft Decision Tree

他们的研究表明，尽管更简单的神经网络的表现比他们的研究要好，但蒸馏确实起到了一点作用。在MNIST数据集上，经过蒸馏的决策树模型的测试准确率达到96.76%，较基线模型的94.34%有所提高。然而，一个简单的两层深卷积网络仍然达到了99.21%的准确率。因此，在任务追求的精度和推理性能及边界性之间寻求一个权衡即可。

个人认为知识蒸馏是一个极具前途的研究.它让更好的推理效果以更小更便捷的方式得以部署,这在工业界简直是无敌的存在.正所谓名师出高徒,和人类的学习一样,能够有一个牛逼的老师对你进行深入浅出的指导,能让你的学习过程事半功倍.而知识蒸馏,正好就是实现了这样一个深入浅出的功能,这种思想我个人十分推崇.

导航:首页 > 蒸馏问题 > 知识蒸馏的应用

知识蒸馏的应用

与知识蒸馏的应用相关的资料