深度學習模型蒸餾_知識蒸餾-Distilling the knowledge in a neural network

1. 知識蒸餾-Distilling the knowledge in a neural network

「很多昆蟲在幼蟲形態的時候是最擅長從環境中吸取能量和養分的，而當他們成長為成蟲的時候則需要擅長完全不同能力比如遷移和繁殖。」在2014年Hinton發表的知識蒸餾的論文中用了這樣一個很形象的比喻來說明知識蒸餾的目的。在大型的機器學習任務中，我們也用兩個不同的階段 training stage 和 deployment stage 來表達兩種不同的需求。training stage（訓練階段）可以利用大量的計算資源不需要實時響應，利用大量的數據進行訓練。但是在deployment stage （部署階段）則會有很多限制，比如計算資源，計算速度要求等。知識蒸餾就是為了滿足這種需求而設計的一種模型壓縮的方法。

知識蒸餾的概念最早是在2006年由Bulica提出的，在2014年Hinton對知識蒸餾做了歸納和發展。知識蒸餾的主要思想是訓練一個小的網路模型來模仿一個預先訓練好的大型網路或者集成的網路。這種訓練模式又被稱為 "teacher-student"，大型的網路是「老師」，小型的網路是「學生」。

在知識蒸餾中，老師將知識傳授給學生的方法是：在訓練學生的過程中最小化一個以老師預測結果的概率分布為目標的損失函數。老師預測的概率分布就是老師模型的最後的softmax函數層的輸出，然而，在很多情況下傳統的softmax層的輸出，正確的分類的概率值非常大，而其他分類的概率值幾乎接近於0。因此，這樣並不會比原始的數據集提供更多有用的信息，沒有利用到老師強大的泛化性能，比如，訓練MNIST任務中數字『3』相對於數字『5』與數字『8』的關系更加緊密。為了解決這個問題，Hinton在2015年發表的論文中提出了『softmax temperature』的概念，對softmax函數做了改進：

這里的就是指 temperature 參數。當等於1 時就是標準的softmax函數。當增大時，softmax輸出的概率分布就會變得更加 soft（平滑），這樣就可以利用到老師模型的更多信息（老師覺得哪些類別更接近於要預測的類別）。Hinton將這樣的蘊含在老師模型中的信息稱之為 "dark knowledge"，蒸餾的方法就是要將這些 "dark knowledge" 傳給學生模型。在訓練學生的時候，學生的softmax函數使用與老師的相同的，損失函數以老師輸出的軟標簽為目標。這樣的損失函數我們稱為"distillation loss"。

在Hinton的論文中，還發現了在訓練過程加上正確的數據標簽（hard label）會使效果更好。具體方法是，在計算distillation loss的同時，我利用hard label 把標準的損失（）也計算出來，這個損失我們稱之為 "student loss"。將兩種 loss 整合的公式如下：

這里的是輸入，是學生模型的參數，是交叉熵損失函數，是 hard label ，是參數有的函數，是系數，分別是學生和老師的logits輸出。模型的具體結構如下圖所示：

在上述公式中，是作為超參數人為設置的，Hinton的論文中使用的的范圍為1到20，他們通過實驗發現，當學生模型相對於老師模型非常小的時候，的值相對小一點效果更好。這樣的結果直觀的理解就是，如果增加的值，軟標簽的分布蘊含的信息越多導致一個小的模型無法"捕捉"所有信息但是這也只是一種假設，還沒有明確的方法來衡量一個網路「捕捉」信息的能力。關於，Hinton的論文中對兩個loss用了加權平均：。他們實驗發現，在普通情況下相對於非常小的情況下能得到最好的效果。其他人也做了一些實驗沒用加權平均，將設置為1，而對進行調整。

Hinton的論文中做了三個實驗，前兩個是MNIST和語音識別，在這兩個實驗中通過知識蒸餾得到的學生模型都達到了與老師模型相近的效果，相對於直接在原始數據集上訓練的相同的模型在准確率上都有很大的提高。下面主要講述第三個比較創新的實驗：將知識蒸餾應用在訓練集成模型中。

訓練集成模型（訓練多個同樣的模型然後集成得到更好的泛化效果）是利用並行計算的非常簡單的方法，但是當數據集很大種類很多的時候就會產生巨大的計算量而且效果也不好。Hinton在論文中利用soft label的技巧設計了一種集成模型降低了計算量又取得了很好的效果。這個模型包含兩種小模型：generalist model 和 specialist model（網路模型相同，分工不同）整個模型由很多個specialist model 和一個generalist model 集成。顧名思義generalist model 是負責將數據進行粗略的區分（將相似的圖片歸為一類），而specialist model（專家模型）則負責將相似的圖片進行更細致的分類。這樣的操作也非常符合人類的大腦的思維方式先進行大類的區分再進行具體分類，下面我們看這個實驗的具體細節。
實驗所用的數據集是谷歌內部的JFT數據集，JFT數據集非常大，有一億張圖片和15000個類別。實驗中 generalist model 是用所有數據集進行訓練的，有15000個輸出，也就是每個類別都有一個輸出概率。將數據集進行分類則是用Online k-means聚類的方法對每張圖片輸入generalist model後得到的軟標簽進行聚類，最終將3%的數據為一組分發給各個specialist，每個小數據集包含一些聚集的圖片，也就是generalist認為相近的圖片。
在specialist model的訓練階段，模型的參數在初始化的時候是完全復制的generalist中的數值（specialist和generalist的結構是一模一樣的），這樣可以保留generalist模型的所有知識，然後specialist對分配的數據集進行hard label訓練。但是問題是，specialist如果只專注於分配的數據集（只對分配的數據集訓練）整個網路很快就會過擬合於分配的數據集上，所以Hinton提出的方法是用一半的時間進行hard label訓練，另一半的時間用知識蒸餾的方法學習generalist生成的soft label。這樣specialist就是花一半的時間在進行小分類的學習，另一半的時間是在模仿generalist的行為。
整個模型的預測也與往常不同。在做top-1分類的時候分為以下兩步：
第一步：將圖片輸入generalist model 得到輸出的概率分布，取概率最大的類別k。
第二步：取出數據集包含類別k的所有specialists，為集合（各個數據集之間是有類別重合的）。然後求解能使如下公式最小化的概率分布q作為預測分布。

這里的KL是指KL散度（用於刻畫兩個概率分布之間的差距）和分別是測試圖片輸入generalist 和specialists(m)之後輸出的概率分布，累加就是考慮所有屬於集合的specialist的「意見」。

由於Specialist model的訓練數據集很小，所以需要訓練的時間很短，從傳統方法需要的幾周時間減少到幾天。下圖是在訓練好generalist模型之後逐個增加specialist進行訓練的測試結果：

從圖中可以看出，specialist個數的增加使top1准確個數有明顯的提高。

本文結合Hinton在2014年發表的論文對知識蒸餾和相關實驗做了一個簡單的介紹，如今很多模型都用到了知識蒸餾的方法，但知識蒸餾在深度學習中還是非常新的方向，還有非常多的應用場景等待研究。

項目地址： https://momodel.cn/explore/5dc3b1223752d662e35925a3?type=app

[1]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015.
[2] https://nervanasystems.github.io/distiller/knowledge_distillation.html
[3] https://www.youtube.com/watch?v=EK61htlw8hY&t=3323s

2. 浠涔堟槸娣卞害瀛︿範

1銆佹繁搴﹀︿範錛屾槸涓涓涓撲笟姒傚康銆傜編鍥藉浗瀹剁爺絀剁悊浜嬩細姒傛嫭鍑烘繁搴﹀︿範鐨勬湰璐錛屽嵆涓浣撹兘澶熷皢鍏跺湪涓涓鎯呭冧腑鎵瀛﹁繍鐢ㄤ簬鏂版儏澧冪殑榪囩▼錛堝嵆鈥滆縼縐燴濓級
2銆佹繁搴﹀︿範鎵瀵瑰簲鐨勭礌鍏誨垝鍒嗕負涓変釜棰嗗煙錛氳ょ煡棰嗗煙銆佷漢闄呴嗗煙鍜岃嚜鎴戦嗗煙銆
3銆佹繁搴﹀︿範鏄浠庝笁緇寸洰鏍囪揪鎴愬︿範鍒版牳蹇冪洰鏍囪揪鎴愭彁鍗囩殑瀛︿範銆
4銆佹繁搴﹀︿範鏄瀵瑰︿範鍔涘煿鍏葷殑瀛︿範銆傛ｅ傜敯鐜夊崥澹鎵璇達細瀛︿範鐨勬椿鍔涒斺旀劅鐭ュ姏銆佹濈淮鍔涖佸壋鏂板姏銆傛劅鐭ュ姏鏄鍏ュ彛錛屾濈淮鍔涙槸鍔犲伐錛屽壋鏂板姏鏄鍑哄彛銆傛劅鐭ュ姏鏄瀛︿範鍓嶅忥紝鎬濈淮鍔涙槸瀛︿範鍐呮牳錛屽壋鏂板姏鏄瀛︿範緇堟瀬緇撴灉銆
5銆佹繁搴﹀︿範灝辨槸杞鐭ユ垚鏅恆佽漿璇嗘垚鎱с佸寲鍑℃垚鍦ｃ
6銆佹繁搴﹀︿範灝辨槸瑙ｅ喅闂棰樺眰嬈￠愮駭鎻愰珮鐨勫︿範銆傜粰闂棰樸佺粰鏂規硶銆佹壘緇撹猴紱緇欓棶棰樸佹偀鏂規硶銆佹壘緇撹猴紱鍒涜炬儏澧冿紝璁╁︾敓鍙戠幇闂棰橈紝鎵懼嚭鏂規硶錛屽緱鍑虹粨璁恆
7銆佹繁搴﹀︿範鏄浠庡綋鍓嶅栨帶鍒板唴椹卞姏椹卞姩鐨勮漿鍨嬪︿範銆
8銆佹繁搴﹀︿範鏄浠庡綋鍓嶅悓璐ㄥ寲鏁撮綈鍒掍竴鐨勫︿範鍚戜釜鎬у寲閫夋嫨鎬у︿範鍙橀潻鐨勫︿範銆

3. 名師出高徒：關於知識蒸餾技術的一點思考

在最初聽說知識蒸餾技術的時候，我是持懷疑態度的，甚至覺得不可思議，為什麼通過用簡單模型去學習復雜模型的效果會比直接用訓練標簽來訓練簡單模型要好？？？

但是,它的存在必有其合理性,更何況是我偶像,深度學習第一人Hinton等人最早開始提出這種思想的.
於是便帶著疑惑,對所謂的模型蒸餾技術做了一番研究,發現這個東西確實有過人之處,能夠用更簡單的模型獲得更優質的推理效果,這在工程上,簡直是妙不可言.下面就讓我們來think think,模型蒸餾為什麼有用,又是怎麼來實現的.

眾所周知,對於各類任務,當有足夠多的數據的情況下,我們的神經網路模型越大越深,往往效果也會越好,正如ResNet50在圖像任務上摧枯拉朽,Large Bert在語言任務上效果拔群,除了優秀的模型結構涉及,可以歸結為是大力出奇跡.
但是,在實際的生產中,部署一個很大的推理模型是十分困難的,因為它的計算量是無數大大小小公司不能承受之痛,並不是每個企業都像Google那樣擁有成千上萬的TPU,當然即使有,在大部分場景下,也顯然是不劃算的.為了解決日益增長的模型預測效果的追求和和工程師想要提高性能老闆想要節省成本之間的矛盾,有人提出了知識蒸餾技術.
即我們先在原始的訓練數據上訓練一個大的復雜的擬合的好泛化能力也很好的巨無霸模型(教師模型),再用這個復雜模型的inference結果取代原有的標簽,用於訓練一個新的更小的效果跟教師模型相差不大的模型(學生模型).然後生產環節只要部署這個性能強勁和推理效果足夠好的學生模型就可以了.

好,這個想法實在是太好了..但是旁觀者大概會有些不明覺厲....直接從原始的訓練數據學不好嗎?幹嘛還多此一舉去學一個更不精確的擬合結果數據?

這樣做自然是有好處滴,且聽我給你慢慢分析...這一切應該從一個軟妹字說起..... [噗..抱歉,多打了一個妹字...

人類能夠非常好的從許許多多的特徵之中找到主要特徵來區分不同的物品,而不會被表面很多相似的特徵所迷惑,比如,人類可以較好的區分一隻像貓的狗或是一隻像狗的貓,而對於深度神經網路來說,卻並沒有那麼容易.正如Hinton等人的一個經典論述: 一輛寶馬被深度網路識別為一台垃圾車的可能性很小,但是被錯誤的識別為一個胡蘿卜的可能性卻要高很多倍.
為了讓網路能夠獲得學習這些東西的能力,我們不得不讓網路變得更深更復雜.知識蒸餾的目的就是希望大模型能夠將學習到的這些區分近似特徵的能力教給小模型,教育這種知識的精髓就恰好在於用softmax的軟特徵來取代原始one-hot標注的硬特徵.

仔細想一下,軟特徵的好處實際上是顯而易見的.

就拿手寫數字識別的例子來說,我們的標注數據的不同分類之間,實際是無法捕捉到它們之間的關系的,因為它們都是只有自己的分類位置是0,其餘位置是1,每個目標向量之間的距離是一樣的,因此這種標注的方式實際上是存在一定缺陷的,它無法包含這樣一種信息:比如數字1,和只帶有一點點彎曲的7實際是極為相似的,但實際的標注數據並不能體現這一點.但是經過一個大模型的學習之後,或許對於一個只有一點點彎曲的7模型的預測結果中,1的score是0.4,7的score是0.5,其餘score都接近0. 當我們看到這樣一組特徵向量的時候,是可以很清晰的發現這個手寫圖片非常相7同時又有點像1而和其他數字不像.
因此,再用這個向量作為target給小模型進行學習的時候,小模型只需要很小的代價就能學習到這一復雜的關系了~

是不是覺得我上面的說法很有道理? 如果你真的就這么認為,那就too naive了! 夢想很豐滿,而現實卻很骨感..真實的情況是,經過softmax函數之後,幾乎不可能出現某個分類0.5,另一個分類0.4的情況,更一般的是某個分類0.99,另一個分類0.01......

當然,別擔心,前面的想法這么好,自然遇到一點困難不該輕易放棄,既然softmax不行,那我們就不如就給它調整一下..

Hinton等大佬的解決方案是:將原始logits傳遞給softmax之前,將教師模型的原始logits按一定的溫度進行縮放.這樣,就會在可用的類標簽上得到更加廣泛的分布.並且這個溫度縮放機制同樣可以用於學生模型.

然後,原始的softmax操作就變成了:

其中，便是一個縮放因子的超參數,這些得到的結果便是所謂的軟目標...
變大，類別概率就會變軟，也就是說會相互之間更加接近，從而達到了捕捉類別間關系的目的.

除了上述這種方法,還有其他人有一些別的不使用softmax獲得軟特徵的方法,各有優劣...因為想快點寫完這篇,所以別的方法先不介紹了,有興趣可以自己了解,或者改天有時間我回來補充上這個部分....

如果想要更大限度的壓縮模型,可以使用一些十分高效的傳統機器學習方法作為學生去蒸餾
比如決策樹。我覺得這可能是一個很好的方法,盡管它們的表達能力不如神經網路，但它們的預測非常可控和具有解釋性,並有可能實現自動的更新和快速迭代.可以看一下Hinton他們的研究,讀下這篇論文 Distilling a Neural Network Into a Soft Decision Tree

他們的研究表明，盡管更簡單的神經網路的表現比他們的研究要好，但蒸餾確實起到了一點作用。在MNIST數據集上，經過蒸餾的決策樹模型的測試准確率達到96.76%，較基線模型的94.34%有所提高。然而，一個簡單的兩層深卷積網路仍然達到了99.21%的准確率。因此，在任務追求的精度和推理性能及邊界性之間尋求一個權衡即可。

個人認為知識蒸餾是一個極具前途的研究.它讓更好的推理效果以更小更便捷的方式得以部署,這在工業界簡直是無敵的存在.正所謂名師出高徒,和人類的學習一樣,能夠有一個牛逼的老師對你進行深入淺出的指導,能讓你的學習過程事半功倍.而知識蒸餾,正好就是實現了這樣一個深入淺出的功能,這種思想我個人十分推崇.

導航:首頁 > 蒸餾問題 > 深度學習模型蒸餾

深度學習模型蒸餾

與深度學習模型蒸餾相關的資料