天天看點

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

1. 網絡結構:

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

       Gate為全連接配接網絡,用來學習哪個網絡更重要。目前利用全連接配接網絡選擇網絡部件重要性的方法很流行。“三個臭皮匠頂個諸葛亮?”,感覺很像bagging方法。

2. 損失函數:

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

訓練時softmax都有溫度T=3蒸餾,測試時就恢複T=1。

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

最終的Loss

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

第一項代表各個分支的損失,第二項代表最後Teacher的損失,第三項代表各分支和Teacher的KL散度。

3. 測試情況

我的測試結果:

測試資料集:cifar100

測試條件:網絡的最後一個block開始如圖1的分支結構(分三個branch:m=2)

ResNet32_ori              top1 bestacc: 70.69

ResNet32_ONE           top1 bestacc: 73.47

ResNet32_ONE_E     top1 bestacc: 75.45

ResNet110_ori            top1 bestacc: 75.38

ResNet110_ONE         top1 bestacc: 78.79

ResNet110_ONE_E         top1 bestacc: 79.77

note:      _ori代表原網絡;_ONE代表測試時删除分支結構;_ONE_E代表測試時保留分支結構。

作者的測試結果:

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

      在cifar100上精确度的提升還是比較大的。Ensemble效果(_E)比_ONE在小網絡上的提升較大,而在大網絡上的提升較小,這一點跟作者的測試結論相同。Res32_ONE_E的精确度達到ResNet110_ori的精确度還要好一點。

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

作者在imagenet資料集上的測試結果:

在imagenet資料集上采用最後兩個block開始分支,看效果有提升,但不如在cifar100資料集上的提升大,同時上面的資料也說明在新型網絡上是有效的。

不同的資料集的測試效果差别還挺大,将來對于不同的分類網絡提升情況有待驗證。

繼續閱讀