Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

2023-04-28 03:26:11

1. 網絡結構：

Gate為全連接配接網絡，用來學習哪個網絡更重要。目前利用全連接配接網絡選擇網絡部件重要性的方法很流行。“三個臭皮匠頂個諸葛亮？”，感覺很像bagging方法。

2. 損失函數：

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

訓練時softmax都有溫度T=3蒸餾，測試時就恢複T=1。

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

最終的Loss

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

第一項代表各個分支的損失，第二項代表最後Teacher的損失，第三項代表各分支和Teacher的KL散度。

3. 測試情況

我的測試結果：

測試資料集：cifar100

測試條件：網絡的最後一個block開始如圖1的分支結構（分三個branch：m=2）

ResNet32_ori top1 bestacc: 70.69

ResNet32_ONE top1 bestacc: 73.47

ResNet32_ONE_E top1 bestacc: 75.45

ResNet110_ori top1 bestacc: 75.38

ResNet110_ONE top1 bestacc: 78.79

ResNet110_ONE_E top1 bestacc: 79.77

note: _ori代表原網絡；_ONE代表測試時删除分支結構；_ONE_E代表測試時保留分支結構。

作者的測試結果：

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

在cifar100上精确度的提升還是比較大的。Ensemble效果（_E）比_ONE在小網絡上的提升較大，而在大網絡上的提升較小，這一點跟作者的測試結論相同。Res32_ONE_E的精确度達到ResNet110_ori的精确度還要好一點。

Knowledge Distillation by On-the-Fly Native Ensemble論文解讀

作者在imagenet資料集上的測試結果：

在imagenet資料集上采用最後兩個block開始分支，看效果有提升，但不如在cifar100資料集上的提升大，同時上面的資料也說明在新型網絡上是有效的。

不同的資料集的測試效果差别還挺大，将來對于不同的分類網絡提升情況有待驗證。

繼續閱讀