1. 網絡結構:
Gate為全連接配接網絡,用來學習哪個網絡更重要。目前利用全連接配接網絡選擇網絡部件重要性的方法很流行。“三個臭皮匠頂個諸葛亮?”,感覺很像bagging方法。
2. 損失函數:
訓練時softmax都有溫度T=3蒸餾,測試時就恢複T=1。
最終的Loss
第一項代表各個分支的損失,第二項代表最後Teacher的損失,第三項代表各分支和Teacher的KL散度。
3. 測試情況
我的測試結果:
測試資料集:cifar100
測試條件:網絡的最後一個block開始如圖1的分支結構(分三個branch:m=2)
ResNet32_ori top1 bestacc: 70.69
ResNet32_ONE top1 bestacc: 73.47
ResNet32_ONE_E top1 bestacc: 75.45
ResNet110_ori top1 bestacc: 75.38
ResNet110_ONE top1 bestacc: 78.79
ResNet110_ONE_E top1 bestacc: 79.77
note: _ori代表原網絡;_ONE代表測試時删除分支結構;_ONE_E代表測試時保留分支結構。
作者的測試結果:
在cifar100上精确度的提升還是比較大的。Ensemble效果(_E)比_ONE在小網絡上的提升較大,而在大網絡上的提升較小,這一點跟作者的測試結論相同。Res32_ONE_E的精确度達到ResNet110_ori的精确度還要好一點。
作者在imagenet資料集上的測試結果:
在imagenet資料集上采用最後兩個block開始分支,看效果有提升,但不如在cifar100資料集上的提升大,同時上面的資料也說明在新型網絡上是有效的。
不同的資料集的測試效果差别還挺大,将來對于不同的分類網絡提升情況有待驗證。