前言:這篇論文旨在以極低的計算成本解決性能大幅下降的問題。提出了微分解卷積,将卷積矩陣分解為低秩矩陣,将稀疏連接配接整合到卷積中。提出了一個新的動态激活函數-- Dynamic Shift Max,通過最大化輸入特征圖與其循環通道移位之間的多個動态融合來改善非線性。
在這兩個新操作的基礎上,得到了一個名為 MicroNet 的網絡系列,它在低 FLOP 機制中實作了比現有技術顯着的性能提升。在 12M FLOPs 的限制下,MicroNet 在 ImageNet 分類上達到了 59.4% 的 top-1 準确率,比 MobileNetV3 高 9.6%。
論文:MicroNet: Improving Image Recognition with Extremely Low FLOPs
代碼:https://github.com/liyunsheng13/micronet
歡迎關注公衆号 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。
論文出發點
高效 CNN 架構的最新進展成功地将 ImageNet 分類的計算成本從 3.8G FLOPs (ResNet-50) 降低了兩個數量級到大約 40M FLOPs(例如 MobileNet、ShuffleNet),性能下降合理。
然而,當進一步降低計算成本時,它們會遭受顯着的性能下降。例如,當計算成本分别從 44M 下降到 21M 和 12M MAdds 時,MobileNetV3 的 top-1 準确率從 65.4% 大幅下降到 58.0% 和 49.8%。
這篇論文的目标是将極低 FLOP 機制下的精度從 21M 降到 4M MAdds,這标志着計算成本降低到另一個數量級。
處理極低計算成本(4M-21M FLOPs)的問題非常具有挑戰性,考慮到輸入資料大小為 224×224x3,在第一層 3 × 3 卷積、輸出通道8的操作上就消耗了 2.7M MAdds。 剩餘的資源太有限,無法設計有效分類所需的卷積層和 1,000 類分類器。

如上圖所示,減少現有高效 CNN(例如 MobileNet 和 ShuffleNet)的寬度或深度的常見政策會導緻嚴重的性能下降。
這篇論文專注于新的算子設計,同時将輸入分辨率固定為 224×224,預算成本為 4M FLOPs。
創新思路
這篇論文從兩個角度處理極低的 FLOPs:節點連接配接性(node connectivity)和非線性(non-linearity),這與網絡寬度和深度有關。
首先,降低節點連接配接以擴大網絡寬度為給定的計算預算提供了一個很好的權衡。其次,依靠改進的層非線性來補償減少的網絡深度,這決定了網絡的非線性。這兩個因素促使設計更有效的卷積和激活函數。
Methods
Micro-Factorized Convolution
分為兩部分:Micro-Factorized Pointwise Convolution和 Micro-Factorized Depthwise Convolution,兩者再以不同方式組合。
Micro-Factorized Pointwise Convolution
論文提出了微分解卷積 (MF-Conv) 将逐點卷積分解為兩個組卷積層,其中組數 G 适應通道數 C 為:G = sqrt(C/R)
其中 R 是兩者之間的通道縮減比。
對于給定的計算成本,該等式在通道數量和節點連接配接之間實作了良好的折衷。
如上圖所示,輸入通道數C分為G組,G組再通過中間一個 (C/R × C/R )的置換矩陣Φ 降低通道數,這個置換矩陣類似于shufflenet中的打亂通道順序的操作。
Micro-Factorized Depthwise Convolution
這個部分是引用Inception_v2中的分解卷積,在使用Depthwise的基礎上,将KxK卷積核分為Kx1和1xK兩部分。
Micro-Factorized pointwise 和 depthwise 卷積可以以兩種不同的方式組合:(a) 正常組合,和 (b) lite 組合。
前者隻是将兩個卷積連接配接起來。 上圖所示的 lite 組合使用微分解深度卷積來擴充通道數量,通過為每個通道應用多個空間濾波器。 然後應用一組自适應卷積來融合和壓縮通道數。 與其正常組合方式相比,它通過節省通道融合(pointwise)計算在學習空間過濾器(depthwise)上花費更多資源,經驗證明這對于實作較低的網絡層更有效。
Dynamic Shift-Max
考慮到Micro-Factorized pointwise 卷積更注重組内的連接配接,是以提出Dynamic Shift-Max,這是一種新的動态非線性,用于加強由Micro-Factorized建立的組之間的聯系。
Dynamic Shift-Max 輸出 K 個融合的最大值,每個融合組合多個 (J) 組位移為
其中J表示組數,i表示通道數,K表示融合後的輸出數量。當J=K=2時,可以在準确率和複雜度之間取得較好的折衷。
這個公式用一句話來解釋就是,每J個組,對每組的x進行權重求和,共K個融合,然後取K個中的最大值作為第i個通道上的激活函數值。
這樣,DY-Shift-Max 實作了兩種形式的非線性: (a) 輸出 J 組的 K 個融合的最大值,以及 (b) 通過動态參數。
第一個非線性是對 Micro-Factorized pointwise 卷積的補充,它側重于每個組内的連接配接,加強組之間的連接配接。第二個使網絡能夠根據輸入 x 調整這種強化。這兩個操作增加了網絡的表示能力,補償了減少層數所帶來的損失。
MicroNet
Conclusion
在 12M FLOPs 的限制下,MicroNet 在 ImageNet 分類上達到了 59.4% 的 top-1 準确率,比 MobileNetV3 高 9.6%。
對 ImageNet 分類的評估。左:top-1 準确率與 FLOPs。右圖:top-1 準确率與延遲。注意添加了 Mo bileNetV3 ×0.75 以友善比較。MicroNet 優于 MobileNetV3,尤其是在計算成本極低的情況下(當 FLOPs 小于 15M 或延遲小于 9ms 時,top-1 精度提高 5% 以上)。
動态 Shift-Max 與 ImageNet 上的其他激活函數的比較。
本文來源于公衆号 CV技術指南 的論文分享系列。
歡迎關注公衆号 CV技術指南 ,專注于計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。
在公衆号中回複關鍵字 “技術總結”可擷取公衆号原創技術總結文章的彙總pdf。
其它文章
CV技術指南--精華文章彙總分類
神經網絡超參數的調參方法總結
CVPR2021 | 重新思考BatchNorm中的Batch
ICCV2021 | 重新思考視覺transformers的空間次元
CVPR2021 | Transformer用于End-to-End視訊執行個體分割
ICCV2021 |(騰訊優圖)重新思考人群中的計數和定位:一個純粹基于點的架構
卷積神經網絡的複雜度分析
2021年小目标檢測最新研究綜述
計算機視覺中的自注意力
綜述專欄 | 姿态估計綜述
漫談CUDA優化
為什麼GEMM是深度學習的核心
使用深度神經網絡為什麼8位足夠?
經典論文系列--膠囊網絡:新的深度學習網絡
經典論文系列 | 目标檢測--CornerNet & 又名 anchor boxes的缺陷
如何看待人工智能的泡沫
使用Dice loss實作清晰的邊界檢測
PVT--無卷積密集預測的多功能backbone
CVPR2021 | 開放世界的目标檢測
Siamese network總結
視覺目标檢測和識别之過去,現在及可能
在做算法工程師的道路上,你掌握了什麼概念或技術使你感覺自我提升突飛猛進?
計算機視覺專業術語總結(一)建構計算機視覺的知識體系
欠拟合與過拟合技術總結
歸一化方法總結
論文創新的常見思路總結
CV方向的高效閱讀英文文獻方法總結
計算機視覺中的小樣本學習綜述
知識蒸餾的簡要概述
ICCV2021 | MicroNet:以極低的 FLOPs 改進圖像識别