用OpenCV實作超輕量的NanoDet目标檢測模型！

↑ 點極市平台

作者丨nihate

審稿丨鄧富城

編輯丨極市平台

極市導讀

本文作者用OpenCV部署了超輕量目标檢測模型NanoDet，并實作了C++和Python兩個版本，并對此進行了解析，附完整代碼。 >>祝大家開工大吉！在極市平台背景回複“開工大吉”，即可免費獲得我們為大家準備的CV開發者專屬紅包封面~

2020年，在深度學習目标檢測領域誕生了yolov4,yolov5和nanodet這些優秀的檢測模型，有許多的微信公衆号報道這些算法模型。深度學習目标檢測方法可劃分為 Anchor-base 和 Anchor-free 兩大類，nanodet是一個速度超快和輕量級的移動端 Anchor-free 目标檢測模型,并且它的精度不亞于yolo系列的。

nanodet通過一些論文裡的trick組合起來得到了一個兼顧精度、速度和體積的檢測模型。作者用到的一些trick，主要參考自：(1)參考FCOS 式的單階段 anchor-free 目标檢測模型，FCOS特點是讓模型學習feature map中每個位置到檢測框的四條邊的距離，如下圖所示。

(2)使用 ATSS 進行目标采樣，該方法提出了自适應訓練樣本選擇方法，該方法根據目标的統計特征（方差和均值）自動劃分正訓練樣本和負訓練樣本，彌合了基于錨的探測器與無錨探測器之間的差距。(3)使用 Generalized Focal Loss 損失函數執行分類和邊框回歸（box regression），該函數能夠去掉 FCOS 的 Centerness 分支，省去這一分支上的大量卷積，進而減少檢測頭的計算開銷。

為了達到輕量化的目的，作者在設計網絡結構時，使用 ShuffleNetV2 1.0x 作為骨幹網絡，他去掉了該網絡的最後一層卷積，并且抽取 8、16、32 倍下采樣的特征輸入到 PAN 中做多尺度的特征融合。

在FPN子產品裡，去掉所有卷積，隻保留從骨幹網絡特征提取後的 1x1 卷積來進行特征通道次元的對齊，上采樣和下采樣均使用插值來完成。與 YOLO 使用的 concat操作不同，項目作者選擇将多尺度的 Feature Map 直接相加，使整個特征融合子產品的計算量變得非常小。

在檢測頭子產品裡，使用了共享權重的檢測頭，即對 FPN 出來的多尺度 Feature Map 使用同一組卷積預測檢測框，然後每一層使用一個可學習的 Scale 值作為系數，對預測出來的框進行縮放。與此同時，使用了 Group Normalization（GN）作為歸一化方式.FCOS 的檢測頭使用了 4 個 256 通道的卷積作為一個分支，也就是說在邊框回歸和分類兩個分支上一共有 8 個 c=256 的卷積，計算量非常大。為了将其輕量化，項目作者首先選擇用深度可分離卷積替換普通卷積，并且将卷積堆疊的數量從 4 個減少為 2 組。在通道數上，将 256 維壓縮至 96 維，之是以選擇 96，是因為需要将通道數保持為 8 或 16 的倍數，能夠享受到大部分推理架構的并行加速。

最後，項目作者借鑒了 YOLO 系列的做法，将邊框回歸和分類使用同一組卷積進行計算，然後 split 成兩份。最後，項目作者借鑒了 YOLO 系列的做法，将邊框回歸和分類使用同一組卷積進行計算，然後 split 成兩份，這樣就組成了nanodet網絡。

作者把nanodet釋出在github上，項目位址： https://github.com/RangiLyu/nanodet，下載下傳代碼和模型檔案到本地，按照README文檔運作一個前向推理程式。接下來，我閱讀前向推理主程式demo.py檔案，嘗試了解在運作這個主程式時需要調用哪些函數和.py檔案。在前向推理主程式demo.py檔案，對一幅圖檔做目标檢測是在Predictor類的成員函數inference裡實作的，它裡面包含了對輸入圖檔做預處理preprocess，前向計算forward和後處理postprocess這三個步驟。Predictor類的定義如下圖所示

對輸入原圖做預處理，預處理子產品是使用Pipeline類實作，對應的代碼是

看到這段代碼時，我有些懵逼了。第一次見到functools.partial這個子產品，我百度查了一下它的作用是包裝函數，接着看warp_resize函數，這個函數對應的代碼很複雜，裡面有多個if條件判斷，調用了多個自定義函數。限于篇幅，在這裡展示部分截圖代碼，如下圖所示

從代碼不難猜測出warp_resize函數的作用是對原圖做resize，于是我把warp_resize函數傳回的圖像做可視化并列印出圖像的尺寸是高寬：320x320，可視化結果如下圖所示。

從圖中可以看到，warp_resize函數是保持原圖高寬比的resize，短邊剩下的部分用黑色像素填充。這種功能在ultralytics的yolov3和yolov5代碼倉庫裡有一個letterbox函數實作的，在letterbox函數使用opencv庫裡的resize和copyMakeBorder就可以實作保持高寬比的resize，這種方法簡潔明了。接着我對warp_resize函數和letterbox函數對同一幅圖檔做保持原圖高寬比的resize的結果比較。可視化結果如下，從視覺上看不出它們有何差異。把這兩幅圖的像素矩陣做減法比較，發現它們并不等于0，也是是說它們的像素值還是有差異的。

接着看預處理子產品Pipeline類裡的第二個函數color_aug_and_norm，代碼截圖如下。可以看出，這個函數的作用是對輸入圖檔的RGB三通道分别做減均值除以标準差的操作，不過在最開始對img除以255,在最後對均值和标準差分别除以255，這三次除以255是完全沒必要的，因為在最後一步 (img - mean) / std，分子分母可以約掉1/255，這和img,mean,std不做除以255這一步計算，直接(img - mean) / std是等價的。

綜上所述，在預處理子產品Pipeline類包含了很多備援的計算，圖像預處理本身是一個簡單問題，但是在官方代碼裡卻把簡單問題搞複雜化了。

官方代碼倉庫(https://github.com/RangiLyu/nanodet)裡提供了基于 ncnn 推理架構的實作，基于mnn，libtorch,openvino的實作，但是沒有基于Opencv的dnn子產品的實作。于是我就編寫一套基于Opencv的dnn子產品的實作，程式裡包含Python和C++兩個版本的代碼。

位址是：

https://github.com/hpc203/nanodet-opncv-dnn-cpp-python

在這套程式裡，圖像預處理子產品沿用了ultralytics代碼倉庫裡的letterbox函數使用opencv庫裡的resize和copyMakeBorder就可以實作保持高寬比的resize。此外，在網上有很多介紹nanodet網絡結構的文章，但是在文章裡沒有對nanodet後處理子產品做詳細介紹的。是以，在編寫這套程式時，我最關注的是nanodet的後處理子產品，在nanodet網絡輸出之後，經過怎樣的矩陣計算之後得到檢測框的左上和右下兩個頂點的坐标(x,y)的值的。接下來，我結合代碼來了解後處理子產品的運作原理。首先，原圖經過預處理之後形成一個320x320的圖檔作為nanodet網絡的輸入，經過forward前向計算後會得到40x40，20x20，10x10這三種尺度的特征圖（換言之就是原圖縮小8倍，16倍，32倍），在程式代碼裡設斷點調試，檢視中間變量，截圖如下：

從上圖可以看到，經過forward前向計算後，有6個輸出矩陣。第1個輸出的次元是(1600,80)，它對應的是40x40的特征圖(拉平後是長度為1600的向量，也就是說一共有1600個像素點)裡的每個像素點在coco資料集的80個類别裡的每個類的置信度。第2個輸出的次元是(1600,32)，它對應的是40x40的特征圖(拉平後是長度為1600的向量，也就是說一共有1600個像素點)裡的每個像素點的檢測框的預測偏移量，可以看到這個預測偏移量是一個長度為32的向量，它可以分成4份，每份向量的長度為8，接下來的第3，4，5，6個輸出矩陣的意義以此類推。

前面講到過nanodet的特點是讓神經網絡學習feature map中每個位置到檢測框的四條邊的距離，接下來我們繼續在程式裡設斷點調試，來了解這4份長度為8的預測偏移量是如何經過一系列的矩陣計算後得到到檢測框的四條邊的距離。代碼截圖如下：

從上圖可以看到，把形狀為(1600,32)的矩陣reshape成(6400,8)的矩陣bbox_pred，其實就等同于把每一行切分成4份組成新的矩陣，然後做softmax變換，把數值歸一化到0至1的區間内。繼續調試接下來的一步，代碼截圖如下：

可以看到project是一個長度8的向量,元素值是從0到7。形狀為(6400,8)的矩陣bbox_pred與向量project做乘法得到6400的列向量，然後reshape為(1600,4)的矩陣，接下來乘以縮放步長。這時候就得到的形狀為(1600,4)的矩陣bbox_pred，它的幾何意義就是40x40的特征圖裡的每個像素點到檢測框的四條邊的距離。有了這個值之後，接下來的計算就簡單了，在此不做詳細講述，可以參閱我的代碼。簡單來說就是計算特征圖的每個像素點在coco資料集裡的80類裡的最大score值作為類别置信度，然後把特征圖的所有像素點的類别置信度從高到低排序，取前topk個像素點，然後根據上一步計算出的到檢測框四條邊的距離換算出檢測框的左上和右下兩個頂點的(x,y)值，最後做NMS去除重疊的檢測框。為了更好的了解從nanodet輸出特征圖到最終計算出目标檢測框的左上和右下頂點坐标(x,y)值的這個過程，我在草稿紙上畫圖示範，如下所示：

在編寫完調用opencv的做nanodet目标檢測的程式後，為了驗證程式的有效性，從COCO資料集裡選取幾張圖檔測試并且與官方代碼做比較，官方代碼是用python編寫的調用pytorch架構做目标檢測的。結果如下，左邊的圖是官方代碼的可視化結果，右邊的圖是opencv做nanodet目标檢測的可視化結果。

把官方代碼和我編寫的代碼做了一個性能比較的實驗，實驗環境是ubuntu系統，8G顯存的gpu機器。在實驗中讀取一個視訊檔案，對視訊裡的每一幀做目标檢測，分别運作官方的調用pytorch架構做目标檢測的python代碼和我編寫的調用opencv做目标檢測的python代碼，在terminal終端輸入top檢視這兩個程式運作時占用的記憶體,截圖如下。第一行是opencv做nanodet目标檢測程式運作時占用的記憶體，第二行是官方代碼運作時占用的記憶體，可以看到使用opencv做nanodet目标檢測對記憶體的消耗明顯要低于官方代碼的pytorch架構做nanodet目标檢測的。

用OpenCV實作超輕量的NanoDet目标檢測模型！

GitHub傳送門

繼續閱讀

【ICLR2019】Oral 論文彙總

【ICLR2019】Poster 論文彙總

HDU 5327 Olympiad

目标檢測系列（IV）：YOLO V1、YOLO V2、YOLO V3

pp-picodet從環境配置到部署全流程（5）——PaddleLite端側部署1. PaddleDetection支援的部署形式說明

目标檢測架構｜又一新架構來襲，關系網絡用于目标檢測（文末附源碼）

yolov7 tensorrt模型加速部署【實戰】

基于改進FCOS的鋼帶表面缺陷檢測

bzoj-1003 物流運輸

自動駕駛Nvidia Jetson +FPGA設計方案

目标檢測：YOLOV3論文解讀一、yolov3論文解讀

Pytorch機器學習（九）—— YOLO中對于錨框，預測框，産生候選區域及對候選區域進行标注詳解 Pytorch機器學習（九）—— YOLO中錨框，預測框，産生候選區域及對候選區域進行标注詳解前言一、基本概念二、代碼講解總結

HUST 1374 Just Another Game

2021-09-30三維點雲測量正方形包裹體積

HDU 1402 A * B Problem Plus