YOLOv2與YOLO9000

摘要

前篇介紹了基于回歸方法的深度學習目标檢測方法（YOLO，SSD），本篇将介紹YOLO的更新版YOLOv2，其主要有兩個大方面的改進：（1）使用一系列的方法對YOLO進行了改進，在保持原有速度的同時提升精度得到YOLOv2；（2）提出了一種目标分類與檢測的聯合訓練方法，通過WordTree來混合檢測資料集與識别資料集之中的資料，同時在COCO和ImageNet資料集中進行訓練得到YOLO9000，實作9000多種物體的實時檢測。

YOLOv2在YOLOv1的基礎上，使用新的網絡結構（darknet19）和技巧（Batch Normalization、High Resolution Classifier、Convolutional With Anchor Boxes等），提高了檢測速度和檢測精度。

作者提出了一種聯合訓練方法，可以同時使用檢測資料集和分類資料集來訓練檢測模型，用分層的觀點對物體分類，用檢測資料集學習準确預測物體的位置，用分類資料集來增加可識别的類别量，提升魯棒性。

我參考論文和代碼進行了實驗，YOLOv2相對于YOLOv1有很明顯的提升，但是YOLO9000使用感受并不好。YOLO9000的主要問題在于很難調整合适的分層門檻值，同時很多物體的檢測精度過低。

Better

Batch Normalization

神經網絡學習過程本質就是為了學習資料分布,一旦訓練資料與測試資料的分布不同,那麼網絡的泛化能力也大大降低;另外一方面，一旦每批訓練資料的分布各不相同（Batch 梯度下降）,那麼網絡就要在每次疊代都去學習适應不同的分布,這樣将會大大降低網絡的訓練速度。

解決辦法之一是對資料都要做一個歸一化預處理。YOLOv2網絡通過在每一個卷積層後添加batch normalization，極大的改善了收斂速度同時減少了對其它Regularization方法的依賴（舍棄了Dropout優化後依然沒有過拟合），使得mAP獲得了2%的提升。

High Resolution Classifier

所有State-Of-The-Art的檢測方法都在ImageNet上對分類器進行了預訓練。

從AlexNet開始，多數分類器都把輸入圖像Resize到256*256以下，這會容易丢失一些小物體的資訊。

YOLOv1先使用224*224的分辨率來訓練分類網絡，在訓練檢測網絡的時候再切換到448*448的分辨率，這意味着YOLOv1的卷積層要重新适應新的分辨率同時YOLOv1的網絡還要學習檢測網絡。

對于YOLOv2，作者首先對分類網絡（自定義的darknet）進行了fine tune，分辨率改成448 * 448，在ImageNet資料集上訓練10輪（10 epochs），訓練後的網絡就可以适應高分辨率的輸入了。然後，作者對檢測網絡部分（也就是後半部分）也進行fine tune。這樣通過提升輸入的分辨率，mAP獲得了4%的提升。

Convolutional With Anchor Boxes

YOLOv1使用全連接配接層資料進行Bounding Box預測（要把1470*1的全連結層Reshape為7*7*30的最終特征），這會丢失較多的空間資訊定位不準。

YOLOv2借鑒了Faster R-CNN中的Anchor思想：簡單了解為卷積特征圖上進行滑窗采樣，每個中心預測9種不同大小和比例的建議框。由于都是卷積不需要Reshape，很好的保留的空間資訊，最終特征圖的每個特征點和原圖的每個Cell一一對應。而且用預測相對偏移（Offset）取代直接預測坐标簡化了問題，友善網絡學習。

總的來說就是移除全連接配接層（以獲得更多空間資訊）使用Anchor Boxes來預測Bounding boxes。具體做法如下：

去掉最後的池化層確定輸出的卷積特征圖有更高的分辨率。
縮減網絡，讓圖檔輸入分辨率為416*416，目的是讓後面産生的卷積特征圖寬高都為奇數，這樣就可以産生一個Center Cell。因為作者觀察到，大物體通常占據了圖像的中間位置，可以隻用一個中心的Cell來預測這些物體的位置，否則就要用中間的4個Cell來進行預測，這個技巧可稍稍提升效率。
使用卷積層降采樣（factor 為32），使得輸入卷積網絡的416 * 416圖檔最終得到13 * 13的卷積特征圖（416/32=13）。
把預測類别的機制從空間位置（Cell）中解耦，由Anchor Box同時預測類别和坐标。因為YOLO是由每個Cell來負責預測類别，每個Cell對應的2個Bounding Box 負責預測坐标（回想YOLO中最後輸出7*7*30的特征，每個Cell對應1*1*30，前10個主要是2個Bounding Box用來預測坐标，後20個表示該Cell在假設包含物體的條件下屬于20個類别的機率，具體請參考圖解YOLO 的圖示）。YOLOv2中，不再讓類别的預測與每個Cell（空間位置）綁定一起，而是讓全部放到Anchor Box中。下面是特征次元示意圖（僅作示意并非完全正确）

加入了Anchor Boxes後，可以預料到的結果是召回率上升，準确率下降。

我們來計算一下，假設每個Cell預測9個建議框，那麼總共會預測13* 13* 9=1521個Boxes，而之前的網絡僅僅預測7* 7*2=98個Boxes。具體資料為：沒有Anchor Boxes，模型Recall為81%，mAP為69.5%；加入Anchor Boxes，模型recall為88%，mAP為69.2%。這樣看來，準确率隻有小幅度的下降，而召回率則提升了7%，說明可以通過進一步的工作來加強準确率，的确有改進空間。

Dimension Clusters

使用Anchor時，作者發現Faster-RCNN中Anchor Boxes的個數和寬高次元往往是手動精選的先驗框（Hand-Picked Priors），設想能否一開始就選擇了更好的、更有代表性的先驗Boxes次元，那麼網絡就應該更容易學到準确的預測位置。解決辦法就是統計學習中的K-means聚類方法，通過對資料集中的Ground True Box做聚類，找到Ground True Box的統計規律。以聚類個數k為Anchor Boxs個數，以k個聚類中心Box的寬高次元為Anchor Box的次元。

如果按照标準K-means使用歐式距離函數，大Boxes比小Boxes産生更多Error。但是，我們真正想要的是産生好的IOU得分的Boxes（與Box的大小無關）。是以采用了如下距離度量：