天天看點

【論文閱讀筆記】SSD:Single Shot MultiBox Detector

位址:SSD:Single Shot MultiBox Detector

時間:2015年12月釋出,2016年12月最終

全文概括

  SSD引入了Faster RCNN的anchor,使用多level 的 feature map來進行分類和回歸,進而增強多尺度的語義資訊(SSD應用在不同尺度的feature 上)。

【論文閱讀筆記】SSD:Single Shot MultiBox Detector

  在VOC 2007 test資料集上,SSD達到 74.3 % 74.3\% 74.3%的mAP及 59 59 59FPS;而Faster R-CNN 達到 73.2 % 73.2\% 73.2%的mAP及 7 7 7FPS、YOLO達到 63.4 % 63.4\% 63.4%的mAP及 45 45 45FPS。

即SSD達到了當時最好的性能,且比YOLO要快

(個人認為,在骨架網絡上,SSD與YOLO最大的差別在于沒有後面的fc層,即

速度的提升來自于conv層代替fc層

。fc層需要更大的記憶體,而conv可以通過資料複用,減少通路存儲的次數。而且,conv層的可優化加速空間更大)

  在不同level的feature map上,使用的檢測網絡(分類和回歸)是不一樣的,即不共用。

SSD模型

  骨幹網絡使用VGG16,但fc6和fc7變成conv layer,移除fc8和dropout層,pool5從22-stride2變成33-stride1;

  檢測網絡在每個不同level的feature map是不同的,假設該層feature map有p個channel,使用33p的卷積核得到輸出的一個次元(即預測其中的一個值,類别分數或者邊框offset);

  每個anchor都計算分類分數和邊框偏移;

模型相關訓練方法

  模型訓練時,使用硬負樣本縮減政策,正負比例為1:3;

  标記樣本時,重疊率超過0.5就标記為ground truth;[作者認為,這簡化了學習問題,允許網絡給多個重疊annchor高分,而不是要求它僅選最大重疊的框];

  損失函數使用和Faster RCNN一樣的:平滑L1損失函數+softmax loss;

繼續閱讀