天天看點

SSD論文筆記

  1. 大緻背景及思路介紹

    a. 一篇很經典的文章,SSD家族的開山鼻祖,在當年達到了比Yolo快,比Yolo準的水準。

    b. 引入了多尺度檢測,使得檢測框的數量和大小種類大大增多,達到了更好的水準。

    c. Default box的引入,類似于Anchors。

  2. 與R-CNN系列,YOLO的比較

    a. R-CNN系列的特點就是準和慢。SSD與之相比最大提高就是快,這裡主要是由于不需要進行RPN和ROI Pooling這兩個步驟,Faster R-CNN的速度為7FPS,而SSD可以達到58FPS。

    b. YOLO系列的特點則是快但是不準。而SSD通過增加更多的預測框,并在多個尺度上進行預測,在更大尺度上的Feature map上預測小物體,提高了檢測效果。而快則是由于SSD的卷積層更少,沒有全連接配接層,而且輸入的圖像更小。在VOC2007上,SSD的準确率比YOLO高出接近10個百分點,快13FPS。

  3. SSD的主要特點和結構
    SSD論文筆記

    a. Base network采用VGG16,在此基礎上,增加若幹卷積層以産生預測結果,這些卷積層的大小漸進的縮小,實作在多個尺度的特征圖上的預測。

    b. 可以看到,總共在6層上進行預測,每層在每個cell中分别預測6個或3個錨框,最後我們會的到(38 * 38 3+19 * 19 * 6+10 * 10 * 6+5 * 5 * 6+3 * 3 * 6+1 * 1 * 6)總計7308個框,而YOLO隻在最後一層的77上,每個cell預測兩個框共98個,顯然準确率上,SSD會有更大可能優于YOLO。

    c. 比對政策上,首先每個GT box會和所有的預測框中IoU最高的進行一個比對,然後還會和所有IoU大于一個門檻值的進行比對,這樣使得每個GT box可能會和多個預測框進行比對。

    d. 損失函數:定位的損失函數為Smooth L1 loss,分類的損失函數為典型的softmax 損失函數,N為比對到的預測框的數量,α用于平衡兩個loss,預設為1.

    SSD論文筆記
    e. Default box 縮放尺度和比例的選擇。在每層上的縮放比例通過如下公式進行确定,可以看到層數越深,比例越大,也就是小物體主要靠前幾層,大物體靠後幾層:
    SSD論文筆記
    f. Hard negative mining:正負樣本不均衡的問題依然存在,這裡通過置信度排序後,将負樣本和正樣本的比例控制到3:1。這樣可以使得訓練更快更穩定。

繼續閱讀