天天看點

論文閱讀筆記05:YOLOv3: An Incremental ImprovementYOLOv3改進:

paper:https://arxiv.org/pdf/1804.02767.pdf

code:https://pjreddie.com/darknet/yolo/

這是目标檢測領域的一篇論文,釋出于2020年,于上一代YOLOv2時間相差很多。模型依舊保持着快速,并增加了一點準确性。

YOLOv3改進:

前面很大一部分是将YOLOv2的bounding boxes的内容又介紹了一遍,并沒有提出很多更新。

Class Prediction

在多标簽分類問題上,不采用softmax,而使用獨立邏輯分類器(sigmoid),訓練時使用binary cross-entropy loss。

sigmoid可以用于多分類問題,但是類别必須是互相排斥,但是資料集中存在一個物體有多個标簽類别時,标簽是可能重複的。

Predictions Across Scales

YOLOv3參考FPN網絡的思想,用非線性插值方法上采樣了兩次,獲得了3個不同大小的feature maps,每個feature map預測3個anchor boxes,以三種不同的比例預測boxes,在對象提取器中添加幾層卷積層,最後一層卷積層預測三維encoding bounding boxes、objectness、class prediction。

由深層、語義特征豐富的負責預測大物體(配置設定大anchor);淺層、幾何特征豐富的負責預測小物體(配置設定小anchor)。

YOLOv3在識别小物體上性能已經非常好,在大物體和中等大小的物體上性能尚且欠佳。

Feature Extractor

YOLOv3使用新的網絡來進行特征提取。YOLOv2使用的是Darknet-19,而YOLOv3使用53層卷積層(連續的1×1和3×3的卷積層),還包含Residual塊,并且命名為Darknet-53。如下圖所示:

論文閱讀筆記05:YOLOv3: An Incremental ImprovementYOLOv3改進:

新網絡比Darknet-19更加強大,但仍然比ResNet-101或ResNet-152高效;

Darknet-53中沒有pooling層,而是用步長為2的卷積層代替,避免了資訊丢失;

Darknet-53中加大了網絡的深度,增加了非線性的能力,豐富了特征的多樣性。

Some failed attempts

anchor boxes(x,y)偏移預測:降低了模型的穩定性,成效不好;

線性(x,y)預測取代邏輯預測:降低了mAP;

focal loss:聚焦損失降低了mAP;

Dual IOU thresholds and truth assignment:Faster R-CNN在訓練時使用了兩個IOU門檻值進行限制,進行了嘗試,但是效果不好。

性能對比:

論文閱讀筆記05:YOLOv3: An Incremental ImprovementYOLOv3改進:

參考部落格:https://blog.csdn.net/baidu_27643275/article/details/82964784

https://zhuanlan.zhihu.com/p/141974089

繼續閱讀