天天看点

论文阅读笔记05:YOLOv3: An Incremental ImprovementYOLOv3改进:

paper:https://arxiv.org/pdf/1804.02767.pdf

code:https://pjreddie.com/darknet/yolo/

这是目标检测领域的一篇论文,发布于2020年,于上一代YOLOv2时间相差很多。模型依旧保持着快速,并增加了一点准确性。

YOLOv3改进:

前面很大一部分是将YOLOv2的bounding boxes的内容又介绍了一遍,并没有提出很多更新。

Class Prediction

在多标签分类问题上,不采用softmax,而使用独立逻辑分类器(sigmoid),训练时使用binary cross-entropy loss。

sigmoid可以用于多分类问题,但是类别必须是相互排斥,但是数据集中存在一个物体有多个标签类别时,标签是可能重复的。

Predictions Across Scales

YOLOv3参考FPN网络的思想,用非线性插值方法上采样了两次,获得了3个不同大小的feature maps,每个feature map预测3个anchor boxes,以三种不同的比例预测boxes,在对象提取器中添加几层卷积层,最后一层卷积层预测三维encoding bounding boxes、objectness、class prediction。

由深层、语义特征丰富的负责预测大物体(分配大anchor);浅层、几何特征丰富的负责预测小物体(分配小anchor)。

YOLOv3在识别小物体上性能已经非常好,在大物体和中等大小的物体上性能尚且欠佳。

Feature Extractor

YOLOv3使用新的网络来进行特征提取。YOLOv2使用的是Darknet-19,而YOLOv3使用53层卷积层(连续的1×1和3×3的卷积层),还包含Residual块,并且命名为Darknet-53。如下图所示:

论文阅读笔记05:YOLOv3: An Incremental ImprovementYOLOv3改进:

新网络比Darknet-19更加强大,但仍然比ResNet-101或ResNet-152高效;

Darknet-53中没有pooling层,而是用步长为2的卷积层代替,避免了信息丢失;

Darknet-53中加大了网络的深度,增加了非线性的能力,丰富了特征的多样性。

Some failed attempts

anchor boxes(x,y)偏移预测:降低了模型的稳定性,成效不好;

线性(x,y)预测取代逻辑预测:降低了mAP;

focal loss:聚焦损失降低了mAP;

Dual IOU thresholds and truth assignment:Faster R-CNN在训练时使用了两个IOU阈值进行约束,进行了尝试,但是效果不好。

性能对比:

论文阅读笔记05:YOLOv3: An Incremental ImprovementYOLOv3改进:

参考博客:https://blog.csdn.net/baidu_27643275/article/details/82964784

https://zhuanlan.zhihu.com/p/141974089

继续阅读