YOLO v4网络实现及解析

简介

yolo是继rcnn后，针对目标检测速度问题提出的另一种框架。其核心思想是利用整张图片作为网络输入，直接在输出层回归bbox的位置和所述类别。

网络架构

目标检测一般由两部分组成：backbone和head。其中backbone是主干网络主要用来提取图像的特征，head部分根据图像特征来进行目标检测。对于head部分，通常分为两类： one-stage和two-stage的目标检测器。Two-stage的目标检测器的代表是R-CNN系列，它将目标检测分成两步，第一步先预测出目标框所在的位置，然后在根据该位置上的特征来预测类别。 One-stage目标检测器的代表模型是YOLO, SSD和RetinaNet。它是将rcnn中的两部分放到一起进行预测。

yolo的网络结构主要可以分为三部分，如下图所示：

YOLO v4网络实现及解析YOLO v4网络实现及解析

三个部分分别是backbone、neck、head。backbone主要负责特征提取，neck一般是负责加强特征，然后head负责预测。

Backbone

yolo v4的主干网络使用的是CSPDarkent53。

CSPDarkent53即引入了CSPNet中的主要思想的Darknet53网络结构。CSPNet的主要内容如下图：

YOLO v4网络实现及解析YOLO v4网络实现及解析

CSPNet主要结构如上图中（b）所示，输入层（base layer）会被分为两部分：part1 和part2。这里一般是将通道数分为两部分。然后part2的内容继续进行卷积等操作，最后再直接与 part1聚合。

然后是darknet53，这是yolo v3提出的一种主干网络，主要由一些卷积层和残差结构组成，其网络结构如下：

YOLO v4网络实现及解析YOLO v4网络实现及解析

Neck

在neck部分yolo v4最终选用了spp和PANet。spp的主要结构如下：

YOLO v4网络实现及解析YOLO v4网络实现及解析

如上图，SPP的思路是对于任意大小的feature map首先分成16、4、1 个块，然后在每个块上最大池化，池化后的特征拼接得到一个固定维度的输出。

然后是PANet，其主要结构如下：

YOLO v4网络实现及解析YOLO v4网络实现及解析

如图所示，其中（a）是FPN的结构，（b）是该网络提出的bottom-up路径增强，它与a模块的右侧类似，只是方向不同。然后是（c），它用于融合各个特征层的特征。最后是（d）与（e），他们分别负责目标检测和语义分割。

HEAD

yolo v4使用的head与yolo v3的相同。

YOLO v4网络实现及解析YOLO v4网络实现及解析

YOLO v4网络实现及解析

简介

网络架构

Backbone

Neck

HEAD

继续阅读

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

通俗理解查准率(precision)和查全率(recall)

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

人工智能如何有效地运用于自然语言处理

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络