深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

注：本文轉載自https://zhuanlan.zhihu.com/p/143747206。以下為原文。

因為工作原因，項目中經常遇到目标檢測的任務，是以對目标檢測算法會經常使用和關注，比如Yolov3、Yolov4算法。

當然，實際項目中很多的第一步，也都是先進行目标檢測任務，比如人臉識别、多目标追蹤、REID、客流統計等項目。是以目标檢測是計算機視覺項目中非常重要的一部分。

從2018年Yolov3年提出的兩年後，在原作者聲名放棄更新Yolo算法後，俄羅斯的Alexey大神扛起了Yolov4的大旗。

在此，大白将項目中，需要了解的Yolov3、Yolov4系列相關知識點以及相關代碼進行完整的彙總，希望和大家共同學習探讨。

版權申明：轉載及引用本文相關圖檔，需在評論區留言，先贊後取圖。

本文包含圖檔，都為本人所繪制，如需高清圖檔，可郵箱發送資訊，需要哪部分的圖檔。

江大白郵箱：[email protected]

文章目錄

1. 論文彙總

2. Yolov3核心基礎内容

2.1 網絡結構可視化

2.2 網絡結構圖

2.3 核心基礎内容

3. Yolov3相關代碼

3.1 python代碼

3.2 C++代碼内容

3.3 python版本的Tensorrt代碼

3.4 C++版本的Tensorrt代碼

4. Yolov4核心基礎内容

4.1 網絡結構可視化

4.2 網絡結構圖

4.3 核心基礎内容

4.3.1 輸入端創新

4.3.2 Backbone創新

4.3.3 Neck創新

4.4.4 Prediction創新

5. Yolov4相關代碼

5.1 python代碼

5.2 C++代碼

5.3 python版本的Tensorrt代碼

5.4 C++版本的Tensorrt代碼

6. 相關資料集下載下傳

7. 不斷更新ing

1.論文彙總

Yolov3論文名：《Yolov3: An Incremental Improvement》

Yolov3論文位址：https://arxiv.org/pdf/1804.02767.pdf

Yolov4論文名：《Yolov4: Optimal Speed and Accuracy of Object Detection》

Yolov4論文位址：https://arxiv.org/pdf/2004.10934.pdf

2.YoloV3核心基礎内容

2.1 網絡結構可視化

Yolov3是目标檢測Yolo系列非常非常經典的算法，不過很多同學拿到Yolov3或者Yolov4的cfg檔案時，并不知道如何直覺的可視化檢視網絡結構。如果純粹看cfg裡面的内容，肯定會一臉懵逼。

其實可以很友善的用netron檢視Yolov3的網絡結構圖，一目了然。

這裡不多說，如果需要安裝，可以移步大白的另一篇文章：《網絡可視化工具netron詳細安裝流程》。

如果不想安裝，也可以直接點選此連結，檢視Yolov3可視化流程圖。

2.2 網絡結構圖

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

繪制網絡結構圖受到Yolov3另一位作者文章的啟發，包括下面Yolov4的結構圖，确實，從總體架構上先了解了Yolov3的流程，再針對去學習每一小塊的知識點，會事半功倍。

上圖三個藍色方框内表示Yolov3的三個基本元件：

CBL：Yolov3網絡結構中的最小元件，由Conv+Bn+Leaky_relu激活函數三者組成。
Res unit：借鑒Resnet網絡中的殘差結構，讓網絡可以建構的更深。
ResX：由一個CBL和X個殘差元件構成，是Yolov3中的大元件。每個Res子產品前面的CBL都起到下采樣的作用，是以經過5次Res子產品後，得到的特征圖是608->304->152->76->38->19大小。

其他基礎操作：

Concat：張量拼接，會擴充兩個張量的次元，例如26*26*256和26*26*512兩個張量拼接，結果是26*26*768。Concat和cfg檔案中的route功能一樣。
add：張量相加，張量直接相加，不會擴充次元，例如104*104*128和104*104*128相加，結果還是104*104*128。add和cfg檔案中的shortcut功能一樣。

Backbone中卷積層的數量：

每個ResX中包含1+2*X個卷積層，是以整個主幹網絡Backbone中一共包含1+（1+2*1）+（1+2*2）+（1+2*8）+（1+2*8）+（1+2*4）=52，再加上一個FC全連接配接層，即可以組成一個Darknet53分類網絡。不過在目标檢測Yolov3中，去掉FC層，不過為了友善稱呼，仍然把Yolov3的主幹網絡叫做Darknet53結構。

2.3 核心基礎内容

Yolov3是2018年發明提出的，這成為了目标檢測one-stage中非常經典的算法，包含Darknet-53網絡結構、anchor錨框、FPN等非常優秀的結構。

本文主要目的在于描述Yolov4和Yolov3算法的不同及創新之處，對Yolov3的基礎不過多描述。

不過大白也正在準備Yolov3算法非常淺顯易懂的基礎視訊課程，讓小白也能簡單清楚的了解Yolov3的整個過程及各個算法細節，制作好後會更新到此處，便于大家檢視。

在準備課程過程中，大白搜集檢視了網絡上幾乎所有的Yolov3資料，在此整理幾個非常不錯的文章及視訊，大家也可以點選檢視，學習相關知識。

（1）視訊：吳恩達目标檢測Yolo入門講解

https://www.bilibili.com/video/BV1N4411J7Y6?from=search&seid=18074481568368507115

（2）文章：Yolo系列之Yolov3【深度解析】

https://blog.csdn.net/leviopku/article/details/82660381

（3）文章：一文看懂Yolov3

https://blog.csdn.net/litt1e/article/details/88907542

相信大家看完，對于Yolov3的基礎知識點會有一定的了解。

3.YoloV3相關代碼

3.1 python代碼

代碼位址：https://github.com/ultralytics/Yolov3

3.2 C++代碼

這裡推薦Yolov4作者的darknetAB代碼，代碼和原始作者代碼相比，進行了很多的優化，如需要運作Yolov3網絡，加載cfg時，使用Yolov3.cfg即可

代碼位址：https://github.com/AlexeyAB/darknet

3.3 python版本的Tensorrt代碼

除了算法研究外，實際項目中還需要将算法落地部署到工程上使用，比如GPU伺服器使用時還需要對模型進行tensorrt加速。

（1）Tensort中的加速案例

強烈推薦tensort軟體中，自帶的Yolov3加速案例，路徑位于tensorrt解壓檔案夾的TensortX/samples/python/Yolov3_onnx中

針對案例中的代碼，如果有不明白的，也可參照下方文章上的詳細說明：

代碼位址：https://www.cnblogs.com/shouhuxianjian/p/10550262.html

（2）Github上的tensorrt加速

除了tensorrt軟體中的代碼， github上也有其他作者的開源代碼

代碼位址：https://github.com/lewes6369/TensorRT-Yolov3

3.4 C++版本的Tensorrt代碼

項目的工程部署上，如果使用C++版本進行Tensorrt加速，一方面可以參照Alexey的github代碼，另一方面也可以參照下面其他作者的開源代碼

代碼位址：https://github.com/wang-xinyu/tensorrtx/tree/master/Yolov3

4.YoloV4核心基礎内容

4.1 網絡結構可視化

Yolov4的網絡結構也可以使用netron工具檢視，大白也是對照其展示的可視化流程圖繪制的下方網絡結構圖。

netron可視化顯示Yolov4網絡結構可以參照大白的另一篇文章：《netron可視化網絡結構詳細安裝流程》

如果不想安裝，也可以直接點選此連結，檢視Yolov4可視化流程圖。

4.2 網絡結構圖

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

Yolov4的結構圖和Yolov3相比，因為多了CSP結構，PAN結構，如果單純看可視化流程圖，會覺得很繞，不過在繪制出上面的圖形後，會覺得豁然開朗，其實整體架構和Yolov3是相同的，不過使用各種新的算法思想對各個子結構都進行了改進。

先整理下Yolov4的五個基本元件：

CBM：Yolov4網絡結構中的最小元件，由Conv+Bn+Mish激活函數三者組成。
CBL：由Conv+Bn+Leaky_relu激活函數三者組成。
Res unit：借鑒Resnet網絡中的殘差結構，讓網絡可以建構的更深。
CSPX：借鑒CSPNet網絡結構，由三個卷積層和X個Res unint子產品Concate組成。
SPP：采用1×1，5×5，9×9，13×13的最大池化的方式，進行多尺度融合。

其他基礎操作：

Concat：張量拼接，次元會擴充，和Yolov3中的解釋一樣，對應于cfg檔案中的route操作。
add：張量相加，不會擴充次元，對應于cfg檔案中的shortcut操作。

Backbone中卷積層的數量：

和Yolov3一樣，再來數一下Backbone裡面的卷積層數量。

每個CSPX中包含3+2*X個卷積層，是以整個主幹網絡Backbone中一共包含2+（3+2*1）+2+（3+2*2）+2+（3+2*8）+2+（3+2*8）+2+（3+2*4）+1=72。

這裡大白有些疑惑，按照Yolov3設計的傳統，這麼多卷積層，主幹網絡不應該叫CSPDaeknet73嗎？？？？

4.3 核心基礎内容

Yolov4本質上和Yolov3相差不大，可能有些人會覺得失望。

但我覺得算法創新分為三種方式：

第一種：面目一新的創新，比如Yolov1、Faster-RCNN、Centernet等，開創出新的算法領域，不過這種也是最難的
第二種：守正出奇的創新，比如将圖像金字塔改進為特征金字塔
第三種：各種先進算法內建的創新，比如不同領域發表的最新論文的tricks，內建到自己的算法中，卻發現有出乎意料的改進

Yolov4既有第二種也有第三種創新，組合嘗試了大量深度學習領域最新論文的20多項研究成果，而且不得不佩服的是作者Alexey在github代碼庫維護的頻繁程度。

目前Yolov4代碼的star數量已經1萬多，據我所了解，目前超過這個數量的，目标檢測領域隻有Facebook的Detectron(v1-v2)、和Yolo(v1-v3)官方代碼庫（已停止更新）。

是以Yolov4中的各種創新方式，大白覺得還是很值得仔細研究的。

為了便于分析，将Yolov4的整體結構拆分成四大闆塊：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

大白主要從以上4個部分對YoloV4的創新之處進行講解，讓大家一目了然。

輸入端：這裡指的創新主要是訓練時對輸入端的改進，主要包括Mosaic資料增強、cmBN、SAT自對抗訓練
BackBone主幹網絡：将各種新的方式結合起來，包括：CSPDarknet53、Mish激活函數、Dropblock
Neck：目标檢測網絡在BackBone和最後的輸出層之間往往會插入一些層，比如Yolov4中的SPP子產品、FPN+PAN結構
Prediction：輸出層的錨框機制和Yolov3相同，主要改進的是訓練時的損失函數CIOU_Loss，以及預測框篩選的nms變為DIOU_nms

總體來說，Yolov4對Yolov3的各個部分都進行了改進優化，下面丢上作者的算法對比圖。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

僅對比Yolov3和Yolov4，在COCO資料集上，同樣的FPS等于83左右時，Yolov4的AP是43，而Yolov3是33，直接上漲了10個百分點。

不得不服，當然可能針對具體不同的資料集效果也不一樣，但總體來說，改進效果是很優秀的，下面大白對Yolov4的各個創新點繼續進行深挖。

4.3.1 輸入端創新

考慮到很多同學GPU顯示卡數量并不是很多，Yolov4對訓練時的輸入端進行改進，使得訓練在單張GPU上也能有不錯的成績。比如資料增強Mosaic、cmBN、SAT自對抗訓練。

但感覺cmBN和SAT影響并不是很大，是以這裡主要講解Mosaic資料增強。

（1）Mosaic資料增強

Yolov4中使用的Mosaic是參考2019年底提出的CutMix資料增強的方式，但CutMix隻使用了兩張圖檔進行拼接，而Mosaic資料增強則采用了4張圖檔，随機縮放、随機裁剪、随機排布的方式進行拼接。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

這裡首先要了解為什麼要進行Mosaic資料增強呢？

在平時項目訓練時，小目标的AP一般比中目标和大目标低很多。而Coco資料集中也包含大量的小目标，但比較麻煩的是小目标的分布并不均勻。

首先看下小、中、大目标的定義：

2019年釋出的論文《Augmentation for small object detection》對此進行了區分：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

可以看到小目标的定義是目标框的長寬0×0~32×32之間的物體。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

但在整體的資料集中，小、中、大目标的占比并不均衡。

如上表所示，Coco資料集中小目标占比達到41.4%，數量比中目标和大目标都要多。

但在所有的訓練集圖檔中，隻有52.3%的圖檔有小目标，而中目标和大目标的分布相對來說更加均勻一些。

針對這種狀況，Yolov4的作者采用了Mosaic資料增強的方式。

主要有幾個優點：

豐富資料集：随機使用4張圖檔，随機縮放，再随機分布進行拼接，大大豐富了檢測資料集，特别是随機縮放增加了很多小目标，讓網絡的魯棒性更好。
減少GPU：可能會有人說，随機縮放，普通的資料增強也可以做，但作者考慮到很多人可能隻有一個GPU，是以Mosaic增強訓練時，可以直接計算4張圖檔的資料，使得Mini-batch大小并不需要很大，一個GPU就可以達到比較好的效果。

此外，發現另一研究者的訓練方式也值得借鑒，采用的資料增強和Mosaic比較類似，也是使用4張圖檔（不是随機分布），但訓練計算loss時，采用“缺啥補啥”的思路：

如果上一個iteration中，小物體産生的loss不足（比如小于某一個門檻值），則下一個iteration就用拼接圖；否則就用正常圖檔訓練，也很有意思。

參考連結：https://www.zhihu.com/question/390191723?rf=390194081

4.3.2 BackBone創新

（1）CSPDarknet53

CSPDarknet53是在Yolov3主幹網絡Darknet53的基礎上，借鑒2019年CSPNet的經驗，産生的Backbone結構，其中包含了5個CSP子產品。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

這裡因為CSP子產品比較長，不放到本處，大家也可以點選Yolov4的netron網絡結構圖，對比檢視，一目了然。

每個CSP子產品前面的卷積核的大小都是3*3，stride=2，是以可以起到下采樣的作用。

因為Backbone有5個CSP子產品，輸入圖像是608*608，是以特征圖變化的規律是：608->304->152->76->38->19

經過5次CSP子產品後得到19*19大小的特征圖。

而且作者隻在Backbone中采用了Mish激活函數，網絡後面仍然采用Leaky_relu激活函數。

我們再看看下作者為啥要參考2019年的CSPNet，采用CSP子產品？

CSPNet論文位址：https://arxiv.org/pdf/1911.11929.pdf

CSPNet全稱是Cross Stage Paritial Network，主要從網絡結構設計的角度解決推理中從計算量很大的問題。

CSPNet的作者認為推理計算過高的問題是由于網絡優化中的梯度資訊重複導緻的。

是以采用CSP子產品先将基礎層的特征映射劃分為兩部分，然後通過跨階段層次結構将它們合并，在減少了計算量的同時可以保證準确率。

是以Yolov4在主幹網絡Backbone采用CSPDarknet53網絡結構，主要有三個方面的優點：

優點一：增強CNN的學習能力，使得在輕量化的同時保持準确性。

優點二：降低計算瓶頸

優點三：降低記憶體成本

（2）Mish激活函數

Mish激活函數是2019年下半年提出的激活函數

論文位址：https://arxiv.org/abs/1908.08681

和Leaky_relu激活函數的圖形對比如下：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

Yolov4的Backbone中都使用了Mish激活函數，而後面的網絡則還是使用leaky_relu函數。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

Yolov4作者實驗測試時，使用CSPDarknet53網絡在ImageNet資料集上做圖像分類任務，發現使用了Mish激活函數的TOP-1和TOP-5的精度比沒有使用時都略高一些。

是以在設計Yolov4目标檢測任務時，主幹網絡Backbone還是使用Mish激活函數。

（3）Dropblock

Yolov4中使用的Dropblock，其實和常見網絡中的Dropout功能類似，也是緩解過拟合的一種正則化方式。

Dropblock在2018年提出，論文位址：https://arxiv.org/pdf/1810.12890.pdf

傳統的Dropout很簡單，一句話就可以說的清：随機删除減少神經元的數量，使網絡變得更簡單。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

而Dropblock和Dropout相似，比如下圖：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

中間Dropout的方式會随機的删減丢棄一些資訊，但Dropblock的研究者認為，卷積層對于這種随機丢棄并不敏感，因為卷積層通常是三層連用：卷積+激活+池化層，池化層本身就是對相鄰單元起作用。而且即使随機丢棄，卷積層仍然可以從相鄰的激活單元學習到相同的資訊。

是以，在全連接配接層上效果很好的Dropout在卷積層上效果并不好。

是以右圖Dropblock的研究者則幹脆整個局部區域進行删減丢棄。

這種方式其實是借鑒2017年的cutout資料增強的方式，cutout是将輸入圖像的部分區域清零，而Dropblock則是将Cutout應用到每一個特征圖。而且并不是用固定的歸零比率，而是在訓練時以一個小的比率開始，随着訓練過程線性的增加這個比率。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

Dropblock的研究者與Cutout進行對比驗證時，發現有幾個特點：

優點一：Dropblock的效果優于Cutout

優點二：Cutout隻能作用于輸入層，而Dropblock則是将Cutout應用到網絡中的每一個特征圖上

優點三：Dropblock可以定制各種組合，在訓練的不同階段可以修改删減的機率，從空間層面和時間層面，和Cutout相比都有更精細的改進。

Yolov4中直接采用了更優的Dropblock，對網絡的正則化過程進行了全面的更新改進。

4.3.3 Neck創新

在目标檢測領域，為了更好的提取融合特征，通常在Backbone和輸出層，會插入一些層，這個部分稱為Neck。相當于目标檢測網絡的頸部，也是非常關鍵的。

Yolov4的Neck結構主要采用了SPP子產品、FPN+PAN的方式。

（1）SPP子產品

SPP子產品，其實在Yolov3中已經存在了，在Yolov4的C++代碼檔案夾中有一個Yolov3_spp版本，但有的同學估計從來沒有使用過，在Yolov4中，SPP子產品仍然是在Backbone主幹網絡之後：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

作者在SPP子產品中，使用k={1*1,5*5,9*9,13*13}的最大池化的方式，再将不同尺度的特征圖進行Concat操作。

注意：這裡最大池化采用padding操作，移動的步長為1，比如13×13的輸入特征圖，使用5×5大小的池化核池化，padding=2，是以池化後的特征圖仍然是13×13大小。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

在2019提出的《DC-SPP-Yolo》文章：https://arxiv.org/ftp/arxiv/papers/1903/1903.08589.pdf

也對Yolo目标檢測的SPP子產品進行了對比測試。

和Yolov4作者的研究相同，采用SPP子產品的方式，比單純的使用k*k最大池化的方式，更有效的增加主幹特征的接收範圍，顯著的分離了最重要的上下文特征。

Yolov4的作者在使用608*608大小的圖像進行測試時發現，在COCO目标檢測任務中，以0.5%的額外計算代價将AP50增加了2.7%，是以Yolov4中也采用了SPP子產品。

（2）FPN+PAN

PAN結構比較有意思，看了網上Yolov4關于這個部分的講解，大多都是講的比較籠統的，而PAN是借鑒圖像分割領域PANet的創新點，有些同學可能不是很清楚。

下面大白将這個部分拆解開來，看下Yolov4中是如何設計的。

Yolov3結構：

我們先來看下Yolov3中Neck的FPN結構

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

可以看到經過幾次下采樣，三個紫色箭頭指向的地方，輸出分别是76*76、38*38、19*19。

以及最後的Prediction中用于預測的三個特征圖①19*19*255、②38*38*255、③76*76*255。[注：255表示80類别(1+4+80)×3=255]

我們将Neck部分用立體圖畫出來，更直覺的看下兩部分之間是如何通過FPN結構融合的。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

如圖所示，FPN是自頂向下的，将高層的特征資訊通過上采樣的方式進行傳遞融合，得到進行預測的特征圖。

Yolov4結構：

而Yolov4中Neck這部分除了使用FPN外，還在此基礎上使用了PAN結構：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

前面CSPDarknet53中講到，每個CSP子產品前面的卷積核都是3*3大小，步長為2，相當于下采樣操作。

是以可以看到三個紫色箭頭處的特征圖是76*76、38*38、19*19。

以及最後Prediction中用于預測的三個特征圖：①76*76*255，②38*38*255，③19*19*255。

我們也看下Neck部分的立體圖像，看下兩部分是如何通過FPN+PAN結構進行融合的。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

和Yolov3的FPN層不同，Yolov4在FPN層的後面還添加了一個自底向上的特征金字塔。

其中包含兩個PAN結構。

這樣結合操作，FPN層自頂向下傳達強語義特征，而特征金字塔則自底向上傳達強定位特征，兩兩聯手，從不同的主幹層對不同的檢測層進行參數聚合,這樣的操作确實很皮。

FPN+PAN借鑒的是18年CVPR的PANet，當時主要應用于圖像分割領域，但Alexey将其拆分應用到Yolov4中，進一步提高特征提取的能力。

不過這裡需要注意幾點：

注意一：

Yolov3的FPN層輸出的三個大小不一的特征圖①②③直接進行預測

但Yolov4的FPN層，隻使用最後的一個76*76特征圖①，而經過兩次PAN結構，輸出預測的特征圖②和③。

這裡的不同也展現在cfg檔案中，這一點有很多同學之前不太明白，

比如Yolov3.cfg最後的三個Yolo層，

第一個Yolo層是最小的特征圖19*19，mask=6,7,8，對應最大的anchor box。

第二個Yolo層是中等的特征圖38*38，mask=3,4,5，對應中等的anchor box。

第三個Yolo層是最大的特征圖76*76，mask=0,1,2，對應最小的anchor box。

而Yolov4.cfg則恰恰相反

第一個Yolo層是最大的特征圖76*76，mask=0,1,2，對應最小的anchor box。

第二個Yolo層是中等的特征圖38*38，mask=3,4,5，對應中等的anchor box。

第三個Yolo層是最小的特征圖19*19，mask=6,7,8，對應最大的anchor box。

注意點二：

原本的PANet網絡的PAN結構中，兩個特征圖結合是采用shortcut操作，而Yolov4中則采用concat（route）操作，特征圖融合後的尺寸發生了變化。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

這裡也可以對應Yolov4的netron網絡圖檢視，很有意思。

4.3.4 Prediction創新

（1）CIOU_loss

目标檢測任務的損失函數一般由Classificition Loss（分類損失函數）和Bounding Box Regeression Loss（回歸損失函數）兩部分構成。

Bounding Box Regeression的Loss近些年的發展過程是：Smooth L1 Loss-> IoU Loss（2016）-> GIoU Loss（2019）-> DIoU Loss（2020）->CIoU Loss（2020）

我們從最常用的IOU_Loss開始，進行對比拆解分析，看下Yolov4為啥要選擇CIOU_Loss。

a.IOU_Loss

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

可以看到IOU的loss其實很簡單，主要是交集/并集，但其實也存在兩個問題。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

問題1：即狀态1的情況，當預測框和目标框不相交時，IOU=0，無法反應兩個框距離的遠近，此時損失函數不可導，IOU_Loss無法優化兩個框不相交的情況。

問題2：即狀态2和狀态3的情況，當兩個預測框大小相同，兩個IOU也相同，IOU_Loss無法區分兩者相交情況的不同。

是以2019年出現了GIOU_Loss來進行改進。

b.GIOU_Loss

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

可以看到右圖GIOU_Loss中，增加了相交尺度的衡量方式，緩解了單純IOU_Loss時的尴尬。

但為什麼僅僅說緩解呢？

因為還存在一種不足：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

問題：狀态1、2、3都是預測框在目标框内部且預測框大小一緻的情況，這時預測框和目标框的差集都是相同的，是以這三種狀态的GIOU值也都是相同的，這時GIOU退化成了IOU，無法區分相對位置關系。

基于這個問題，2020年的AAAI又提出了DIOU_Loss。

c.DIOU_Loss

好的目标框回歸函數應該考慮三個重要幾何因素：重疊面積、中心點距離，長寬比。

針對IOU和GIOU存在的問題，作者從兩個方面進行考慮

一：如何最小化預測框和目标框之間的歸一化距離？

二：如何在預測框和目标框重疊時，回歸的更準确？

針對第一個問題，提出了DIOU_Loss（Distance_IOU_Loss）

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

DIOU_Loss考慮了重疊面積和中心點距離，當目标框包裹預測框的時候，直接度量2個框的距離，是以DIOU_Loss收斂的更快。

但就像前面好的目标框回歸函數所說的，沒有考慮到長寬比。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

比如上面三種情況，目标框包裹預測框，本來DIOU_Loss可以起作用。

但預測框的中心點的位置都是一樣的，是以按照DIOU_Loss的計算公式，三者的值都是相同的。

針對這個問題，又提出了CIOU_Loss，不對不說，科學總是在解決問題中，不斷進步！！

d.CIOU_Loss

CIOU_Loss和DIOU_Loss前面的公式都是一樣的，不過在此基礎上還增加了一個影響因子，将預測框和目标框的長寬比都考慮了進去。

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

其中v是衡量長寬比一緻性的參數，我們也可以定義為：

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

這樣CIOU_Loss就将目标框回歸函數應該考慮三個重要幾何因素：重疊面積、中心點距離，長寬比全都考慮進去了。

再來綜合的看下各個Loss函數的不同點：

IOU_Loss：主要考慮檢測框和目标框重疊面積。

GIOU_Loss：在IOU的基礎上，解決邊界框不重合時的問題。

DIOU_Loss：在IOU和GIOU的基礎上，考慮邊界框中心點距離的資訊。

CIOU_Loss：在DIOU的基礎上，考慮邊界框寬高比的尺度資訊。

Yolov4中采用了CIOU_Loss的回歸方式，使得預測框回歸的速度和精度更高一些。

（2）DIOU_nms

Nms主要用于預測框的篩選，常用的目标檢測算法中，一般采用普通的nms的方式，Yolov4則借鑒上面D/CIOU loss的論文：https://arxiv.org/pdf/1911.08287.pdf

将其中計算IOU的部分替換成DIOU的方式：

再來看下實際的案例

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解

在上圖重疊的機車檢測中，中間的機車因為考慮邊界框中心點的位置資訊，也可以回歸出來。

是以在重疊目标的檢測中，DIOU_nms的效果優于傳統的nms。

注意：有讀者會有疑問，這裡為什麼不用CIOU_nms，而用DIOU_nms?

答：因為前面講到的CIOU_loss，是在DIOU_loss的基礎上，添加的影響因子，包含groundtruth标注框的資訊，在訓練時用于回歸。

但在測試過程中，并沒有groundtruth的資訊，不用考慮影響因子，是以直接用DIOU_nms即可。

總體來說，YOLOv4的論文稱的上良心之作，将近幾年關于深度學習領域最新研究的tricks移植到Yolov4中做驗證測試，将Yolov3的精度提高了不少。

雖然沒有全新的創新，但很多改進之處都值得借鑒，借用Yolov4作者的總結。

Yolov4 主要帶來了 3 點新貢獻：

（1）提出了一種高效而強大的目标檢測模型，使用 1080Ti 或 2080Ti 就能訓練出超快、準确的目标檢測器。

（2）在檢測器訓練過程中，驗證了最先進的一些研究成果對目标檢測器的影響。

（3）改進了 SOTA 方法，使其更有效、更适合單 GPU 訓練。

5.YoloV4相關代碼

5.1 python代碼

代碼位址：https://github.com/Tianxiaomo/pytorch-Yolov4

作者的訓練和測試推理代碼都已經完成

5.2 C++代碼

Yolov4作者Alexey的代碼，俄羅斯的大神，應該是個獨立研究員，更新算法的頻繁程度令人佩服。

在Yolov3作者Joseph Redmon宣布停止更新Yolo算法之後，Alexey憑借對于Yolov3算法的不斷探索研究，赢得了Yolov3作者的認可，釋出了Yolov4。

代碼位址：https://github.com/AlexeyAB/darknet

5.3 python版本的Tensorrt代碼

目前測試有效的有tensorflow版本：weights->pb->trt

代碼位址：https://github.com/hunglc007/tensorflow-Yolov4-tflite

5.4 C++版本的Tensorrtrt代碼

代碼位址：https://github.com/wang-xinyu/tensorrtx/tree/master/Yolov4

作者自定義了mish激活函數的plugin層，Tensorrt加速後速度還是挺快的。

6.相關資料集下載下傳

項目中，目标檢測算法應該的非常多非常多，比如人臉識别，比如疫情期間的口罩人臉識别，比如車流統計，人流統計等等。

是以大白也會将不錯的值得一試的目标檢測資料集彙總到此處，友善需要的同學進行下載下傳。

6.1 口罩遮擋人臉資料集

資料集詳情：由武漢大學多媒體研究中心發起，目前是全球最大的口罩遮擋人臉資料集。

分為真實口罩人臉和模拟口罩人臉兩部分，真實口罩人臉包含525人的5000張口罩人臉和9萬張正常人臉。模拟口罩人臉包含1萬個人共50萬張模拟人臉資料集。

應用項目：人臉檢測、人臉識别

資料集位址：https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset

6.2 Wider Face人臉資料集

資料集詳情：香港中文大學發起的，包含3萬張圖檔共40萬張人臉。

應用項目：人臉檢測

資料集位址：http://shuoyang1213.me/WIDERFACE/WiderFace_Results.html

6.3 Wider Person擁擠場景行人資料集

資料集詳情：多種場景比較擁擠場景的行人檢測資料集，包含13382張圖檔，共計40萬個不同遮擋程度的人體。

應用項目：人體檢測

資料集位址：http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/

因為工作原因，會搜集大量的各類公開應用場景資料集，如果有同學需要其他場景或者其他項目的，也可以留言，或者發送郵件到[email protected]，也會将對應的資料集更新到此處。

7.不斷更新ing

在深度學習的圖像領域，肯定會涉及目标檢測，而在目标檢測中，Yolov3是非常經典，必須要學習的算法，有些同學，特别新接觸的同學，剛學習時會覺得yolo算法很繁瑣。

但我發現，網上很多的教程其實講的還是比較籠統，并不适合小白學習。

是以大白也在耗盡洪荒之力，在準備Yolov3和Yolov4及相關的基礎入門視訊，讓大家看完就能明白整體的流程和各種算法細節，大家可以先收藏，後期制作好後會更新到此處。

希望和大家一起努力，在人工智能深度學習領域一起進步，一起提升，一起變強！

深入淺出Yolo系列之Yolov3&amp;Yolov4核心基礎知識完整講解

1.論文彙總

2.YoloV3核心基礎内容

2.1 網絡結構可視化

2.2 網絡結構圖

2.3 核心基礎内容

3.YoloV3相關代碼

3.1 python代碼

3.2 C++代碼

3.3 python版本的Tensorrt代碼

（1）Tensort中的加速案例

（2）Github上的tensorrt加速

3.4 C++版本的Tensorrt代碼

4.YoloV4核心基礎内容

4.1 網絡結構可視化

4.2 網絡結構圖

4.3 核心基礎内容

4.3.1 輸入端創新

（1）Mosaic資料增強

4.3.2 BackBone創新

（1）CSPDarknet53

（2）Mish激活函數

（3）Dropblock

4.3.3 Neck創新

（1）SPP子產品

（2）FPN+PAN

4.3.4 Prediction創新

（1）CIOU_loss

（2）DIOU_nms

5.YoloV4相關代碼

5.1 python代碼

5.2 C++代碼

5.3 python版本的Tensorrt代碼

5.4 C++版本的Tensorrtrt代碼

6.相關資料集下載下傳

6.1 口罩遮擋人臉資料集

6.2 Wider Face人臉資料集

6.3 Wider Person擁擠場景行人資料集

7.不斷更新ing

繼續閱讀

深入淺出Yolo系列之Yolov3&Yolov4核心基礎知識完整講解