目标檢測-yolov3

1、目标檢測的常見名額

2、yolov1網絡

3、yolov2

4.yolov3

5.參考資料

1、目标檢測的常見名額

TP(true positive):IoU>0.5檢測框的數量

FP(false positive):IoU<=0.5的檢測框

FN(false negative):沒有檢測GT(ground truth)的數量

Precision: TP/(TP+FP)預測正确的比例查準率

Recall:TP/(TP+FN)預測正确的目标比例查全率

AP：P-R曲線下的面積

P-R曲線:Precision-Recall曲線

mAP:各類别AP的平均值

目标檢測-yolov3

第一行為coco資料集的主要評價名額AP，當IoU從0.5到0.95，且間隔為0.05，十個不同值的IoU對應的AP取均值。

第二行為不同面積的AP，小于32×32為小像素，32到96像素為中等像素，大于96為大像素。

第三行為提供多少個邊界框的AR(average recall)，分别為1，10，100個。

第四行為不同面積的AR，小尺寸，中等尺寸和大尺寸。

2、yolov1網絡

1.提出了grid cell，将圖檔分成s×s個網格，object的中心落在這個網格中，這個網格就負責預測這個object。

目标檢測-yolov3

2.每個網格要預測B個bounding box，除了預測位置還有預測一個confidence，每個網格還要預測c個類别分數。對于Pascal voc資料集，它有20個類别，采用B=2。是以我們預測的個數為7×7×30個參數。輸出為7×7×30，以channel展開，每一條兩個bounding box的8個坐标，加兩個confidence，和20個預測類别分數。x,y是相對于grid cell的值，為預測的中心坐标，w，h是相對于整個圖檔來說，為預測的邊界框參數。confidence的值是

目标檢測-yolov3

Pr為是否為目标隻取0或1，後面是預測值和真實值的交并比。

目标檢測-yolov3

最後的預測機率為：

目标檢測-yolov3

3.網絡結構

在展平處理後，reshape成7×7×30的特征矩陣。

目标檢測-yolov3

4.損失函數

使用誤差平方和計算，分成3部分，預測邊界框損失，confidence損失，類别損失。bounding box損失中，寬度和高度開根平方差是為了大邊界框和小邊界框偏移大小一樣時，得到的誤差大小不同，讓小目标的誤差更大。

目标檢測-yolov3

3、yolov2

1.Batch Normalization.

在網絡結構中使用了bn結構，可以移除dropout，在mAP中獲得了超過2%的改進。

2.High Resolution Classifier.

更高分辨率的分類器，采用了在ImageNet上以完整的448 × 448分辨率微調分類網絡10個epoch，這個高分辨率的分類網絡使我們的mAP增加了近4%。

3.Convolutional With Anchor Boxes.

使用了基于anchor的邊界預測框，在沒有錨框的情況下，模型獲得了69.5個mAP，召回率為81%。通過錨箱，模型獲得了69.2 mAP，召回率為88%。盡管mAP下降，但召回率的增加意味着模型有更多的改進空間。

4.Dimension Clusters.

在訓練集的邊界框上運作k-means聚類來自動找到好的先驗。

直接定位預測。當使用YOLO的錨框時，會遇到問題:模型不穩定，特别是在早期疊代期間。大部分的不穩定性來自于預測盒子的(x, y)位置。在區域提議網絡中，網絡會預測tx和ty的值，并且(x, y)中心坐标的計算方式為:x = (tx * wa)+xa y = (ty * ha)+ya。

通過對回歸坐标的限制：bx = σ(tx) + cx by = σ(ty) + cy bw = pwe^tw bh = phe^th Pr(object) ∗ IOU(b, object) = σ(t0)。t0為yolov1 中的confidence

使得每個anchor隻預測自己grid cell裡的目标。

5.Fine-Grained Features

把底層特征圖和高層特征圖融合，使得能更準确的檢測目标。

通過passthrough layer進行特征矩陣融合，passthrough通過減小一半尺寸，擴大4倍channel進行融合。

目标檢測-yolov3

6.Multi-Scale Training.

原始YOLO的輸入分辨率為448 × 448。通過添加錨框，我們将分辨率更改為416×416。然而，由于模型隻使用卷積層和池化層，是以可以動态地調整大小。

每隔幾次疊代就改變網絡，而不是固定輸入圖像的大小。每10批我們的網絡随機選擇一個新的圖像次元大小。由于我們的模型向下采樣倍數為32，我們從32的以下倍數中提取:{320,352，…608}。是以，最小的選擇是320 × 320，最大的是608 × 608。根據這個次元調整網絡的大小，并繼續教育訓練。

7.dark-19

backbone使用dark-19。

目标檢測-yolov3

8.yolov2模型

目标檢測-yolov3

1個anchor預測4個坐标+1個confidence+20個類别分數

4.yolov3

1.backbone

使用darknet-53網絡提取特征資訊

目标檢測-yolov3

2.anchors

一個anchor預測四個坐标一個confidence，和80個類别分數

目标檢測-yolov3

3.多channel預測

在特征圖1上預測大目标，特征圖2上預測中等目标，特征圖3上預測小目标。

目标檢測-yolov3

4.正負樣本

GT和Anchor Template重合IOU>0.3的算正樣本

目标檢測-yolov3

5.損失計算

目标檢測-yolov3

5.參考資料

霹靂吧啦Wz的個人空間_哔哩哔哩_Bilibili

You Only Look Once: Unified, Real-Time Object Detection

YOLO9000: Better, Faster, Stronger

YOLOv3: An Incremental Improvement

目标檢測-yolov3

1、目标檢測的常見名額

2、yolov1網絡

3、yolov2

4.yolov3

5.參考資料

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡