天天看點

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

衆所周知,目标檢測是計算機視覺領域的核心問題之一,廣泛應用于智能視訊監控、工業檢測、自動駕駛等領域。随着深度學習在圖像分類研究中取得突破,帶動了目标檢測取得突飛猛進的發展。其中Yolov3目标檢測模型不僅在速度和精度上都有均衡的性能,而且在工業實時檢測應用中表現優異。

例如在标的物資産管理領域,面對倉庫面積大,貨物資産多,單次盤點費時費力導緻盤點周期長,管理粗放不精細;貨物流轉進出庫頻繁,難以實時更新庫存、進行遠端監管等難題;計算視覺物品檢測識别解決方案可以減少人力重複性工作,提高營運效率,實作無人化、數字化智能管理。

本文由品覽進階算法研究員張璐,為大家解讀如何使用YOLOv3模型對倉儲物品資産進行精準盤點,對出入庫貨物進行實時流水計量。

張璐

品覽進階算法研究員

•  畢業于南昌大學

•  3年國企研發中心經驗

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

01 Yolov3 基礎網絡

Yolov3采用Darknet-53作為基礎網絡(圖1為基礎網絡結構圖),網絡中使用類似于resnet的殘差結構,利用shortcut的思想來解決網絡層數深,梯度消失的問題。同時采用全卷積網絡代替池化層和全連接配接層,在前向傳播過程中,張量的尺寸變換主要通過改變卷積核的步長來實作(stride=2),經曆5次下采樣後,最終輸出的feature map尺寸将縮小為原輸入尺寸的1/32。若輸入為416x416,則輸出為13x13(416/32=13)。

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖1 Yolov3 基礎網絡結構

Darknet-53與其他基礎網絡速度精度對比如圖2所示:

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖2 Darknet-53 與其他基礎網絡對比 02

Yolov3 模型結構

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖3 Yolov3模型結構

圖檔來源:https://blog.csdn.net/leviopku/article/details/82660381 相比yolov2, yolov3的主要改進之一是predictions across scales, 如圖3所示,yolov3最終輸出3個不同尺度的feature map, 該思想借鑒了FPN(feature pyramid networks), 采用多尺度對不同size的目标進行檢測,越精細的grid cell就可以檢測出越精細的物體,對小目标更加友好。

當輸入圖像尺寸為416×416時,輸出3個feature map的尺度分别為13,26,52,其深度都是255(對于coco的80個類别而言),不同尺度的feature map如何實作拼接也有一番講究,其使用stride為2的上采樣來保證concat拼接的張量尺度相同,進而實作不同尺度feature map的拼接(分别是26x26尺度拼接及52x52尺度拼接)。

需要注意concat的操作和殘差層add的操作是不一樣的,concat會擴充張量的次元,而add隻是直接相加不會導緻張量次元的改變。

03 Yolov3 的檢測性能 (1) Bounding Box Prediction  yolov3每個位置采用3個先驗框,由來是使用k-means對資料集groundtruth聚類得到9個先驗框,并将其劃分到3個尺度特征圖上,尺度更大的特征圖使用更小的先驗框,這也是相比yolov2的改進點之一,提出groundtruth聚類思想可以使得到的先驗框更貼合實際尺寸(圖4為在coco資料集上不同尺度的先驗框資訊)。

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖4 不同尺度先驗框資訊 對于一個anchorbox,它包含坐标資訊(x , y , w , h )以及置信度,同時還包含所有的類别資訊:即每個anchor輸出(5+classes)次元的向量。 (2) Class Prediction  yolov3在對b-box進行預測的時候,采用了多個logistic分類器替代原來的Softmax,分類損失采用binary cross-entropy loss,每個框使用多标簽分類來預測邊界框可能包含的類,因為多标簽方法可以更好地對資料模組化并且經過驗證準确率不會下降。

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖5  yolov3與其他檢測模型精度及速度對比 04 Yolov3 在資産盤點管理中的應用 (1) yolov3應用于倉庫貨物資産盤點管理 使用yolov3訓練模型對倉庫存儲的物品資料進行采集盤點:将模型直接部署在伺服器,無人叉車按照規劃路徑對倉庫貨架上的物品進行視訊拍攝,拍攝完畢後上傳至雲端,使用部署的模型檢測識别,輸出貨物類型、名稱及數量,盤點準确率可達99%以上。

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖6 倉庫實景物品盤點效果圖 倉庫實景物品資料訓練yolov3的模型,輸入圖檔尺寸為608,模型訓練的map為99.34%,驗證集合200張圖檔前向時間10s,前向速度為20fps/s,(圖7是訓練倉庫實景資料模型map)

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖7 yolov3訓練倉庫實景資料模型map (2) yolov3應用于倉庫貨物資産出入庫計量 Yolov3預測速度快精度高,适合用于實時預測,實踐表明在v100上,圖檔輸入尺寸為416時,yolov3的前向可達30fps/s。在倉庫出入口處部署硬體裝置擷取實時視訊流,對視訊流進行逐幀檢測;結合出入庫操作的要求,對檢測結果進行相應的邏輯檢驗,完全可以實時回報貨物出入庫情況及是否合規。(圖8是倉庫實景貨物出入庫計數效果展示圖)

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

圖8 貨物進出庫計數效果

yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用

參考文獻: Joseph Redmon, Ali Farhadi,’ YOLOv3: An Incremental Improvement’, IEEE Conference on Computer Vision and Pattern Recognition,8 Apr 2018 >> 往期回顧 <<

  • 輕量級 MobileNet 在物品識别中的應用
  • RetinaNet在貨架商品盤點中的應用
  • 細粒度在商品識别領域的應用
yolov3網絡結構_【AI論技】YOLOv3在标的物資産實時管理中的應用