--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨----------

3D 目标檢測需輸出物體類别及在三維空間中的長寬高、旋轉角等資訊
與普通的 2D 圖像識别應用不同,自動駕駛系統對精度和速度的要求更高,檢測器不僅需要快速識别周圍環境的物體,還要對物體在三維空間中的位置做精準定位。然而,目前主流的單階段檢測器和兩階段檢測器均無法平衡檢測精度和速度,這極大地限制了自動駕駛安全性能。
此次,達摩院在論文中提出了新的思路即将兩階段檢測器中對特征進行細粒度刻畫的方法內建到單階段檢測器。具體來說,達摩院在訓練中利用一個輔助網絡将單階段檢測器中的體素特征轉化為點級特征,并施加一定的監督信号,同時在模型推理過程中輔助網絡無需參與計算,是以,在保障速度的同時又提高了檢測精度。
以下是第一作者 Chenhang He 對該論文做出的解讀:
1. 背景
目标檢測是計算機視覺領域的傳統任務,與圖像識别不同,目标檢測不僅需要識别出圖像上存在的物體,給出對應的類别,還需要将該物體通過 Bounding box 進行定位。根據目标檢測需要輸出結果的不同,一般将使用 RGB 圖像進行目标檢測,輸出物體類别和在圖像上 2D bounding box 的方式稱為 2D 目标檢測。而将使用 RGB 圖像、RGB-D 深度圖像和雷射點雲,輸出物體類别及在三維空間中的長寬高、旋轉角等資訊的檢測稱為 3D 目标檢測。
從點雲資料進行 3D 目标檢測是自動駕駛(AV)系統中的的關鍵元件。與僅從圖像平面估計 2D 邊界框的普通 2D 目标檢測不同,AV 需要從現實世界估計更具資訊量的 3D 邊界框,以完成諸如路徑規劃和避免碰撞之類的進階任務。這激發了最近出現的 3D 目标檢測方法,該方法應用卷積神經網絡(CNN)處理來自高端 LiDAR 傳感器的點雲資料。
目前基于點雲的 3D 物體檢測主要有兩種架構:
- 單階段檢測器 (single-stage): 将點雲編碼成體素特征 (voxel feature), 并用 3D CNN 直接預測物體框, 速度快但是由于點雲在 CNN 中被解構, 對物體的結構感覺能力差, 是以精度略低。
- 兩階段檢測器 (two-stage): 首先用 PointNet 提取點級特征, 并利用候選區域池化點雲 (Pooling from point cloud) 以獲得精細特征. 通常能達到很高的精度但速度很慢。
2. 方法
目前業界主要以單階段檢測器為主,這樣能保證檢測器能高效地在實時系統上進行。 我們提出的方案将兩階段檢測器中對特征進行細粒度刻畫的思想移植到單階段檢測中,通過在訓練中利用一個輔助網絡将單階段檢測器中的體素特征轉化為點級特征,并施加一定的監督信号,進而使得卷積特征也具有結構感覺能力,進而提高檢測精度。而在做模型推斷時,輔助網絡并不參與計算(detached), 進而保證了單階段檢測器的檢測效率。另外我們提出一個工程上的改進,Part-sensitive Warping (PSWarp), 用于處理單階段檢測器中存在的 “框 - 置信度 - 不比對” 問題。
主體網絡
用于部署的檢測器, 即推斷網絡, 由一個骨幹網絡和檢測頭組成。骨幹網絡用 3D 的稀疏網絡實作,用于提取含有高語義的體素特征。檢測頭将體素特征壓縮成鳥瞰圖表示,并在上面運作 2D 全卷積網絡來預測 3D 物體框。
輔助網絡
在訓練階段,我們提出一個輔助網絡來抽取骨幹網絡中間層的卷積特征,并将這些特征轉化成點級特征 (point-wise feature)。在實作上,我們将卷積特征中的非零信号映射到原始的點雲空間中, 然後在每個點上進行插值,這樣我們就能擷取卷積特征的點級表示。 令 {():j=0,…,M} 為卷積特征在空間中的表示, {:i=0,…,N}為原始點雲, 則卷積特征在原始點上的表示 等于
輔助任務
我們提出兩種基于點級特征的監督政策來幫助卷積特征獲得很好的結構感覺力,一個前景分割任務,一個中心點回歸任務。
具體來說,相比于 PointNet 特征提取器 (a), 卷積網絡中的卷積操作和下采樣會造成點雲結構的破壞(b)使得特征對物體的邊界與内部結構不敏感。我們利用分割任務來保證部分卷積特征在下采樣時不會被背景特征影響 ©,進而加強對邊界的感覺。我們利用中心點回歸任務來加強卷積特征對物體内部結構的感覺能力 (d),使得在少量點的情況下也能合理的推斷出物體的潛在大小、形狀。我們使用 focal loss 和 smooth-l1 對分割任務與中心回歸任務分辨進行優化。
3. 工程上的改進
在單階段檢測中, feature map 和 anchor 的對齊問題是普遍存在的問題, 這樣會導緻預測出來的邊界框的定位品質與置信度不比對,這會影響在後處理階段(NMS)時, 高置信度但低定位品質的框被保留, 而定位品質高卻置信度低的框被丢棄。在 two-stage 的目标檢測算法中,RPN 提取 proposal,然後會在 feature map 上對應的的位置提取特征(roi-pooling 或者 roi-align),這個時候新的特征和對應的 proposal 是對齊的。我們提出了一個基于 PSRoIAlign 的改進,Part-sensitive Warping (PSWarp), 用來對預測框進行重打分。
如上圖, 我們首先修改最後的分類層以生成 K 個部分敏感的特征圖,用{X_k:k = 1,2,…,K}表示,每個圖都編碼對象的特定部分的資訊。例如,在 K = 4 的情況下,會生成 {左上,右上,左下,右下} 四個局部敏感的特征圖。同時,我們将每個預測邊界框劃分為 K 個子視窗,然後選擇每個子視窗的中心位置作為采樣點。這樣,我們可以生成 K 個采樣網格{S^k:k = 1,2,…,K},每個采樣網格都與該局部對應的特征圖相關聯。如圖所示,我們利用采樣器, 用生成的采樣網格在對應的局部敏感特征圖上進行采樣,生成對齊好的特征圖。最終能反映置信度的特征圖則是 K 個對齊好特征圖的平均。
4. 效果
我們提出的方法 (黑色) 在 KITTI 資料庫上的 PR Curve, 其中實線為兩階段方法, 虛線為單階段方法。 可以看到我們作為單階段方法能夠達到兩階段方法才能達到的精度。
在 KITTI 鳥瞰 (BEV) 和 3D 測試集的效果。優點是在保持精度的同時,不增加額外的計算量,能達到 25FPS 的檢測速度。
作者介紹:
第一作者為達摩院研究實習生 Chenhang He,其他作者分别分别為達摩院進階研究員、IEEE Fellow 華先勝,達摩院進階研究員、香港理工大學電子計算學系講座教授、IEEE Fellow 張磊,達摩院資深算法專家黃建強及達摩院研究實習生 Hui Zeng。
原文連結:
https://www.infoq.cn/article/1QPiVc3BjFMPcUELhJb5