天天看點

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

論文連結:https://arxiv.org/pdf/2207.10047.pdf

代碼連結:https://github.com/BraveGroup/DCD

摘要

由于深度資訊的缺失,從單目圖像估計物體的準确3D位置是一個具有挑戰性的問題。之前的工作表明,利用目标的關鍵點投影限制來估計多個候選深度可以提高檢測性能。然而,現有方法隻能利用垂直邊緣作為深度估計的投影限制。是以這些方法隻利用了少量的投影限制,産生的深度候選不足,導緻深度估計不準确。論文提出了一種可以利用來自任何方向邊緣的密集投影限制方法。通過這種方式,論文使用了更多的投影限制并輸出了更多的候選深度。此外,論文提出了一個圖比對權重子產品來合并候選深度。本文提出的方法名為DCD(Densely Constrained Detector),在 KITTI 和 WOD基準上實作了最先進的性能。

之前算法存在的問題在于它們的幾何限制不足。具體來說,一些現有的方法 [51,25,50] 估計2D邊界框和3D邊界框的高度,然後利用2D到3D高度投影限制生成目标的深度候選。最終的深度是通過對所有候選深度進行權重來生成的。如下圖所示,該方法僅适用于垂直邊緣,這意味着它們隻使用少量限制和3D先驗,導緻深度估計的不準确。

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

方法

DCD的架構的如下圖所示。DCD使用單階段檢測器 [51]從單目圖像中檢測目标。論文提出了密集幾何限制深度估計器(DGDE,Densely Geometric-constrained Depth Estimator),它可以計算任何方向的2D-3D邊緣的深度。DGDE可以有效地利用目标的語義關鍵點并産生更多的深度候選。此外,論文利用回歸得到的2D邊緣、3D邊緣和方向作為2D-3D邊緣圖比對網絡的輸入。所提出的圖比對權重子產品 (GMW,Graph Matching Weighting module) 比對每個2D-3D邊緣并輸出比對分數。通過将多個深度與其相應的比對分數相結合,論文最終可以為目标生成一個穩健的深度。

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

Geometric-based 3D Detection Definition

基于幾何的單目3D目标檢測通過2D-3D投影限制估計目标的位置。具體來說,網絡預測目标的尺寸(),旋轉角。假設一個目标有n個語義關鍵點,論文回歸第i個關鍵點在圖像坐标中的2D坐标和object frame中的3D坐标。object frame的坐标原點是目标的中心點。給定n個語義2D-3D關鍵點投影限制,解決3D目标位置是一個超定問題,它是用于将點雲将從object frame轉換到camera frame的平移向量。生成每個目标的語義關鍵點的方法改編自[23]。論文通過PCA建立了一些汽車模型,并通過從點雲和2D mask中分割出來的3D點雲來細化模型。在獲得關鍵點後,就可以使用DGDE從關鍵點投影限制中估計目标的深度。

Densely Geometric-constrained Depth Estimation

雖然以前的深度估計方法[51]隻考慮了垂直邊緣,但DGDE可以處理任意方向的邊緣。是以,論文能夠利用更多的限制來估計每個深度候選的深度。

該方法基于關鍵點從3D空間到2D圖像的投影關系。第i個關鍵點的3D坐标在object frame中定義,并通過以下等式投影到2D圖像平面上:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

其中是第i個關鍵點的深度,K是相機内參,K,R,t 表示為:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

通過上述兩式,第i個關鍵點的投影限制方程記為:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

第j個關鍵點投影限制方程與上式類似,進一步可以從第i個、第 j 個關鍵點投影限制中得到深度估計:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

這個方程表明深度可以通過任意方向邊緣的投影限制來計算。

給定n個關鍵點,論文生成m=n(n-1)/2 個深度候選。與此同時,不可避免地會遇到一些低品質的深度候選。是以,需要适當的權重方法來內建這些深度候選。

Depth Weighting by Graph Matching

利用DGDE估計目标的深度候選時,目标的最終深度可以根據根據估計品質進行權重:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

接下來介紹論文提出的新的權重方法——Graph Matching Weighting module (GMW)。

Graph Construction and Edge Feature extraction:論文構造了2D關鍵點圖和3D關鍵點圖。3D關鍵點圖與2D關鍵點圖基本一緻,唯一的差別是頂點坐标是2D坐标還是3D坐标。2D和3D邊緣特征提取器[47]如下所示:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

FC、CN、BN、ReLU 分别表示全連接配接層、Context Normalization [47]、Batch Normalization 和 ReLU。值得一提的是,Context Normalization 提取了所有邊的全局資訊。

Graph matching layer:給定提取的2D和3D邊緣特征,根據在邊緣s上的2D特征和邊緣t上的3D特征之間的L2距離計算如下損失:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

然後論文将M作為Sinkhorn layer[4]的輸入來獲得配置設定矩陣P。Sinkhorn layer通過最小化下述目标函數來疊代優化P:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

Loss function:設計如下所示的回歸損失來監督最終的權重深度,并使用分類損失來監督圖比對:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

實驗結果

KITTI上的實驗結果,優勢比較明顯。

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

可視化:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

更多的實驗結果如下表所示:

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

消融實驗

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

DCD可以比基線更準确地估計深度。

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

GMW和邊數量的消融實驗

【深度學習】ECCV 2022 | 用于單目3D目标檢測的密集限制深度估計器

關于DCD和AutoShape的讨論

盡管DCD和AutoShape [23]都利用多個關鍵點來估計目标的位置,但存在如下關鍵差異:

  • AutoShape直接使用所有2D-3D關鍵點投影限制來求解對象目标深度。DCD則從每個邊緣限制中求解一個深度候選。是以,DCD的邊緣限制不僅數量多,而且比關鍵點限制的階數更高;
  • AutoShape獨立生成關鍵點權重,而關鍵點之間沒有顯式互動。DCD則使用可學習的圖比對子產品對邊緣限制進行模組化,是以DCD根據所有邊緣限制生成每個深度的權重,進而獲得更好的權重。