天天看點

BEV感覺:DETR3D前言Method實驗結果

3D檢測:DETR3D

  • 前言
  • Method
    • Image Feature Extracting
    • 2D-to-3D Feature Transformation
    • Loss
  • 實驗結果

前言

在這篇paper,作者提出了一個更優雅的2D與3D之間轉換的算法在自動駕駛領域,它不依賴于深度資訊的預測,這個架構被稱之為DETR3D。這個方法主要是為了蔥多視角擷取 scene-specific information,作者把首先生成3D的query,生成3d reference point,通過相機參數矩陣投影到2D拿到相應的2D feature。

主要貢獻:

  1. 我們提出了一個基于RGB圖像進行3D目标檢測的改進模型。與現有的那些在最後階段融合不同相機圖像的目标預測的工作不同,我們的方法在每一層計算中都融合了所有相機的資訊。據我們所知,這是将多相機檢測轉換為3D set-to-set預測問題的首次嘗試。
  2. 我們提出了一種通過逆幾何投影将提取的2D特征和3D包絡框預測連接配接在一起的子產品。它不受二階段網絡不準确的深度預測的影響,并且通過将3D資訊反投影到所有可用幀上來無縫使用多個相機的資訊。

    和Object DGCNN類似,我們的方法不需要後處理,比如融合每個圖像或全局NMS,并且性能和現有基于NMS方法相當。在相機視野的重疊區域, 我們方法明顯優于其它方法。

  3. 我們釋出了代碼來促進複現性和未來的研究。

Method

BEV感覺:DETR3D前言Method實驗結果

Image Feature Extracting

輸入圖像經過ResNet + FPN後生成了多尺度的特征圖。

2D-to-3D Feature Transformation

目前已經存在的自底向上的方法會為每張image預測dense的 bounding box,并且需要一個post- processing 去處理,這種方法存在兩個缺點:

  1. 依賴于depth 預測。
  2. NMS-based 方法不支援并行化。

作者為了解決上述問題,提出了自頂向下的方法,它的Decoder部分與Detr類似需要疊代六次,也可以了解為一共有6層,每一層的step如下:

  1. 随機生成 N個 object queries 并與 bounding box centre 關聯。
  2. 把這些 centre point 通過 全連接配接層 生成BEV空間的 reference point,然後通過相機參數矩陣投影到2D 坐标。
  3. 擷取從多尺度PV feature,這些2d坐标可能存在一些小數或者超過圖像範圍的值,前者利用bilinear interpolation ,後者通過二進制參數判斷,越界置0,然後對同一個query映射到不同相機不同level的feature求和取均值。
    BEV感覺:DETR3D前言Method實驗結果
  4. 第一步的另一個分支,把 N個object queries 通過 Self- Multi-head-Attention内部互動,避免不同的queries 預測同一個bounding box。
  5. 把 self attention輸出的 query 與 2d image feature cross attention。
  6. 把 3 ,4 步結果相加獲得下一層 object queries的input。
  7. 經過attention更新後的object query通過兩個MLP網絡來分别預測對應物體的class和bounding box的參數。

Loss

損失函數的設計也主要受DETR的啟發,我們在所有object queries預測出來的檢測框和所有的ground-truth bounding box之間利用匈牙利算法進行二分圖比對,找到使得loss最小的最優比對,并計算classification focal loss和L1 regression loss。

實驗結果

BEV感覺:DETR3D前言Method實驗結果
BEV感覺:DETR3D前言Method實驗結果

繼續閱讀