前言

在這篇paper，作者提出了一個更優雅的2D與3D之間轉換的算法在自動駕駛領域，它不依賴于深度資訊的預測，這個架構被稱之為DETR3D。這個方法主要是為了蔥多視角擷取 scene-specific information，作者把首先生成3D的query，生成3d reference point，通過相機參數矩陣投影到2D拿到相應的2D feature。

主要貢獻：

我們提出了一個基于RGB圖像進行3D目标檢測的改進模型。與現有的那些在最後階段融合不同相機圖像的目标預測的工作不同，我們的方法在每一層計算中都融合了所有相機的資訊。據我們所知，這是将多相機檢測轉換為3D set-to-set預測問題的首次嘗試。
我們提出了一種通過逆幾何投影将提取的2D特征和3D包絡框預測連接配接在一起的子產品。它不受二階段網絡不準确的深度預測的影響，并且通過将3D資訊反投影到所有可用幀上來無縫使用多個相機的資訊。

和Object DGCNN類似，我們的方法不需要後處理，比如融合每個圖像或全局NMS，并且性能和現有基于NMS方法相當。在相機視野的重疊區域，我們方法明顯優于其它方法。
我們釋出了代碼來促進複現性和未來的研究。

Method

BEV感覺：DETR3D前言Method實驗結果

Image Feature Extracting

輸入圖像經過ResNet + FPN後生成了多尺度的特征圖。

2D-to-3D Feature Transformation

目前已經存在的自底向上的方法會為每張image預測dense的 bounding box，并且需要一個post- processing 去處理，這種方法存在兩個缺點：

依賴于depth 預測。
NMS-based 方法不支援并行化。

作者為了解決上述問題，提出了自頂向下的方法，它的Decoder部分與Detr類似需要疊代六次，也可以了解為一共有6層，每一層的step如下：

随機生成 N個 object queries 并與 bounding box centre 關聯。
把這些 centre point 通過全連接配接層生成BEV空間的 reference point，然後通過相機參數矩陣投影到2D 坐标。
擷取從多尺度PV feature，這些2d坐标可能存在一些小數或者超過圖像範圍的值，前者利用bilinear interpolation ,後者通過二進制參數判斷，越界置0，然後對同一個query映射到不同相機不同level的feature求和取均值。

BEV感覺：DETR3D前言Method實驗結果
第一步的另一個分支，把 N個object queries 通過 Self- Multi-head-Attention内部互動，避免不同的queries 預測同一個bounding box。
把 self attention輸出的 query 與 2d image feature cross attention。
把 3 ，4 步結果相加獲得下一層 object queries的input。
經過attention更新後的object query通過兩個MLP網絡來分别預測對應物體的class和bounding box的參數。

Loss

損失函數的設計也主要受DETR的啟發，我們在所有object queries預測出來的檢測框和所有的ground-truth bounding box之間利用匈牙利算法進行二分圖比對，找到使得loss最小的最優比對，并計算classification focal loss和L1 regression loss。

實驗結果

BEV感覺：DETR3D前言Method實驗結果

BEV感覺：DETR3D前言Method實驗結果

3D檢測：DETR3D

前言

Method

Image Feature Extracting

2D-to-3D Feature Transformation

Loss

實驗結果

繼續閱讀

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

solidworks包覆無法選中浮雕或蝕雕解決方法問題出現的原因

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

Cesium格式3dtile制作工具

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

深度學習理論之數學基礎一、線性代數二機率論及資訊論

【深度學習500問】深度學習的數學基礎部分（10/9）

深度學習之卷積01 卷積02 填充Padding03 步幅Stride04 卷積核的選擇05 多通道卷積參考

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡