點選上方“3D視覺工坊”
幹貨第一時間送達

作者丨計算機視覺深度學習和自動駕駛
arXiv論文“FUTR3D: A Unified Sensor Fusion Framework for 3D Detection“,來自複旦、CMU、MIT、Stanford(李想汽車工作)和清華。
傳感器融合是許多感覺系統中的一個重要課題,例如自動駕駛和機器人技術。現有的多模态3D檢測模型通常涉及定制設計,具體取決于傳感器組合或設定。這項工作,是一個統一的、用于3D檢測、端到端傳感器融合架構FUTR3D,它可以用于(幾乎)任何傳感器配置。FUTR3D采用了一個基于查詢的不可知模态特征采樣器(Modality-Agnostic Feature Sampler,MAFS),以及一個具有用于3D檢測的集合-集合損失函數的transformer解碼器,進而避免後融合的啟發式方法和後處理等。在錄影機、低分辨率雷射雷達、高分辨率雷射雷達和雷達的各種組合上驗證了該架構的有效性。FUTR3D通過不同的傳感器配置實作了極大的靈活性,并實作了低成本的自動駕駛。
如圖所示:FUTR3D可用于任何傳感器配置,包括2D錄影機、3D雷射雷達、3D雷達和4D成像雷達。
如圖是FUTR3D的概述:每個傳感器模态使用模态特定的特征編碼器在其自身坐标中單獨編碼。然後,基于查詢的MAFS根據每個查詢的3D參考點從所有可用模态中提取特征。最後,transformer解碼器根據查詢預測3D邊框。預測框可以疊代地回報到MAFS和transformer解碼器中,以優化預測。
對于雷射雷達點雲,用VoxelNet(0.1m體素大小)或0.2m柱大小的PointPillar對雷射雷達點雲進行編碼。在3D主幹和FPN之後 ,獲得多尺度BEV特征圖。
采用N個雷達點向量,即位置、速度和強度。采用MLP編碼得到雷達特征。
用ResNet和FPN進行環視多個圖像的特征提取,為每幅圖像輸出多尺度特征圖。
融合的insight是這樣的:在不同的模式中,目标屬性并不是同樣可識别的。是以,尋求利用不同的模式,并從中提取補充資訊。從所有模式中采樣點特征後,融合特征并更新查詢。
首先,将所有模式的采樣特征連接配接起來,并使用以下公式給出的MLP網絡對其進行編碼:
其中
這裡,MAFS通過線性變換和sigmoid歸一化,從每個目标查詢中解碼3D參考點如下
查詢更新:
采用自注意機制模組化查詢中的互動,這樣:
采用疊代細化邊框的方法:
損失函數中,計算預測和真值之間的一對一損失,這涉及兩個步驟:首先,用bipartie-matching在預測和真實邊框之間執行一對一比對。然後,在一對一比對的情況下,計算回歸損失和分類損失。特别是,一對一配對問題可以通過Hungarian算法來解決。
實驗結果如下:
nuScenes資料中有環視攝像頭6個,雷射雷達采用32線,做仿真模拟可生成4線資料,從笛卡爾坐标轉換到極坐标進行,然後在pitch角度采樣,其坐标轉換公式如下:
另外,5個雷達資料聚合在一起,成為200-300點雲。
左:1-線 LiDAR + cameras, 中:4-線 LiDAR + cameras,右:32-線 LiDAR + cameras
本文僅做學術分享,如有侵權,請聯系删文。