天天看點

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

作者:3D視覺工坊
大家好,3DCV今天給大家分享一篇首個公開的(2024.03)有效解決線上3D點跟蹤問題或長時場景流估計問題(LSFE)的工作:SceneTracker。如果您有相關工作需要分享,請聯系cv3d008!

讀者個人了解

在時間與空間組成的4D時空中,精确、線上地捕捉和分析長時且細粒度的物體運動,對機器人、自動駕駛、元宇宙、具身智能等領域更高水準的場景了解起到至關重要的作用。

本研究提出的SceneTracker,是第一個公開的(2024.03)有效解決線上3D點跟蹤問題或長時場景流估計問題(LSFE)的工作。其能夠快速且精确地捕捉4D時空(RGB-D視訊)中任意目标點的3D軌迹,進而使計算機深入了解物體在特定環境中的移動規律和互動方式。

SceneTracker是一種新穎的基于學習的LSFE網絡,它采用疊代方法來逼近最優軌迹。同時其動态索引和建構表觀和深度相關性特征,并利用Transformer挖掘和利用軌迹内部和軌迹之間的遠端聯系。通過詳細的實驗,SceneTracker在處理3D空間遮擋和深度噪聲幹擾方面顯示出卓越的能力,高度符合LSFE任務的需求。

最後,本研究建構了第一個真實世界的評估資料集LSFDriving,進一步證明了SceneTracker值得稱贊的泛化能力。

論文資訊

标題:SceneTracker: Long-term Scene Flow Estimation Network

作者:Bo Wang,Jian Li,Yang Yu,Li Liu,Zhenping Sun,Dewen Hu

機構:國防科技大學

原文連結:https://arxiv.org/abs/2403.19924

代碼連結:https://github.com/wwsource/SceneTracker

所提方法介紹

我們的目标是跟蹤一個3D視訊中的3D點。我們形式化該問題如下:一個3D視訊是一個幀的RGB-D序列。估計長時場景流旨在生成已知初始位置的個查詢點的相機坐标系下的3D軌迹。預設的,所有跟蹤都開始于視訊的第一幀。值得注意的是,我們方法可以靈活地從任意一幀開啟跟蹤。我們方法的整體架構如圖1所示。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

圖1

1.軌迹初始化

初始化的第一步是将整個視訊劃分為若幹滑動視窗。我們以長度、滑動步長進行劃分。如圖1左側所示,我們需要跟蹤個查詢點,以紅色、綠色和藍色點為例。對于第一個滑動視窗,位置會被初始化為查詢點的初始位置。對于其他滑動視窗,其前幀會根據前一個滑動視窗的後幀的估計結果進行初始化,而其後幀會根據前一個滑動視窗的最後一幀估計結果進行初始化。以任意一個滑動視窗為例,我們得到初始化的軌迹。

2.特征編碼和下采樣

我們網絡推理在的分辨率上。這裡是一個下采樣系數。首先我們使用一個Feature Encoder網絡來提取圖像特征。Feature Encoder網絡是一個卷積神經網絡,包括8個殘差塊和5個下采樣層。不像處理RGB圖像,我們直接對幀的原始深度圖進行間隔為的等間隔采樣。此外我們利用相機内參将從相機坐标系轉換到一個由圖像平面和深度次元組成的坐标系下。轉換公式如下:

進一步地,我們對該初始化軌迹進行下采樣得到。

3.模闆特征和軌迹的更新

在Flow Iteration子產品,我們疊代式地更新查詢點的模闆特征和3D軌迹。當處理第一個滑動視窗的第一幀時,我們使用查詢點的坐标在特征圖上進行雙線性采樣,進而獲得第一幀的模闆特征。然後我們将該特征在時間次元上複制次,獲得所有後續滑動視窗的初始模闆特征。所有滑動視窗都有一個統一的和不同的。經過次相同的Transformer Predictor子產品,它們會被更新為和。

4.軌迹輸出

我們首先上采樣成,以比對原始輸入分辨率。然後,我們結合相機内參,将從坐标系轉換到相機坐标系,得到。最後,我們連結所有滑動視窗的。相鄰視窗中重疊部分采用後一個視窗的結果。

所提資料集介紹

給定一個自動駕駛資料的序列,我們的目标是建構一個幀的RGB-D視訊以及第一幀中感興趣點的3D軌迹。具體地說,我們會分别從靜态背景、移動的剛性車輛以及移動的非剛性行人上采樣感興趣點。

1.背景上的标注

首先,我們利用相機内參和外參來提取第一幀的LiDAR點,這些點可以被正确地投影到圖像上。然後我們使用2D目标檢測中的包圍框來過濾掉所有前景LiDAR點。以一個LiDAR點為例,我們根據車輛位姿将其投影到剩餘的幀上。正式地,在時刻的投影點為:

這裡,是時刻從車體到時間坐标系的轉換矩陣。

2.車輛上的标注

與背景不同,車輛具有自己獨立的運動。我們引入3D目标跟蹤中的3D包圍框來提供時刻從世界到包圍框坐标系的轉換矩陣。我們使用3D包圍框來過濾出所有車輛的LiDAR點。以一個LiDAR點為例,在時刻的投影點為:

3.行人上的标注

行人運動的複雜性和非剛性決定了其标注困難,這在現有的場景流估計資料集中不包含該類資料可以進一步證明。我們使用雙目視訊來間接地解決該挑戰。首先,我們準備一段幀的矯正雙目視訊。然後我們采用一個半自動的标注架構來高效且準确地标記左右目視訊中感興趣點的2D軌迹。第一步是标記感興趣點,我們開發了一個定制化的标注軟體并标記第一幀左目圖像中感興趣點的2D坐标。第二步是計算粗左目軌迹,我們利用CoTracker來計算左目視訊的粗軌迹。第三步是計算粗右目軌迹,我們利用LEAStereo來逐幀計算感興趣點的視差,進而推導出粗軌迹。第四步是人工細化階段,左右粗軌迹會在标注軟體中顯示,其中所有低品質的标注都會被人類标注師修正。最後,我們結合細化後的左軌迹和視差序列來構造3D軌迹。圖2展示了行人的LSFE标注過程。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

圖2

實驗結果

1.所提資料集LSFDriving示例

圖3為所提LSFDriving資料集在三種類别(背景、車輛、行人)上的示例。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

圖3

2.所提方法SceneTracker估計效果

圖4為所提方法SceneTracker在LSFOdyssey測試集上的估計效果示例。我們等間隔地展示了40幀視訊中的12幀點雲。方法估計出的軌迹用藍色顯示在對應點雲上。從圖4可以看出,面對相機和場景中動态物體的複雜運動,我們方法始終能夠輸出平滑、連續且精确的估計結果。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

圖4

3.與SF、TAP方法的定性比較

圖5是我們方法與scene flow基線、tracking any point基線方法在LSFOdyssey測試集上的定性結果。我們可視化了最後一幀的預測和真值軌迹。軌迹使用jet着色。實線框标記了SF基線由于遮擋或超出邊界導緻的顯著錯誤區域。從圖5可以看出,相比其他方法,我們方法能夠估計出厘米級别精度的3D軌迹。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

圖5

4.與SF、TAP方法的定量比較

表1為在LSFOdyssey測試集上3D名額的定量結果。所有資料均來自于Odyssey訓練流程。從表1可以看出,我們方法在所有資料集名額上均顯著超越其他方法。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

表1

5.在真實場景資料集LSFDriving上的表現

表2為不同推理模式下我們方法在LSFDriving上的評估結果。從表2可以看出,在僅僅依賴合成資料進行訓練的條件下,我們方法展現出值得稱贊的真實場景估計性能。

國防科大最新 | SceneTracker:在4D時空中追蹤萬物

表2

3DCV技術交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、BEV感覺、Occupancy、目标跟蹤、端到端自動駕駛等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺技術星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。