天天看點

CVPR'24 Highlight!跟蹤3D空間中的一切!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

運動估計一直通過兩種範式來處理:特征跟蹤和光流。雖然每種方法都可以實作許多應用,但它們都不能完全捕捉視訊中的運動:光流隻能為相鄰幀産生運動,而特征跟蹤隻能跟蹤稀疏像素。

一個理想的解決方案将涉及在視訊序列中估計密集和長程像素軌迹的能力。 但目前的解決方案在挑戰性場景中仍然存在困難,特别是在複雜變形伴随頻繁自遮擋的情況下。這種困難的一個潛在原因在于僅在二維圖像空間中進行跟蹤,進而忽略了運動的固有三維性質。由于運動發生在三維空間中,某些屬性隻能通過三維表示來充分表達。例如,旋轉可以用三維中的三個參數簡潔地解釋,遮擋可以簡單地用z緩沖表示,但在二維表示中要複雜得多。圖像投影可以将空間上遠離的區域帶到二維空間中,這可能導緻用于相關性的局部二維鄰域可能包含不相關的上下文(特别是在遮擋邊界附近),進而導緻推理困難。

為了解決這些挑戰,作者建議利用最先進的單目深度估計器的幾何先驗,将二維像素提升到三維,并在三維空間中進行跟蹤。這涉及在三維空間中進行特征相關性計算,為跟蹤提供更有意義的三維上下文,特别是在複雜運動的情況下。在三維中跟蹤還允許強制執行三維運動先驗,例如ARAP限制。鼓勵模型學習哪些點一起剛性移動可以幫助跟蹤模糊或被遮擋的像素,因為它們的運動可以通過同一剛性組中相鄰的清晰可見區域推斷出來。

下面一起來閱讀一下這項工作~

标題:SpatialTracker: Tracking Any 2D Pixels in 3D Space

作者:Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou

機構:浙江大學、UC伯克利、螞蟻集團

原文連結:https://arxiv.org/abs/2404.04319

代碼連結:https://github.com/henry123-boy/SpaTracker

官方首頁:https://henry123-boy.github.io/SpaTracker/

視訊中恢複密集且長距離的像素運動是一個具有挑戰性的問題。部分困難來自于3D到2D的投影過程,導緻2D運動領域出現遮擋和不連續性。雖然2D運動可能很複雜,但我們認為潛在的3D運動通常是簡單且低維的。在這項工作中,我們提出通過估計3D空間中的點軌迹來減輕圖像投影引起的問題。我們的方法,命名為SpatialTracker,使用單眼深度估計器将2D像素轉換為3D,使用三平面表示高效地表示每一幀的3D内容,并使用變換器執行疊代更新來估計3D軌迹。在3D中進行跟蹤使我們能夠利用盡可能剛性(ARAP)限制,同時學習将像素聚類到不同剛性部分的剛性嵌入。廣泛的評估表明,我們的方法在定性和定量上都實作了最先進的跟蹤性能,特别是在諸如平面外旋轉之類具有挑戰性的場景中。

在三維空間中跟蹤2D像素。 為了估計遮擋和複雜3D運動下的2D運動,作者将2D像素提升到3D,并在3D空間中執行跟蹤。

CVPR'24 Highlight!跟蹤3D空間中的一切!

與TAPIR和Cotracker的2D跟蹤進行比較。 SpatialTracker可以處理具有挑戰性的場景,如平面外旋轉和遮擋。

CVPR'24 Highlight!跟蹤3D空間中的一切!

視訊中剛性部件的分割。 SpatialTracker通過聚類它們的3D軌迹來識别場景中不同的剛性部分。

CVPR'24 Highlight!跟蹤3D空間中的一切!

(1)作者建議使用三平面特征圖來表示每個幀的三維場景,首先将圖像特征提升到三維特征點雲,然後将其噴灑到三個正交平面上。三平面表示緊湊而規則,适合學習架構。

(2)三平面在三維空間中密集覆寫,能夠提取任何三維點的特征向量進行跟蹤。然後,通過疊代更新使用來自三平面表示的特征的變壓器預測的查詢像素的三維軌迹。

(3)為了使用三維運動先驗正則化估計的三維軌迹,模型另外預測了每條軌迹的剛性嵌入,這使能夠軟地分組表現出相同剛性體運動的像素,并為每個剛性叢集強制執行ARAP正則化。作者證明了剛性嵌入可以通過自監督學習,并産生不同剛性部分的合理分割。

(4)模型在各種公共跟蹤基準上實作了最先進的性能,包括TAP-Vid、BADJA和PointOdyssey。對具有挑戰性的網際網路視訊的定性結果還表明了模型處理快速複雜運動和延長遮擋的出色能力。

Pipeline概述。 首先使用三面編碼器将每個幀編碼為三面表示(a)。然後,使用從這些三面提取的特征作為輸入,使用變換器在三維空間中初始化并疊代更新點軌迹(c)。三維軌迹使用地面真實注釋進行訓練,并通過具有學習到的剛性嵌入的盡可能剛性(ARAP)限制進行規範化(d)。ARAP限制強制要求具有相似剛性嵌入的點之間的三維距離随時間保持恒定。這裡dij表示點i和j之間的距離,而sij表示剛性相似性。SpatialTracker即使在快速移動和嚴重遮擋下也能産生準确的遠距離運動軌迹(e)。

CVPR'24 Highlight!跟蹤3D空間中的一切!

TAP-Vid基準包含幾個資料集:TAPVid-DAVIS(約34-104幀的30個真實視訊)、TAP-Vid-Kinetics(250幀的1144個真實視訊)和RGB-Stacking(250幀的50個合成視訊)。基準中的每個視訊都使用真實2D軌迹和遮擋進行注釋。使用與TAP-Vid基準相同的度量标準來評估性能:平均位置精度(<δavg)、平均Jaccard(AJ)和遮擋精度(OA)。SpatialTracker在所有三個資料集上一緻優于所有基線方法,除了Omnimotion之外,展示了在3D空間中進行跟蹤的好處。Omnimotion還在3D中執行跟蹤,并通過一次性優化所有幀在RGB-Stacking上獲得最佳結果,但這需要非常昂貴的測試時間優化。

CVPR'24 Highlight!跟蹤3D空間中的一切!

BADJA是一個包含七個帶有關鍵點注釋的動物移動視訊的基準。此基準中使用的名額包括基于段的準确性(segA)和3px準确性(δ3px)。SpatialTracker在δ3px方面表現出有競争力的性能,并在基于段的準确性上大幅超過所有基線方法。

CVPR'24 Highlight!跟蹤3D空間中的一切!

PointOdyssey是一個大規模的合成資料集,其中包含各種各樣的動畫人物,從人類到動物,置于不同的3D環境中。在PointOdyssey的測試集上評估,該測試集包含12個具有複雜運動的視訊,每個視訊大約有2000幀。采用PointOdyssey提出的評估度量标準,這些度量标準旨在評估非常長的軌迹。SpatialTracker在所有度量标準上一貫優于基線方法,并且優勢明顯。特别是,作者展示了通過使用更準确的地面真實深度,模型的性能可以進一步提升。這表明了SpatialTracker在單目深度估計的進步中持續改進的潛力。

CVPR'24 Highlight!跟蹤3D空間中的一切!

3D跟蹤結果。

CVPR'24 Highlight!跟蹤3D空間中的一切!

在這項工作中,作者展示了一個适當設計的三維表示對解決視訊中稠密且遠距離運動估計的長期挑戰至關重要。運動自然發生在三維空間中,而在三維空間中跟蹤運動使模型能夠更好地利用其在三維空間中的規律,例如 ARAP 限制。作者提出了一個新穎的架構,使用可學習的 ARAP 限制,利用三面體表示來估計三維軌迹,該限制能夠識别場景中的剛性群,并在每個群體内強制實施剛性。實驗表明,與現有基線方法相比,SpatialTracker具有優越的性能,并适用于具有挑戰性的真實世界場景。

SpatialTracker依賴于現成的單目深度估計器,其準确性可能會影響最終的跟蹤性能。然而,作者預計單目重建技術的進步将提高運動估計的性能。這兩個問題能夠更密切地互相作用,互相受益。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。