天天看點

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

從多個視角進行的無限制基于圖像的密集三維重建是計算機視覺的少數長期研究的最終目标之一。簡而言之,該任務旨在估計特定場景的三維幾何和相機參數,給定該場景的一組照片。

總的來說,現代的運動和多視圖立體比對流程歸結為解決一系列最小問題:比對點、查找本質矩陣、三角化點、稀疏重建場景、估計相機,最後進行密集重建。但是每個子問題都沒有完美解決,并給下一步增加了噪聲,增加了整個流程需要的複雜性和工程投入。

在這篇文章中,作者提出了DUSt3R,這是一種從未校準和未定位的相機進行密集無限制立體三維重建的根本新方法。主要組成部分是一個網絡,它可以僅通過一對圖像回歸出密集且準确的場景表示,而無需關于場景或相機的先驗資訊(甚至不包括内參)。由此産生的場景表示基于具有豐富屬性的三維點圖:它們同時封裝了(a)場景幾何、(b)像素與場景點之間的關系和(c)兩個視點之間的關系。僅從這個輸出中,幾乎可以直接提取出所有場景參數(即相機和場景幾何)。這是可能的,因為網絡聯合處理輸入圖像和結果的三維點圖,進而學會将二維結構與三維形狀相關聯,并有機會同時解決多個最小問題,實作它們之間的内部"協作"。

3D視覺Daily

,贊32

下面一起來閱讀一下這項工作~

标題:DUSt3R: Geometric 3D Vision Made Easy

作者:Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, Jerome Revaud

機構:阿爾托大學、Naver Labs Europe

原文連結:http://arxiv.org/abs/2312.14132

代碼連結:https://github.com/naver/dust3r

官方首頁:https://dust3r.europe.naverlabs.com/

在室外進行多視角立體重建(MVS)首先需要估計錄影機參數,例如内參和外參。通常這些參數擷取起來很麻煩和繁瑣,然而它們是必要的,用于在三維空間中三角測量對應的像素,這是所有性能最佳的MVS算法的核心。在這項工作中,我們采取了相反的立場,并引入了DUSt3R,這是一種根本新穎的範式,用于任意圖像集合的密集和無限制立體三維重建,即在沒有關于錄影機校準或視角姿态的先驗資訊的情況下運作。我們将成對重建問題建構為點圖的回歸,放寬了通常投影錄影機模型的嚴格限制。我們展示了這種表述平滑地統一了單眼和雙眼重建案例。在提供了兩張以上圖像的情況下,我們進一步提出了一個簡單而有效的全局對齊政策,将所有成對點圖表達在一個公共參考架構中。我們的網絡架構基于标準Transformer編碼器和解碼器,使我們能夠利用強大的預訓練模型。我們的表述直接提供了場景的三維模型以及深度資訊,但有趣的是,我們可以無縫地從中恢複像素比對、相對和絕對錄影機。對所有這些任務的詳盡實驗展示了所提出的DUSt3R可以統一各種三維視覺任務,并在單眼/多視深度估計以及相對姿态估計方面樹立新的SoTAs。總之,DUSt3R使幾何三維視覺任務變得簡單。

給定一個無限制的圖像集合,即一組具有未知相機姿态和内參的照片,DUSt3R輸出一組相應的點圖,從中可以直接恢複各種通常難以一次性估計的幾何量,例如相機參數、像素對應關系、深度圖和完全一緻的3D重建。請注意,DUSt3R也适用于單個輸入圖像(例如,在這種情況下實作單眼重建)。作者還展示了在沒有已知相機參數的情況下獲得的模型的定性示例。對于每個樣本,從左到右:輸入圖像,彩色點雲,并使用陰影渲染以更好地檢視底層幾何形狀。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

訓練過程中從未見過的兩個場景的重建執行個體。從左到右依次為:RGB、深度圖、置信圖、重建。正确的場景顯示了全局對齊的結果。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

僅由兩幅未見場景的圖像進行三維重建的例子:KingsCollege (左上)、OldHospital (中上)、StMarysChurch (右上)、ShopFacade (左下)、GreatCourt (右下)。值得注意的是,這是網絡的原始輸出,即我們在彩色點雲上展示了新的觀點。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

從兩幅圖像中重建未見過的場景的例子。值得注意的是,這是網絡的原始輸出,即在彩色點雲上展示了新的觀點,從原始點圖中恢複相機參數。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!
3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

(1)提出了第一個從未校準和未定位的圖像進行全面端到端三維重建流程,将單目和雙目三維重建統一起來。

(2)引入了用于MVS應用的點地圖表示,使網絡能夠在規範幀中預測3D形狀,同時保留像素與場景之間的隐含關系。這有效地消除了通常的透視相機公式的許多限制。

(3)在多視圖三維重建的情況下引入了一種優化過程來全局對齊點地圖,可以輕松提取出經典SfM和MVS流程的所有正常中間輸出。從某種意義上說,這個方法統一了所有三維視覺任務,并且相比傳統的重建流程大大簡化,使DUSt3R看起來簡單而易于使用。

(4)證明了在一系列三維視覺任務中的良好性能。特别是,全能模型在單目和多視圖深度基準測試以及多視圖相機姿态估計方面達到了最先進的結果。

DUSt3R是使用簡單的回歸損失以完全監督的方式訓練的,利用大型公共資料集,其中地面真實注釋要麼是合成生成的,要麼是從SfM軟體重建的,或者是使用專用傳感器捕獲的。作者摒棄了內建任務特定子產品的趨勢,并采用了基于通用變換器架構的全資料驅動政策,在推斷時不強制執行任何幾何限制,但能夠從強大的預訓練方案中受益。網絡學習了強大的幾何和形狀先驗,這些先驗與通常在MVS中利用的那些非常相似,如紋理、陰影或輪廓。

為了融合來自多個圖像對的預測,作者重新審視了點地圖的束調整(BA)案例,進而實作了全尺度的MVS。引入了一個全局對齊過程,與BA相反,它不涉及最小化重投影誤差。相反,直接在三維空間中優化相機姿态和幾何對齊,這在實踐中是快速且具有良好的收斂性的。

網絡結構。場景( I1、I2)的兩個視圖首先進行編碼,并使用一個共享的ViT編碼器。然後将得到的令牌表示F1和F2通過交叉注意力傳遞給兩個不斷交換資訊的Transformer解碼器。最後,兩個回歸頭輸出兩個對應的點圖和相關的置信圖。重要的是,這兩個點圖被表示在第一幅圖像I1的同一坐标架構中。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

對于兩個資料集的每個場景,将與表1中的最新結果進行了比較。DUSt3R獲得了與現有方法相當的精度,如特征比對方法或基于端到端學習的方法,甚至在某些情況下超過了HLoc等強大的基線。作者認為這有兩個重要的原因。首先,DUSt3R從未接受過任何形式的視覺定位訓練。其次,在DUSt3R的訓練過程中,既沒有看到查詢圖像,也沒有看到資料庫圖像。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

在零樣本情況下,最新的Slow Tv代表了目前的技術狀态。該方法收集了城市、自然、合成和室内場景的大量混合資料集,并訓練了一個通用模型。對于混合體中的每一個資料集,相機參數是已知的或用COLMAP估計的。如表2所示,DUSt3R能夠很好地适應室外和室内環境。它優于自監督基線,并且與最先進的監督基線的性能相當。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

在表3中觀察到,DUSt3R在ETH - 3D上達到了最先進的精度,并且總體上優于最新的最先進的方法,甚至是那些使用真實相機姿态的方法。在時間上,DUSt3R也比傳統的COLMAP流水線快得多。這表明了DUSt3R在室内、室外、小規模或大規模場景上的适用性,而除了ScanNet測試集外,在測試域上沒有訓練,因為訓練集是Habitat資料集的一部分。

3.9k star!2張圖檔重建稠密3D場景!竟然還不需要相機内參!

這篇文章提出了一種新的範式,不僅可以解決沒有關于場景或相機的先驗資訊的室外三維重建,而且可以解決所有種類的三維視覺任務。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀