天天看點

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

擷取同一場景的多個圖像中比對的像素是計算機視覺中的一個基礎任務,它是大多數運動結構管線的一個組成部分。經典上,找到兩個圖像之間的比對關系被分為三個子任務:關鍵點檢測、描述和比對。關鍵點是一種局部圖像特征,足夠明顯以在強烈的視角和照明變化下被識别。然而,精确地定義這意味着什麼(例如,應允許多強的變化?),作者認為社群仍然不太了解關鍵點應該是什麼。是以,了解關鍵點檢測器的訓練過程并徹底調查哪些元件重要是很有意義的。

在這篇文章中,作者進行了上述分析,對 DeDoDe 檢測器的訓練管線進行了幾個簡單修改,顯著提高了其性能。

下面一起來閱讀一下這項工作~

标題:DeDoDe v2: Analyzing and Improving the DeDoDe Keypoint Detector

作者:Johan Edstedt, Georg Bökman, Zhenjun Zhao

機構:林雪平大學、查爾莫斯技術大學、香港中文大學、德克薩斯A&M大學

來源:Sixth Workshop on Image Matching - CVPRW 2024

原文連結:https://arxiv.org/abs/2404.08928

代碼連結:https://github.com/Parskatt/DeDoDe

在本文中,我們分析并改進了最近提出的DeDoDe關鍵點檢測器。我們的分析集中在一些關鍵問題上。首先,我們發現DeDoDe關鍵點傾向于聚集在一起,我們通過在訓練期間對檢測器的目标分布執行非極大值抑制來解決這個問題。其次,我們解決了與資料增強相關的問題。特别是,DeDoDe檢測器對大幅度旋轉敏感。我們通過包括90度旋轉以及水準翻轉來解決這個問題。最後,DeDoDe檢測器的解耦特性使得評估下遊用途變得棘手。我們通過将關鍵點與預訓練的密集比對器(RoMa)進行比對,并評估雙視角姿态估計來解決這個問題。我們發現原始的長時間訓練對性能有害,是以提出了一個更短的訓練計劃。我們将所有這些改進內建到我們提出的檢測器DeDoDe v2中,并在MegaDepth-1500和IMC2022基準測試中與原始的DeDoDe描述符進行評估。我們提出的檢測器顯著提高了姿态估計結果,尤其是在IMC2022挑戰中,從75.9提高到78.3 mAA。

先看一下之前工作的問題:DeDoDe檢測目标沒有明确地在檢測中強制稀疏性。這就産生了網絡在圖像中特别顯著的區域産生所謂的檢測簇的副作用。這在下遊任務中是有問題的,因為這意味着必須對許多關鍵點進行采樣,以確定可重複性。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

對大旋轉的敏感性。 原始的DeDoDe檢測器對較大的旋轉比較敏感,DeDoDev2在輸入圖像旋轉(右)的情況下産生更一緻的關鍵點。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

DeDoDe (左) vs DeDodev2 (右)。這篇文章提出了DeDoDe v2,一種改進的關鍵點檢測器,該檢測器遵循不描述方法,即檢測器是描述子不可知的。DeDoDe在不同的區域中過度檢測關鍵點,這反過來又會導緻它在其他區域被低估,進而導緻性能下降。作者對DeDoDe檢測器進行了改進,為整個場景生成了多樣但可重複的關鍵點。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

(1)引入了一系列訓練增強,包括非最大值抑制和改進的資料增強。

(2)将DeDoDe檢測器的訓練時間縮短到單個 A100 GPU 上的 20 分鐘,同時提高了性能。

(3)詳細說明了大量經過測試但未成功的修改。

作者分析了DeDoDe檢測器的問題,并提出了一系列改進方法來解決這些問題。

5.1 防止聚類

原始的DeDoDe檢測器傾向于檢測聚類,降低了關鍵點的多樣性和覆寫範圍。然而,在測試時簡單地強制執行NMS并不起作用。

訓練期間的NMS。 受到例如R2D2中的peakiness loss和ALIKED等檢測器中内置的soft-NMS的啟發,提出了一個訓練期間的NMS目标。為此,在對後驗檢測分布執行h×h NMS後進行top-k。也就是說,在将檢測先驗與檢測器的logit預測結合之後,另外強制要求分數成為局部最大值以設定為目标。

5.2 訓練時間

原始的DeDoDe檢測器在MegaDepth資料集上使用了800,000個圖像對進行訓練,盡管在訓練過程中關鍵點的可重複性在增加,甚至在測試集上也是如此,但這并不能轉化為兩視圖相對姿态估計的下遊目标。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

然而,如何衡量這個下遊目标并不是完全明顯,因為檢測器與描述符是分離的。是以,作者使用RoMa來比對關鍵點以估計下遊的可用性。當以這種方式評估原始的DeDoDe檢測器時,它很快就會過度拟合重複性名額,并且在訓練過程中姿态估計的性能會下降。為了確定檢測器沒有過度拟合場景,作者進行了一個實驗,其中将測試場景包含在訓練資料中。也許令人驚訝的是,作者并沒有看到性能上的主要差異,而且随着時間的推移,性能也呈現出類似的下降趨勢。這表明檢測目标和姿态估計之間存在更基本的問題,這需要留待未來研究。

無論原因是什麼,當選擇大幅減少檢測器的訓練時間,将其設定為10,000個圖像對,這顯著提高了性能。此外,訓練時間的減少還有一個額外的好處,就是需要的計算量明顯減少,DeDoDe v2的訓練在單個A100 GPU上花費約20分鐘。

5.3 小改進

作者讨論了一些對檢測器的訓練進行的小改變和改進。

Top-k計算。 DeDoDe在一個minibatch上計算top-k而不是每對。雖然這放寬了每對必須包含一定數量比對關鍵點的假設,但是當困難的對可能會收到非常少的關鍵點時,這是有問題的。作者将這個計算改為在對之間獨立進行。

資料增強。 使用{0, 90, 180, 270}中的随機旋轉來訓練檢測器,另外包含随機水準翻轉,這使得檢測器對大旋轉更加魯棒。

5.4. 沒有效果的改變

在這裡,作者描述了一組不同的假設,這些假設對檢測器的性能産生了負面或可忽略的影響。

推斷中的多樣性。 DeDoDe在推斷過程中具有由參數α控制的局部密度估計。在DeDoDe中,α = 1/2。作者嘗試将其設定為其他值∈[0.5, 1],發現在姿态估計結果中沒有顯著的改進。

檢測先驗的平滑性。 在DeDoDe中,檢測先驗的平滑性假設為标準差σ = 0.5的正态分布。作者嘗試将其設定為其他值(更低和更高),發現較低和較高的值都表現稍差。

減弱先驗強度。 在DeDoDe中,先驗強度設定為50,這實際上意味着先驗檢測将始終位于top-k目标中。作者發現随着訓練的進行,降低強度會顯著提高關鍵點的可重複性。然而,它同時會顯著降低下遊姿态的AUC。作者認為這是由于網絡忽略了一些不太重複但對精确姿态估計很重要的關鍵點。

更改top-k中的k。 嘗試設定不同的k ∈[512, 2048],發現雖然性能上有輕微差異,但DeDoDe中k = 1024的設定似乎是最佳的。

更改正則化器。 DeDoDe使用的是覆寫率正則化器,作者調查了改變σ以及去除正則化器,以及将其替換為均勻正則化器,發現這些改變要麼對性能幾乎沒有影響,要麼産生負面影響。

學習率。 DeDoDe中的預設學習率為解碼器為10−4,更改這些對性能的影響微乎其微。

訓練分辨率。 由于DeDoDe在512×512分辨率上進行訓練,并在784×784分辨率上進行測試,作者認為在訓練過程中使用随機裁剪政策(其中裁剪來自784×784圖像)會減輕可能存在的訓練-測試分辨率差異。然而,結果表明對性能影響不大。

推斷期間的NMS。 即使在訓練時使用了NMS,當後期應用NMS時,檢測器仍會産生較差的檢測結果。然而,性能下降的幅度明顯低于基線模型。

定性比較DISK (左)、DeDoDe (中)、DeDoDev2 (右)。 DISK産生多樣的,但非區分性的關鍵點。相比之下,DeDoDe産生判别性的kepoint,但傾向于聚類。DeDoDev2綜合了這兩種方法的優點,産生了多樣化和區分性的關鍵點。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

MegaDepth-1500 相對姿态: 與 DeDoDe 一樣,作者調整了方法以擷取首選數量的關鍵點,并讓 SiLK和 DeDoDe檢測多達 30,000 個關鍵點。DeDoDeV2在所有進行的基準測試中都顯示出明顯的增益。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

還使用 RoMa 比對器使用 8,000 個關鍵點與原始的 DeDoDe 檢測器進行評估,同樣觀察到性能明顯提升。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

圖像比對挑戰賽 2022: 與 DeDoDe 基線相比,DeDoDeV2的改進為 +2.5 mAA。

遠超SiLK & SuperPoint!最強特征點DeDoDe v2震撼來襲!

這篇文章提出了DeDoDe v2,一個改進的關鍵點檢測器。作者分析了原始檢測器的問題,并提出了幾種改進方法來解決這些問題。DeDoDe v2在具有挑戰性的IMC2022和MegaDepth-1500相對姿态估計基準上創造了新的技術水準。

局限性。作者經驗性地分析并改進了DeDoDe檢測器。然而,仍然缺乏對一些潛在問題的理論了解。特别是,制定一個不與相對姿态沖突的目标是未來的研究興趣。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。