CVPR'24 | 6D目标姿态估計新标杆：AG-Pose融合幾何感覺

來源：3D視覺工坊

添加小助理：dddvision，備注：方向+學校/公司+昵稱，拉你入群。文末附行業細分群

論文題目：Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation

作者：Xiao Lin, Wenfei Yang等

作者機構：University of Science and Technology of China等

論文連結：https://arxiv.org/pdf/2403.19527.pdf

代碼連接配接：https://github.com/Leeiieeo/AG-Pose

這篇文章介紹了一種針對類别級别的6D物體姿态估計的新方法，稱為AG-Pose。該方法通過兩個關鍵設計來提高泛化能力：一是适應執行個體關鍵點檢測子產品，用于自适應地檢測各種執行個體的稀疏關鍵點；二是幾何感覺特征聚合子產品，用于将局部和全局幾何資訊整合到關鍵點特征中。實驗結果表明，AG-Pose在CAMERA25和REAL275資料集上優于最先進的方法。

本文提出了一種針對類别級别6D物體姿态估計的新方法，名為AG-Pose。該方法主要有兩個關鍵創新點：一是執行個體自适應關鍵點檢測子產品，通過稀疏關鍵點表示不同執行個體的幾何資訊，避免了傳統方法中需要使用形狀先驗的問題；二是幾何感覺特征聚合子產品，将局部和全局幾何資訊融入關鍵點特征中，提高了關鍵點級别對應關系的穩健性。實驗結果表明，該方法在幾個重要的度量名額上均優于現有方法，特别是在處理具有形狀變化的物體執行個體時表現突出。總體來說，本文提出的AG-Pose方法在類别級别6D物體姿态估計中取得了顯著的進展，對相關領域的研究具有一定的指導意義和實用價值。

這篇論文介紹了一個新穎的方法，用于解決類别級别的6D物體姿态估計問題，稱為AG-Pose。傳統方法通常依賴于密集對應來實作，但這些方法在處理具有顯著形狀變化的執行個體時泛化能力不佳。為了解決這個問題，該方法引入了兩個關鍵設計：适應執行個體關鍵點檢測子產品和幾何感覺特征聚合子產品。前者用于自适應地檢測不同執行個體的關鍵點，後者用于有效地提取關鍵點的局部和全局幾何資訊。通過結合這兩個子產品，AG-Pose可以建立穩健的關鍵點級對應關系，進而提高了在未見執行個體上的泛化能力。實驗證明，AG-Pose在CAMERA25和REAL275資料集上表現優異，成為了目前領域的新的最先進方法，而且無需使用類别特定的形狀先驗。

本文的貢獻為：

提出了一種新穎的适應執行個體和幾何感覺關鍵點學習方法，用于類别級别的6D物體姿态估計，可以更好地泛化到具有大形狀變化的未見執行個體。據我們所知，這是第一種基于自适應關鍵點的方法，用于類别級别的6D物體姿态估計。
在廣泛采用的CAMERA25和REAL275資料集上評估了本文的架構，并且結果表明，所提出的方法在不使用類别特定形狀先驗的情況下，取得了新的最先進性能。

2.1 概述

本節介紹了論文的方法論。首先，對RGB-D圖像進行MaskRCNN處理，獲得每個物體的分割掩模和類别标簽。然後，針對每個分割的物體，使用分割掩模得到裁剪後的RGB圖像和點雲資料。接着，提出了AG-Pose方法，旨在估計目标物體的3D旋轉、3D平移和大小。該方法包括四個主要元件：特征提取器、執行個體自适應關鍵點檢測器、幾何感覺特征聚合器和姿态&大小估計器。通過這些元件的配合，AG-Pose能夠更好地泛化到具有大形狀變化的未見執行個體。

2.2 特征提取器

本節介紹了特征提取器的設計。對于點雲Pobj，使用PointNet++提取點特征；對于RGB圖像Iobj，采用PSP網絡從圖像中提取外觀特征。最後，将點雲和RGB圖像的特征連接配接在一起，形成後續網絡的輸入。

2.3 執行個體自适應關鍵點檢測器

本節介紹了執行個體自适應關鍵點檢測器的設計。為了建立穩健的對應關系，采用了一種新穎的方法，利用稀疏的關鍵點來表示不同執行個體的形狀，以進行姿态估計。具體步驟包括将對象特征注入可學習的查詢中，轉換為執行個體自适應檢測器，并計算餘弦相似性生成關鍵點熱圖。此外，還設計了多樣性損失和對象感覺的鉛錘距離損失，以促使檢測到的關鍵點分散在對象的表面上，并排除異常點。這樣，執行個體自适應關鍵點檢測器可以有效地學習過濾掉推理過程中的異常點。

2.4 幾何感覺特征聚合器

本節介紹了幾何感覺特征聚合器的設計。為了建立關鍵點級别的對應關系，提出了一種有效将幾何資訊融入關鍵點特征的方法。通過選擇每個關鍵點的最近K個鄰居，并利用它們的特征來表示局部和全局幾何資訊。具體而言，利用相對位置嵌入來表示局部和全局幾何特征，并結合關鍵點特征和全局幾何特征，進而實作關鍵點特征的聚合。這種方法能夠幫助模型有效地學習到關鍵點之間的幾何關系，進而提高對未見執行個體的泛化能力。

2.5 姿态和尺寸估計器

在獲得具有幾何感覺的關鍵點特征後，使用MLP預測關鍵點的NOCS坐标，并通過關鍵點級别的對應關系回歸最終的姿态和尺寸。姿态使用6D表示法，而平移則預測地面真實值和點雲均值之間的剩餘平移。

2.6 總損失函數

總損失函數包括四個部分，分别是對象感覺距離損失（Locd）、多樣性損失（Ldiv）、NOCS 預測損失（Lnocs）和姿态損失（Lpose）。其中，姿态損失使用 L1 損失，NOCS 預測損失使用 SmoothL1 損失。整體損失通過一組超參數進行權重，用于平衡每個部分的貢獻。

在實驗部分，作者使用了兩個廣泛采用的資料集CAMERA25和REAL275來評估他們提出的方法的性能。CAMERA25是一個合成資料集，包含300K個合成RGB-D圖像，來自6個不同類别的1,085個執行個體。REAL275是一個更具挑戰性的真實世界資料集，包含來自13個不同場景的7K張圖像。

為了進行公平比較，作者使用了與SPD和DPDN相同的分割掩模。圖像在進行特征提取之前被裁剪和調整大小為192×192，并且點雲中的點數N設定為1024。模型參數中，關鍵點的數量設定為Nkpt = 96，GAFA中每個關鍵點的局部範圍設定為K = 16。特征次元分别設定為C1 = 128，C2 = 128和C = 256。

作者在訓練過程中使用了ADAM優化器和三角2循環學習率排程，範圍從2e-5到5e-4。所有實驗在單個RTX3090Ti GPU上進行，批量大小為24。

評估名額方面，作者使用了兩個名額：3D IoU和n◦ mcm。3D IoU評估了3D邊界框的平均交集率，n◦ mcm用于直接評估旋轉和平移誤差。

在實驗結果方面，作者與現有的最先進方法進行了比較。在REAL275資料集上，作者的方法在所有名額上都優于之前的方法，尤其是在最嚴格的5◦ 2cm度量上，性能較之前的最先進方法提高了8.7%。在CAMERA25資料集上，作者的方法在大多數名額上都表現出色，與之前的最先進方法相比，性能提升了1.9%至3.2%。

此外，作者進行了消融研究，證明了他們提出的方法的有效性。他們分析了IAKD子產品、關鍵點數量、Ldiv和Locd以及GAFA子產品對性能的影響，并展示了定性結果以支援他們的結論。

本文提出了一種新穎的面向類别級别6D物體姿态估計的執行個體自适應和幾何感覺關鍵點學習方法（AG-Pose）。具體來說，提出了一個執行個體自适應關鍵點檢測子產品，通過一組稀疏關鍵點表示不同執行個體的幾何資訊。此外，還提出了一個幾何感覺特征聚合子產品，有效地将局部和全局幾何資訊融入關鍵點，以建立穩健的關鍵點級對應關系。作者進行了全面的實驗，實驗結果驗證了本文方法的有效性。

本文僅做學術分享，如有侵權，請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群，包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向，細分群包括：

2D計算機視覺：圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型：NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺：相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM：視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛：深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建：3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機：四旋翼模組化、無人機飛控等

除了這些，還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision，備注：研究方向+學校/公司+昵稱（如3D點雲+清華+小草莓）, 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器，無人機等。

▲長按掃碼學習3D視覺精品課程