天天看點

相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

論文題目:Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation

作者: Ruicong Liu ,Takehiko Ohkawa等

作者機構:The University of Tokyo, Tokyo, Japan

論文連結:https://arxiv.org/pdf/2403.04381.pdf

代碼連結:https://github.com/ut-vision/S2DHand

這篇論文提出了一種新穎的單視角到雙視角自适應(S2DHand)解決方案,旨在适應預訓練的單視角估計器到雙視角。與現有的多視角訓練方法相比,S2DHand的适應過程是無監督的,不需要多視角注釋,并且可以處理具有未知相機參數的任意雙視角對,使模型适用于不同的相機設定。S2DHand基于某些立體限制建構,包括成對的跨視角一緻性和兩個視角之間的變換不變性。這兩個立體限制以互補的方式用于生成僞标簽,進而實作可靠的自适應。評估結果顯示,S2DHand在不同相機對下,無論是在資料集内部還是跨資料集設定下,都取得了顯著的改進,并且在性能上優于現有的自适應方法。
相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

讀者了解:

這篇論文介紹了一種新穎的單視角到雙視角自适應架構(S2DHand),旨在将單視角手部姿态估計器适應到雙視角設定中。S2DHand是無監督的,不需要多視角标簽。該方法也不需要錄影機參數,是以與任意雙視角相容。文中使用了兩個立體限制作為兩個僞标記子產品,以互補的方式使用。該方法在資料集内和跨資料集設定下,對所有雙視角對都實作了顯著的性能提升。這種方法的創新性和性能表現使得它在處理雙視角手部姿态估計問題上具有廣闊的應用前景。

這篇論文介紹了一種新穎的方法,名為S2DHand,用于在主觀視角下估計三維手部姿态。該方法通過适應單視角估計器到雙視角,無需多視角标簽或相機參數。具體而言,它利用了交叉視圖一緻性和兩個相機坐标系之間的變換不變性,通過生成可靠的僞标簽來提高模型在雙視角下的拟合度。評估結果表明,該方法在不同攝像頭對下取得了顯著改進,在資料集内和跨資料集設定下均優于現有的适應方法。這篇論文的主要貢獻在于提出了一種無監督的單到雙視角自适應方法,為主觀視角下的三維手部姿态估計提供了新的解決方案。

本文的貢獻為:

  • 提出了一種新穎的無監督單到雙視角自适應(S2DHand)解決方案,用于主觀視角下的三維手部姿态估計。作者的方法可以将傳統的單視角估計器自适應到任意雙視角,無需注釋或相機參數。
  • 建立了一個基于僞标簽的自适應政策。它利用了交叉視圖一緻性和兩個相機坐标系之間的變換不變性,用于可靠的僞标簽生成。這導緻了兩個關鍵子產品:基于注意力的合并和旋轉引導的細化。
  • 評估結果表明,作者的方法對于任意放置的相機對都是有益的。作者的方法在資料集内和跨資料集設定下為所有相機對都取得了顯著的改進。
相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

這部分讨論了單到雙視角自适應手部姿态估計的問題設定。首先介紹了雙視角資料集的表示,其中包括來自兩個視角的圖像對,但不包含地面真實手部姿态或相機參數。然後描述了目标,即将預訓練的單視角估計器适應到任意雙視角設定,而無需地面真實或相機參數。方法的輸入是預訓練估計器和未标記的雙視角資料,輸出是适應的估計器,其參數專門針對雙視角情況。最後,展示了一個多視角頭戴式錄影機的示例布局,以及用于探索方法性能的合成訓練資料。

相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

這部分介紹了提出的方法,即S2DHand架構。首先進行了一個初始化步驟,用于初始化兩個視圖之間的旋轉矩陣,這對于建立兩個相機坐标系之間的轉換至關重要。方法的架構概述包括兩個分支,一個是估計器H,另一個是其動量版本H'。适應過程是從成對的跨視圖一緻性和兩個相機坐标系之間的旋轉變換不變性兩個立體限制出發設計的。這導緻了兩個關鍵的僞标簽子產品:基于注意力的合并和旋轉引導的細化。這兩個子產品以互補的方式工作,根據預測精度,確定可靠的僞标簽。

相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

3.1 初始化

這部分介紹了初始化步驟,旨在估計一個相對準确的旋轉矩陣R,以便将兩個相機坐标系聯系起來。該步驟假設初始預訓練的估計器能夠生成合理的預測。通過使用未标記的雙視角資料,估計器可以輸出一系列預測,然後通過這些預測來估計旋轉矩陣R。這個過程確定了在适應過程中的旋轉對齊。

3.2 單到雙視角自适應

這部分介紹了單到雙視角自适應過程。首先,通過初始化旋轉矩陣R,開始自适應過程。S2DHand架構包括兩個分支,一個是具有動态更新參數θ的估計器H(·|θ),另一個是使用時間移動平均來更新參數θ的動量版本H(·|θ)。在自适應過程中,動量模型H的作用是生成僞标簽,用于監督模型H。損失函數通過比較實際預測和僞标簽來計算。最後,估計器遵循DetNet的實作,直接輸出熱圖,通過熱圖計算3D關節點。

3.3 僞标簽: 基于注意力的合并

這部分介紹了基于注意力的合并子產品,用于生成僞标簽。該子產品利用跨視圖一緻性的概念,即不同視圖的預測在轉換到相同坐标系後應該一緻,來生成準确的僞标簽。為了考慮不同視圖之間的圖像捕獲差異,引入了關節級别的注意力機制。該子產品通過将兩個預測轉換到相同坐标系,并使用注意力來對其進行關節級别的乘法操作,進而生成最終的僞标簽。

相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

3.4 僞标簽: 基于旋轉引導的精煉

該部分介紹了基于旋轉引導的精煉(RGR)子產品,用于進一步優化預測結果以使其在不同視圖下保持一緻性。該子產品利用了旋轉變換不變性的概念,即不同視圖下的預測應在轉換到相同坐标系後保持一緻。通過最小化預測與目标旋轉矩陣之間的差異,該子產品能夠使預測結果更加準确。最終的僞标簽是根據精煉後的預測結果和基于注意力的合并子產品生成的僞标簽進行權重平均得到的。這種方法能夠提高僞标簽的品質,并進一步優化模型的性能。

相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

這部分實驗主要圍繞單視角到雙視角适應任務展開,使用了名為AssemblyHands的最新大規模基準資料集作為評估集。訓練集包括兩種适應情景:

1)同資料集情景,即訓練集來自相同的AssemblyHands資料集;

2)跨資料集情景,使用合成資料集(包括Rendered Handpose和GANerated Hands)作為訓練集。實驗包括以下内容:

  • 資料集介紹:AssemblyHands是一個大規模基準資料集,包含準确的三維手部姿态注釋。GANerated Hands包含超過330,000張手部彩色圖像,Rendered Handpose包含約44,000個樣本。
  • 實驗設定:使用根相對坐标計算平均每關節位置誤差(MPJPE)作為評估名額。提出了新的雙視角MPJPE度量标準,同時也使用傳統的單視角MPJPE。使用PyTorch實作,所有實驗在單個NVIDIA A100 GPU上運作。
  • 适應結果:在同資料集和跨資料集設定下,與預訓練模型相比,S2DHand在所有攝像頭對上都取得了顯著的精度提升,平均提升超過10%,最大提升超過20%。
  • 跨資料集比較:将S2DHand與領先的領域适應方法進行比較,包括SFDAHPE,RegDA,DAGEN和ADDA。結果顯示,S2DHand在跨資料集設定下表現出色,超過了其他方法。
  • 消融研究:分析了模型中每個元件的貢獻。結果表明,注意力合并子產品和旋轉引導精煉子產品都能顯著提高手部姿态估計性能。
  • 輸入圖像對數量:評估了S2DHand在不同輸入圖像對數量下的性能,結果顯示當N≥1000時性能趨于穩定,選擇N=1000作為最優數量。
  • 兩個僞标簽的互補性:實驗結果顯示,旋轉引導精煉子產品在處理不準确預測時起到了重要作用,有效地優化了僞标簽。
  • 超參數分析:通過調整超參數α和β,确定了最佳參數值。
  • 定性結果展示:通過将3D手部關節投影到圖像平面,展示了S2DHand在提高雙視角下手部姿态估計性能方面的顯著效果。

綜上所述,實驗結果表明S2DHand在單視角到雙視角适應任務中取得了顯著的性能提升,尤其在跨資料集設定下表現優異,具有很高的實用價值和應用前景。

相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構
相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構
相機參數?不需要!CVPR'24 S2DHand雙視角手部姿态估計架構

本文提出了一種新穎的單視角到雙視角适應架構(S2DHand),旨在将單視角手部姿态估計器适應到雙視角設定中。S2DHand是一種無監督方法,無需多視角标簽。本文的方法也不需要相機參數,可以與任意雙視角相容。兩個立體限制被用作兩個僞标記子產品,互相補充。作者的方法在同資料集和跨資料集設定下,所有雙視角對上都取得了顯著的性能提升。

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀