天天看點

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

這篇文章主要介紹了一種名為GBOT的實時圖形跟蹤方法,旨在輔助增強現實(AR)中的裝配任務。該方法利用先前裝配姿态的先驗知識,結合了6D姿态估計和物體跟蹤技術,通過運動學連結跟蹤多個裝配部件。作者還提出了一個名為GBOT的資料集,用于評估他們的方法。實驗結果表明,該方法在各種條件下都表現良好,特别是在具有不同光照、手部遮擋和快速移動等情況下。文章的主要貢獻包括提出了一種新的跟蹤方法,建立了一個可用于評估的資料集,并展示了該方法在AR輔助裝配任務中的潛力。此外,文章還讨論了未來的研究方向,包括對具有紋理、透明或反射特性的物體進行跟蹤,以及改進姿态估計算法。

下面一起來閱讀一下這項工作~

論文題目:GBOT: Graph-Based 3D Object Tracking for Augmented Reality-Assisted Assembly Guidance

作者:Shiyu Li,Hannah Schieber等

作者機構:慕尼黑工業大學等

論文連結:https://arxiv.org/pdf/2402.07677.pdf

代碼連結:https://github.com/roth-hex-lab/gbot

可裝配部件的指導是增強現實的一個有前景的領域。增強現實裝配指導需要目标物體的6D對象姿态實時擷取。特别是在時間關鍵的醫療或工業環境中,連續且無需标記的追蹤單個部件對于将指導說明疊加在目标物體部件上或旁邊至關重要。在這方面,使用者手部或其他物體的遮擋以及不同裝配狀态的複雜性使得無需标記的多物體追蹤變得複雜且難以實作穩健和實時。為了解決這個問題,我們提出了基于圖形的物體跟蹤(GBOT),這是一種新穎的基于圖形的單視圖RGB-D跟蹤方法。通過6D姿态估計初始化實時無需标記的多物體跟蹤,并更新基于圖形的裝配姿态。通過我們的新穎多狀态裝配圖實作對各種裝配狀态的跟蹤。我們利用各個裝配部件的相對姿态來更新多狀态裝配圖。在這個圖中連接配接各個對象可以在裝配過程中實作更穩健的對象跟蹤。作為未來工作的基準,我們還提供了用于3D列印的裝配資産。在合成資料上的定量實驗和在真實測試資料上的進一步定性研究顯示,GBOT能夠勝過現有的工作,進而實作了上下文感覺的增強現實裝配指導。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

GBOT資料集包含的所有五種裝配資産的概述。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

我們的合成訓練圖像。生成了帶有3D列印零件的聚類場景,用于裝配零件。為了增加域随機性,我們添加了來自T-less 資料集的對象,變化的光照條件和随機化的背景。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

不同光照條件、運動模糊和遮擋的合成和真實場景:我們進行消融研究,考慮到不同的光照條件、運動模糊和手部遮擋作為真實資料的限制。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

GBOT合成資料集上的定性評估。我們在三個裝配工具Nano Chuck by Prima、Hand-Screw Clamp和Liftpod上進行了比較(從上到下)。跟蹤的對象被單獨着色。随着裝配狀态的不斷發展,GBOT比現有技術的跟蹤器更加注重跟蹤。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

在真實場景中對GBOT與YOLOv8Pose、SRT3D、ICG、ICG+SRT3D和GBOT + re-init進行定性評估。我們将裝配工具Hobby Corner Clamp與不同方法進行了比較。我們顯示了以不同顔色跟蹤的對象。YOLOv8Pose無法檢測和估計被遮擋的裝配對象的姿态,而跟蹤算法仍然能夠更新對象姿态。随着裝配狀态的不斷發展,GBOT比現有技術的跟蹤器SRT3D、ICG和ICG+SRT3D更加注重跟蹤。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

在真實雜亂場景中的評估:我們随機放置了GBOT裝配資産以及一些幹擾物體,以測試雜亂場景的影響。我們的訓練資料通過域随機化有助于在雜亂的場景中檢測物體。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

在合成場景上進行裝配感覺訓練,并在真實場景上進行評估:我們的訓練資料通過裝配資料有助于在裝配過程中克服遮擋。

IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!
  • 基于實時多物體裝配圖跟蹤,由6D姿态估計驅動,用于多狀态裝配,包括裝配狀态識别。
  • 一個合成資料集和未标記的真實測試資料,用于公開可用的和可3D列印的裝配資産,作為AR裝配指導的定量和定性基準。
  • 目标跟蹤初始化:首先,利用先進的對象檢測器YOLOv8進行6自由度(6D)對象姿态估計,将其設計為單階段方法。在檢測到對象的邊界框之外,還擴充了檢測輸出以擷取對象姿态估計所需的關鍵點。關鍵點直接檢測在對象表面上,而不是在3D邊界框的角上。這樣做的目的是更準确地捕獲對象的表面特征。檢測到關鍵點和邊界框後,将它們輸入到RANSAC PnP(透視nP)中,以恢複對象的姿态。
  • 關鍵點選擇:為了在每個對象上定義表面關鍵點,采用了最遠點采樣方法,該方法在對象表面上初始化一個關鍵點集,并添加總共N個點。鑒于對象尺寸的變化,經濟性和可見性之間的平衡,使用17個關鍵點作為經濟取舍。
  • 6D姿态預測:PnP是解決給定對象模型的N個3D點和相應預測2D關鍵點的6D對象姿态的問題。通過RANSAC PnP處理對象檢測器的輸出,以恢複6D對象姿态。訓練網絡時,采用YOLOv8提出的關鍵點回歸損失。
  • 基于圖的對象跟蹤:利用6D對象姿态估計來不斷檢測單個對象,但這對計算能力要求很高,限制了實時性能。對象跟蹤提供了實時姿态資訊,但需要姿态初始化。是以,使用6D姿态估計進行對象跟蹤初始化。基于圖的對象跟蹤是基于時間新幀中對象姿态的更新。大多數跟蹤算法定義了基于能量函數或姿态變化向量的機率模型。我們使用基于能量函數的方法,該方法被定義為負對數機率,遵循Stoiber等人的方法。我們的跟蹤方法擴充了他們的基于圖的方法,該方法使用不同對象之間的運動學連結來簡化跟蹤過程。與他們的工作不同,我們根據先驗已知的裝配圖實時更新這些連結。
  • 确定裝配狀态:為了在裝配過程中切換不同的裝配狀态,我們利用了兩個裝配部件之間的相對姿态的知識。我們通過測量連接配接部件之間的相對姿态來獲得裝配狀态。如果兩個部件之間的相對姿态(與地面真實姿态相比)小于跟蹤誤差,則假定特定的裝配狀态已完成。我們計算翻譯和旋轉的誤差,并将其用作切換條件。
  • GBOT資料集:為了訓練和評估跟蹤器的性能,使用了合成資料生成器。該資料集包含五個3D列印裝配物體,用于測試算法。通過域随機化,例如變化的背景紋理、不同的光照條件和幹擾物體,生成了合成資料。為了進行品質評估,還記錄了真實場景的圖像,但由于注釋的限制,這些圖像不包含地面真實姿态。
IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!
IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!
  • 評估名額:使用平均距離誤差(ADD)和平均距離誤差-S(ADD-S)作為評估6D姿态準确性的主要名額。還定義了平均平移誤差和平均旋轉誤差作為補充名額。
  • 實作細節:算法基于YOLOv8擴充,使用PyTorch實作6D姿态估計,并使用NVIDIA TensorRT加速。跟蹤、推斷引擎和RESTful API使用C++ 17實作。
  • 評估資料集:使用GBOT資料集進行評估,包含四種條件(正常、動态光照、運動模糊、手部遮擋)。與YOLOv8Pose、最先進的跟蹤方法和GBOT進行比較。
  • 實驗結果:GBOT在不同條件下的表現優于YOLOv8Pose和其他跟蹤方法。對于包含更多部件的裝配資産,GBOT的表現更加優越。
  • 定量評估:在不同條件下的定量評估結果顯示,GBOT在跟蹤精度上優于其他方法。特别是對于手部遮擋等情況,GBOT表現出更好的魯棒性。
  • 定性評估:通過視覺化結果,展示了GBOT在跟蹤裝配資産時的魯棒性和準确性。GBOT能夠跟蹤較小的部件,并在強烈手部遮擋時表現良好。
  • 實時性:GBOT能夠在實時應用中部署,保證其在增強現實(AR)應用中的使用。通過在Microsoft Hololens 2上展示了一個AR應用程式裝配指導的示例來證明。
IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!
IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!
IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!
IEEE'24 | 實時跟蹤革命!推理僅需36毫秒!重塑AR裝配體驗!

我們的方法側重于無紋理的列印零件。未來的挑戰可能包括具有反射性或透明性的物體,如醫療器械,以進一步測試跟蹤方法的邊界。通過改進我們的6D姿态估計算法,結合幾何先驗,可以更好地跟蹤具有幾何模糊性的較小目标。此外,螺釘或類似物體可以更多地基于類别級别進行檢測,以實作更可擴充的連接配接部件方法。為了克服遮擋,多攝像頭設定可能會很有用,可能還包括AR裝置的攝像頭。為了應對更具挑戰性的裝配對象,可能需要更強大的跟蹤重新初始化。

本文提出了一種新穎的适用于AR輔助裝配任務的實時圖形跟蹤方法。GBOT使用基于先前裝配姿态的先驗知識,通過運動學連結跟蹤多個裝配部件,并将6D姿态估計的知識與物體跟蹤相結合。我們的跟蹤使GBOT能夠在各種條件下持續跟蹤對象,在裝配過程中。為了使得在各種場景下與最先進技術進行比較,我們提出了GBOT資料集和額外記錄的實景。在這個資料集上,我們評估了我們的YOLOv8Pose,跟蹤方法SRT3D,ICG,ICG+SRT3D和GBOT。我們的資料集包含五個裝配資産,每個資産都有三個或更多個獨立部件。資料集的場景有四種條件,正常、動态光照、運動模糊和手部遮擋。GBOT在具有不同照明、手部遮擋和快速移動等情況下的合成場景以及真實錄制的場景中表現良好。我們展示了與YOLOv8Pose相比,跟蹤更準确,并且使用我們動态建立的運動學連結比單獨跟蹤更優越。GBOT在GBOT資料集上的表現優于最先進的跟蹤算法,該資料集易于複現,旨在成為裝配任務的基準。總之,我們的方法和資料集是邁向實時和穩健物體跟蹤以及AR引導裝配過程的有希望的一步。

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。