天天看點

論文閱讀筆記《FlowControl: Optical Flow Based Visual Servoing》

核心思想

  該文提出一種基于光流的視覺伺服控制方法,實作了機械臂的“一眼”模仿(One-shot Imitation)。所謂“一眼”模仿,就是機器人隻需要看一次示教過程,就能跟随示教視訊完成相應的動作。首先,人工控制機械臂完成一個動作,并使用固定的機械臂上的攝像頭錄制完整的示教視訊。視訊涵蓋了整個運動軌迹和目标物體,将視訊分解為若幹個關鍵幀,每一幀都表示運動軌迹中的一個位置。然後使用目前攝像頭捕捉的圖像與第一幀做對比,計算目标物體之間的光流資訊,并結合RGB-D相機擷取的深度資訊,擷取到3D位置資訊。最後通過基于位置的視覺伺服算法控制機械臂運動,使目前攝像頭捕捉的圖像與示教視訊第一幀圖像不斷接近,當誤差小于門檻值時,則表示機械臂已經運作到第一幀的位置,然後加載下一幀,以此類推直至完成整個示教動作。

論文閱讀筆記《FlowControl: Optical Flow Based Visual Servoing》

實作過程

論文閱讀筆記《FlowControl: Optical Flow Based Visual Servoing》

  首先,使用FlowNet2算法計算目前圖像和示教視訊對應圖像幀之間的光流資訊;然後利用人工繪制的掩碼圖将目标物體作為前景分割出來,得到掩碼後的光流圖;接下來根據RGB-D相機擷取的深度資訊和目标物體的圖像坐标,逆映射得到目标物體的三維空間坐标。最後根據目标物體在目前圖像和示教圖像中的三維坐标位置差異,利用SVD算法計算出對應的變換矩陣,再利用PBVS根據變換矩陣計算對應的控制律。

論文閱讀筆記《FlowControl: Optical Flow Based Visual Servoing》

創新點

  • 将模仿學習和視覺伺服相結合
  • 利用光流估計的方法尋找目前圖像和示教圖像之間的比對點及對應的位移資訊

算法評價

  該文本質上是将整個動作軌迹拆分成多個關鍵動作,利用視覺伺服控制不斷完成每個關鍵動作,最終實作整個示教動作,而光流估計在其中主要扮演了尋找目前圖像和示教圖像之間對應點的比對問題,有了光流圖和示教圖像中的目标物體掩碼圖就能将目前圖像中目标物體分割出來,進而計算三維坐标和變換矩陣等資訊。本文有個問題就是需要人工繪制掩碼圖來幫助分割出目标物體,且需要在每一個關鍵幀中都進行分割。此外本文的方法非常依賴光流估計的準确性,否則無法在目前圖像中準确找到目标物體的位置。

如果大家對于深度學習與計算機視覺領域感興趣,希望獲得更多的知識分享與最新的論文解讀,歡迎關注我的個人公衆号“深視”。

論文閱讀筆記《FlowControl: Optical Flow Based Visual Servoing》

繼續閱讀