天天看點

簡單但有效!輕松分割運動目标!

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

光流在運動物體分割中發揮了重要的作用,能夠:(i)發現運動物體,(ii)為分割提供清晰的邊界,以及(iii)如果它們一起移動,将物體的部分組合在一起。它已經成為了許多自監督學習方法中發現移動物體的基礎。然而,如果物體暫時靜止,或者在區分前景物體和背景"噪音"時,它會面臨分割挑戰。這自然引出了一個問題:"如何利用SAM與流結合來在視訊中進行移動物體分割?"。

為此,這篇文章探索了兩種不同但簡單的變體,以有效地定制SAM用于運動分割。首先介紹了FlowI-SAM,這是對原始SAM的改編,它直接處理光流作為三通道輸入圖像進行分割,其中均勻網格上的點被用作提示。這種方法利用了SAM對準确分割移動物體對靜态背景的能力,通過利用光流場中存在的清晰邊界和不同紋理。然而,在光流來自多個互相作用的對象的場景中,它在分離它們方面的成功較少,因為流隻包含有限的資訊來分離它們。其次建立在SAM對RGB圖像分割的強大能力之上,提出了FlowP-SAM,其中輸入是一個RGB幀,流引導SAM進行移動物體分割作為提示,由可訓練的提示生成器産生。這種方法有效地利用了SAM在RGB圖像分割上的能力,流資訊作為一個在幀内選擇移動物體/區域的選擇器。此外,将這些方法從幀級擴充到序列級視訊分割,以便對象辨別在整個序列中保持一緻。作者通過引入一個比對子產品來實作這一點,該子產品自回歸地選擇是否選擇一個新對象或基于時間一緻性來傳播舊對象。

下面一起來閱讀一下這項工作~

标題:Moving Object Segmentation: All You Need Is SAM (and Flow)

作者:Junyu Xie, Charig Yang, Weidi Xie, Andrew Zisserman

機構:牛津大學視覺幾何小組、上海交通大學計算機學院

原文連結:https://arxiv.org/abs/2404.12389

代碼連結:https://github.com/Jyxarthur/flowsam

官方首頁:https://www.robots.ox.ac.uk/%7Evgg/research/flowsam/

本文的目标是運動分割------在視訊中發現并分割移動物體。這是一個經過深入研究的領域,有許多謹慎、有時複雜的方法和訓練方案,包括:自監督學習、從合成資料集學習、物體中心表示、模态表示等等。我們在本文中的興趣在于确定"Segment Anything"模型(SAM)是否能夠為這一任務做出貢獻。我們研究了兩種将SAM與光流結合的模型,利用SAM的分割能力和光流發現和分組移動物體的能力。在第一個模型中,我們調整SAM以将光流而不是RGB作為輸入。在第二個模型中,SAM将RGB作為輸入,而流則用作分割提示。這些令人驚訝的簡單方法,在沒有任何進一步修改的情況下,在單一和多物體基準測試中都大大優于所有先前的方法。我們還将這些幀級别的分割擴充到保持對象身份的序列級别分割。同樣,這個簡單的模型在多個視訊對象分割基準測試中優于先前的方法。

僅光流預測(即光流作為唯一輸入)。

簡單但有效!輕松分割運動目标!

基于RGB的預測(即RGB和光流作為輸入)。

簡單但有效!輕松分割運動目标!

這篇文章介紹并探索了兩個模型,以利用SAM在視訊中進行移動物體分割,使主要移動物體能夠與背景運動區分開來。主要貢獻有三個方面:

(1)FlowI-SAM模型,利用光流作為三通道輸入圖像進行精确的逐幀分割和移動物體識别。

(2)FlowP-SAM模型,這是RGB和流的雙流資料的新穎組合,利用光流生成提示,指導SAM在RGB圖像中識别和定位移動物體。

(3)在移動物體分割基準上,包括DAVIS、YTVOS和MoCA,在幀級和序列級上都取得了新的領先性能。

FlowI - SAM概述。( a ) FlowI - SAM的推理管線。( b )帶可訓練參數标記的FlowI - SAM體系結構。點提示令牌由當機的提示編碼器生成。

簡單但有效!輕松分割運動目标!

FlowP-SAM的概述。(a) FlowP-SAM的推理流程。(b) FlowP-SAM的架構。光流提示生成器産生光流提示,注入到類似SAM的基于RGB的分割子產品中。這兩個子產品都接收相同的點提示令牌,該令牌來自當機的提示編碼器。(c) 光流Transformer的詳細架構。輸入令牌在輕量級變換器解碼器内作為查詢,疊代地關注密集光流特征。然後,輸出的移動物體分數(MOS)令牌由基于MLP的頭部處理,以預測一個分數,訓示輸入的點提示是否對應于移動物體。

簡單但有效!輕松分割運動目标!

• 光流幀間隔。 如表1所示,利用具有多個幀間隔(即,1,-1,2,-2)的光流輸入會在多對象和單對象基準測試中顯著提升性能。這種改進歸因于運動資訊在擴充時間範圍内的一緻性,有效地減輕了光流輸入中由緩慢移動、部分運動等引起的噪聲的影響。

• 光流特征的組合。 探索了兩種組合方案:(i)取最大值;和(ii)在不同幀間隔上進行平均。根據表2,平均方法産生了更優異的結果。

簡單但有效!輕松分割運動目标!

幀級性能。 4區分了僅光流和基于RGB的方法,前者僅采用光流作為輸入模态,後者則采用RGB幀并可選擇性地輸入流。注意,由于缺乏監督基準,一些最近的自監督方法的性能也被報道。

簡單但有效!輕松分割運動目标!

圖5進一步提供了基于RGB的方法的可視化, 前的工作有時無法(i)識别移動物體(例如,第五列中缺少的豹子); (ii)區分多個對象(例如,第二和第四列中的糾纏對象分割),而FlowI-SAM + FlowP-SAM(seq)将基于RGB的預測與光流提示結合起來,進而實作了移動物體的準确定位和分割。

簡單但有效!輕松分割運動目标!

這篇文章專注于在真實世界的視訊中進行移動對象分割,通過兩種方式将每幀的 SAM 與運動資訊(光流)相結合:

(i)對于僅光流入 FlowI-SAM,直接将光流作為輸入;

(ii)對于基于 RGB 的分割,利用運動資訊生成流提示作為指導。這兩種方法在單對象和多對象基準測試中都提供了最先進的幀級分割性能。此外,開發了一種逐幀關聯方法,将 FlowI-SAM 和 FlowP-SAM 的預測結合起來,實作了在 DAVIS、YTVOS 和 MoCA 基準測試中優于所有先前方法的序列級分割預測。

該工作的主要局限性是其延長的運作時間,歸因于SAM 中計算量較大的圖像編碼器。然而,這篇文章通常适用于其他基于提示的分割模型。随着 SAM 的更高效版本的出現,預計推理時間将顯著減少。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀