天天看點

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

作者:李灏峰

顯著物體檢測常作為計算機視覺與圖形學應用的預處理步驟。但目前隻有面向圖像的顯著物體檢測方法研究比較成熟,而面向視訊的方法還有很大的研究空間。

為此,香港大學聯合中山大學和深睿醫療人工智能實驗室釋出論文《Motion Guided Attention for Video Salient Object Detection》,提出了基于運動注意力的視訊顯著物體檢測方法(MGA),比之前最好的算法在 DAVIS 和 FBMS 上分别提升了 4 個和 8 個百分點,該論文已被 ICCV2019 接收。

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

論文位址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Motion_Guided_Attention_for_Video_Salient_Object_Detection_ICCV_2019_paper.pdf

研究背景

顯著物體檢測問題要求對于每張圖檔或視訊幀,預測一個二類别的像素級分割結果,用以表征圖檔中的顯著或前景物體。該問題常作為計算機視覺與圖形學應用的預處理步驟。随着深度學習技術的發展,面向圖檔的顯著物體檢測方法被廣泛研究,而面向視訊的顯著物體檢測有待進一步探索。

為了解決視訊的顯著物體檢測,該論文作者有以下觀察:

  • 其一,視訊物體的顯著性由其外觀和運動共同決定,顯著物體的運動往往也是顯著的,顯著運動的區域很可能是顯著物體;
  • 其二,物體的運動蘊含空間連貫性資訊,運動狀态相似的相鄰區域很可能同屬于一個物體或者背景;
  • 其三,利用運動資訊的空間連貫性,有助于分離物體和背景。背景外觀可包含紋理不同的多個區域,而物體可包含内部邊緣及不同外觀的部件,這造成了分割的困難。而表征運動的光流圖檔相對「幹淨」(如圖 1b),可更好地捕捉部分物體邊界,成為分割顯著物體的契機。

目前現有方法主要通過循環神經網絡聚合多個視訊幀的卷積特征,或者利用光流和變形來對齊不同幀的特征,而沒有通過端到端學習來捕捉和利用光流中的顯著運動。作者提出一系列運動注意力子產品,來模組化顯著運動如何結合外觀資訊來影響物體顯著性。作者還提出了一個雙分支網絡,用以放置上述注意力子產品,來實作視訊顯著物體檢測。

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

圖 1。

運動引導的注意力機制

為了模組化顯著運動如何結合外觀資訊來影響物體顯著性的,作者将外觀資訊抽象為三維的外觀特征張量(可為某個 ReLU 隐層的輸出),将顯著運動抽象為二維的運動顯著圖(如某個 sigmoid 隐層的輸出)或者三維的運動特征張量。首先考慮最簡單的情況,如何用一張二維的運動顯著圖來「關注」三維外觀特征的重要位置。一個直覺的樸素模型是将運動顯著圖與外觀特征逐位相乘,來加強外觀特征中運動顯著的區域的響應。但這個樸素模型的缺點在于,運動顯著圖中的零元素會「抑制」外觀特征中運動不顯著或者靜止的區域,進而導緻物體分割不完整的情況出現。

為了解決樸素模型的缺點,作者提出模型一:采用殘差結構,将被權重後的外觀特征與最初的外觀特征逐位相加,補充回錯誤抑制的外觀資訊,使後續的神經網絡層有機會勾勒出完整物體。下面考慮如何利用三維運動特征來關注外觀特征。一個簡單方案是模仿模型一,與外觀特征逐位相乘相加,差別在于要先采用一個 1x1 卷積來對齊運動特征和外觀特征的形狀,這樣得到模型二。

模型二可以看作是用一個三維權重同時實作空間和通道注意力的機制。但由于運動特征來源于資訊量較「稀疏」的光流圖檔,缺乏紋理資訊和複雜語義,基于這樣的特征對外觀特征進行通道注意力,可能引入額外噪聲或導緻過拟合。一個備選方案是運動特征僅用于空間注意力,即先用一個 1x1 卷積和 sigmoid 從運動特征預測出運動顯著圖,在進行類似模型一的操作,這樣得到模型三。

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

圖 2。

最後,基于模型二和三,考慮如何實作合理的通道注意力,作者提出了模型四。模型四先用運動特征對外觀特征進行空間注意力,「空間注意」後的外觀特征經由全局平均池化得到一個一維向量,該向量可表征顯著運動區域的外觀特征。由于物體的運動和靜止部分有較一緻的外觀屬性(如色彩、紋理、語義),那麼基于上述運動區域的外觀特征向量預測出的一維的通道注意力權重,可有效提高物體靜止部分相應屬性或通道的響應,進而有助于分割出完整物體。模型四的末端保留殘差結構,以避免零元素「抑制」的問題。

運動引導注意力網絡(MGAnet)

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

圖 3。

接下來,作者提出一個運動引導注意力網絡(MGAnet),一方面用來提取前述外觀特征、運動特征以及運動顯著圖,另一方面用來結合前面提出的一系列運動注意力子產品,進而形成完整的視訊顯著物體檢測方法。MGAnet 是一個基于 DeepLab-V3+的雙分支網絡。目前不少視訊分割方法也采取雙分支結構,但主要在各分支末端進行融合,而 MGAnet 采用多層次的、密集的方式連接配接兩個分支。MGAnet 包含一個以 RGB 圖像為輸入的外觀分支,一個以光流可視化圖檔為輸入的運動分支,以及連接配接兩分支的 6 個注意力子產品 MGA-{0-5}。外觀分支的編碼器可為 ResNet-101 或 ResNet-50,運動分支的編碼器可為 ResNet-34 或 ResNet-18,不同組合均可達到 SOTA 的性能。MGA-{0-5} 可看作部署注意力子產品的「槽」,其中 MGA-5 僅可采用模型一(運動資訊是二維顯著圖),MGA-0 至 MGA-4 可采取模型二三四中的某一種,一般采用同一種。

實驗結果

下文報告幾個主要的實驗。第一個實驗将 MGA 與現有的視訊及圖檔的顯著物體檢測方法在三個資料集 DAVIS、FBMS 和 ViSal 上比較。其中,ViSal 中并沒有劃分出訓練集供模型訓練,能較好地反映模型的泛化能力。與 6 個視訊模型和 11 個圖檔模型相比,MGA 在三個資料集上均表現最優,分别獲得 4 個、8 個、1 個百分點的 MaxF 的領先。

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

表 1。

第二個實驗驗證網絡結構的有效性。作者嘗試單獨地訓練、測試單個分支,其中獨立的外觀分支等價于語義分割中的 SOTA 模型 DeepLab-V3+;作者還嘗試僅保留編碼器部分(MGA-E)或者解碼器部分(MGA-D)的注意力子產品。實驗結果顯示,雙分支結構有效利用了運動資訊,優于任一單分支網絡。注意力子產品部署在編碼器端或解碼器端,均能起到效果,同時部署在編碼器和解碼器端可獲得最佳性能。

第三個實驗驗證四個運動注意力子產品的有效性。三種樸素的特征融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作為基線方法。表 3 中,「E-」表示部署在編碼器端,「D-」表示部署在解碼器端。實驗結果顯示,四種注意力子產品均優于基線方法。其中,較複雜的模型四(MGA-tmc)略優于模型二(MGA-t)和模型三(MGA-tm)。

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

表 2。

ICCV2019 | 鎖定視訊中的目标:港大提出運動注意力檢測方法

表 3。

總的來說,作者利用運動的空間連貫性,采用注意力機制來模組化運動對物體顯著性的影響,提出了一個簡單但準确率高的雙分支網絡。與基于循環神經網絡的方法不同,該方法利用一個極小時間窗内的時序上下文(即與相鄰幀的光流),取得了 SOTA 的性能。本文是對原文主要方法和實驗的解讀,更多細節請參見原文。

繼續閱讀