--------點選螢幕右側或者螢幕底部“+訂閱”,關注我,随時分享機器智能最新行業動态及技術幹貨----------

與圖像識别不同,AI 分析了解視訊的技術門檻較高。長期以來,業界在視訊 AI 技術的研究上鮮有重大突破。以 CVPR 會議難度最高的比賽之一 DAVIS( Densely Annotated Video Segmentation)為例,該比賽需要參賽團隊精準處理複雜視訊中物體快速運動、外觀變化、遮擋等資訊,過去幾年,全球頂級科技在該比賽中的成績從未突破 80 分,而達摩院的模型最終在 test-challenge 上取得了 84.1 的成績。
DAVIS 的資料集經過精心挑選和标注,視訊分割中比較難的點都有展現,比如:快速運動、遮擋、消失與重制、形變等。DAVIS 的資料分為 train(60 個視訊序列), val(30 個視訊序列),test-dev(30 個視訊序列),test-challenge(30 個視訊序列)。 其中 train 和 val 是可以下載下傳的,且提供了每一幀的标注資訊。對于半監督任務, test-dev 和 test-challenge,每一幀的 RGB 圖檔可以下載下傳,且第一幀的标注資訊也提供了。算法需要根據第一幀的标注 mask,來對後續幀進行分割。分割本身是 instance 級别的。
阿裡達摩院:像素級視訊分割
阿裡達摩院提供了一種全新的空間限制方法,打破了傳統 STM 方法缺乏時序性的瓶頸,可以讓系統基于視訊前一幀的畫面預測目标物體下一幀的位置;此外,阿裡還引入了語義分割中的精細化分割微調子產品,大幅提高了分割的精細程度。最終,精準識别動态目标的輪廓邊界,并且與背景進行分離,實作像素級目标分割。
基本架構
達摩院的算法基于去年 CVPR 的 STM 做了進一步改進。STM 的主要思想在于,對于曆史幀,每一幀都編碼為 key-value 形式的 feature。預測目前幀的時候,以目前幀的 key 去和曆史幀的 key 做比對。比對的方式是 non-local 的。這種 non-local 的比對,可以看做将目前 key,每個坐标上的 C 維特征,和曆史每一幀在這個坐标上的 C 維特征做比對。 比對得到的結果,作為一個 soft 的 index,去讀取曆史 value 的資訊。讀取的特征和目前幀的 value 拼接起來,用于後續的預測。
三大技術創新
1. 空間限制
STM 的特征比對方式,提供了一種空間上的長依賴, 類似于 Transformer 中,通過 self-attention 來做序列關聯。這種機制,能夠很好地處理物體運動、外觀變化、遮擋等。但也有一個問題,就是缺乏時序性,缺少短時依賴。當某一幀突然出現和目标相似的物體時,容易産生誤召回。在視訊場景中,很多情況下,目前幀臨近的幾幀,對目前幀的影響要大于更早的幀。基于這一點,達摩院提出依靠前一幀結果,計算 attention 來限制目前幀目标預測的位置,相當于對短期依賴的模組化。
具體的方法如下圖所示:
- 目前幀的特征和前一幀的預測 mask 在 channel 次元上做 concat,得到 HxWx(c+1) 的特征;
- 通過卷積将特征壓縮為 HxW;
- 用 sigmoid 函數将 HxW 的特征,壓縮範圍,作為空間 attention;
- 把 attention 乘到原特征上,作為空間限制。
下圖為空間 attention 的可視化結果,可以看到大緻對應了前景的位置。
2. 增強 decoder
達摩院引入了語義分割中的感受野增強技術 ASPP 和精細化分割的微調(refinement)子產品。ASPP 作用于 memory 讀取後的特征,用于融合不同感受野的資訊,提升對不同尺度物體的處理能力。
3. 訓練政策
達摩院提出了一個簡單但是有效的訓練政策,減少了訓練階段和測試階段存在的差異,提升了最終效果。
原始 STM 訓練時,會随機從視訊中采樣 3 幀。這三幀之間的跳幀間隔,随着訓練逐漸增大,目的是增強模型魯棒性。但達摩院發現,這樣會導緻訓練時和測試時不一緻,因為測試時,是逐幀處理的。為此,在訓練的最後階段,達摩院将跳幀間隔重新減小,以保證和測試時一緻。
其他
backbone: 達摩院使用了 ResNeST 這個比較新的 backbone,它可以無痛替換掉原 STM 的 resnet。在結果上有比較明顯提升。
測試政策: 達摩院使用了多尺度測試和 model ensemble。不同尺度和不同 model 的結果,在最終預測的 map 上,做了簡單的等權重平均。
顯存優化: 達摩院做了一些顯存優化方面的工作,使得 STM 在多目标模式下,可以支援大尺度的訓練、測試,以及支援較大的 memory 容量。
資料: 訓練資料上,達摩院使用了 DAVIS、Youtube-VOS,以及 STM 原文用到的靜态圖像資料庫。沒有其他資料。
結果
達摩院的模型,最終在 test-challenge 上取得了 84.1 的成績。
在 test-dev 上的消融實驗。達摩院複現的 STM 達到了和原文一緻的結果。在各種 trick 的加持下, 得到了 11 個點的提升。
随着網際網路技術、5G 技術等的發展,短視訊、視訊會議、直播的場景越來越多,視訊分割技術也将成為不可或缺的一環。比如,在視訊會議中,視訊分割可以精确區分前背景,進而對背景進行虛化或替換;在直播中,使用者隻需要站在綠幕前,算法就實時替換背景,實作一秒鐘換新直播間; 在視訊編輯領域,可以輔助進行後期制作。
文章來源:
https://www.infoq.cn/article/QyZjDa0A1ePkrog2p1jO