天天看點

如何在視訊裡任意摳圖?阿裡工程師做到了!一、半監督視訊物體分割二、互動式視訊物體分割三、無監督視訊物體分割五、阿裡文娛摩酷實驗室的後續計劃

視訊物體分割(Video Object Segmentation,簡稱 VOS ),顧名思義就是從視訊所有圖像中把感興趣的物體區域完整地分割出來。為了友善大家的了解,先給出一個我們自己的視訊物體分割的結果:

視訊物體分割示例,分割得到的人體區域用紅色高亮顯示

視訊物體分割結果是進行内容二次創作的重要素材。例如目前火爆的“裸眼3D視訊”,基于視訊中主要物體與觀衆之間的距離,利用蒙皮遮擋的變化産生3D效果。其核心點是将前景物體從視訊中分割出來,這部分會花費創作者99%以上的時間。

是以,對于優酷這樣的視訊類網站,視訊物體分割是非常有價值的算法,能夠賦能内容生産者,提升内容生産效率。特别是互動式視訊物體分割算法,能利用使用者少量互動,逐漸提高視訊物體分割正确率,提升使用者觀感體驗。這是任何無監督視訊物體分割算法所不能達到的。

目前,CV 學術界在視訊物體分割方面的研究主要分為三個方向:

  • 半監督視訊物體分割 (Semi-supervised video object segmentation)
  • 互動式視訊物體分割(Interactive video object segmentation)
  • 無監督視訊物體分割(Un-supervised video object segmentation)

這三個研究方向對應于 Davis Challenge 2019 on Video Object Segmentation [1]中的三個賽道。其中,學術界更傾向于研究半監督視訊物體分割,因為這是視訊物體分割的最基礎算法,也是比較純粹的一個研究點。 接下來,我首選介紹視訊物體分割的三個研究方向,然後結合阿裡文娛摩酷實驗室的探索,分享在視訊領域的最新應用。

一、半監督視訊物體分割

半監督視訊物體分割,又稱為單一樣本視訊物體分割(one-shot video object segmentation, 簡稱 OSVOS)。在半監督視訊物體分割中,給定使用者感興趣物體在視訊第一幀圖檔上的分割區域,算法來擷取在後續幀上的物體分割區域。物體可以是一個,也可以是多個。在視訊中,存在物體和背景運動變化、光照變化、物體旋轉變化、遮擋等,是以半監督視訊物體分割算法研究的重點是算法如何自适應擷取變化的物體表觀資訊。一個示例如下圖所示:

如何在視訊裡任意摳圖?阿裡工程師做到了!一、半監督視訊物體分割二、互動式視訊物體分割三、無監督視訊物體分割五、阿裡文娛摩酷實驗室的後續計劃

圖1. 半監督視訊物體分割示例

在圖1中,第一行為序列的 RGB 圖檔,第二行為感興趣物體區域。其中(a)為視訊第一幀圖像,駱駝區域是給定物體的 ground-truth。(b)(c)和 (d)是後續的第20、40和60幀,後續的圖像隻有 RGB 圖檔,需要算法去估計物體的區域。該示例的難點是:

  • 前景背景顔色非常相似;
  • 随着目标駱駝的運動,背景中出現一個新的駱駝,需要分割出這兩個不同的駱駝區域。

目前半監督視訊物體分割算法分為兩大類:有線上學習、無線上學習。

基于線上學習的算法根據第一幀物體的 ground-truth,利用 one-shot learning 的政策來 fine-tune 分割模型。經典的線上學習算法包括 Lucid datadreaming[2],OSVOS[3],PreMVOS[4]等。線上學習算法針對每個物體單獨訓練模型,可以達到很高的分割正确率。但是線上學習本身是深度學習模型的 fine-tuning,需要耗費大量的計算時間。在2019年之前,線上學習算法是主流。今年出現了不少無線上學習的算法,它的模型是事先訓練好的,不需要針對樣本進行 fine-tune,具有更好的時效性,例如 CVPR2019 的 FEELVOS[5],Space-time memory network[6]等。

半監督視訊物體分割的最主要的結果評估标準是平均 Jaccard 和 F-measurement.平均Jaccard 值是所有物體在所有幀上分割精度 Jaccard 的均值。F-measurement 為分割區域邊緣的準确度。半監督視訊物體分割由于其需要第一幀物體區域的 ground-truth,是以無法直接應用于實際應用。但它是互動式和無監督視訊物體分割算法的核心組成部分。

二、互動式視訊物體分割

互動式視訊物體分割是從去年開始興起的、更貼近實用的視訊物體分割方法。在互動式視訊物體分割中,輸入不是第一幀物體的 ground-truth,而是視訊任意一幀中物體的使用者互動資訊。互動資訊可以是物體 boundingbox、物體區域的劃線(scribble)、外邊緣的極值點等。

基本流程如下圖所示:

如何在視訊裡任意摳圖?阿裡工程師做到了!一、半監督視訊物體分割二、互動式視訊物體分割三、無監督視訊物體分割五、阿裡文娛摩酷實驗室的後續計劃

圖2.互動式視訊物體分割流程

互動式視訊物體分割通常包括以下5個步驟:

  • 使用者輸入互動資訊,标記感興趣物體,例如物體的 bounding box,scribble 資訊、邊緣點等;
  • 根據使用者輸入的互動資訊,利用互動式圖像物體分割算法分割出物體在該幀圖像上的物體區域;
  • 根據前一幀物體區域,利用半監督視訊物體分割算法向視訊其他幀圖像逐幀傳遞,進行物體分割,得到所有幀圖像上物體區域。然後,使用者檢查分割結果,在分割較差幀上,給出新的互動資訊;
  • 算法根據新的互動資訊,修改該幀圖像上的分割結果;
  • 重複步驟3和4,直到視訊物體分割結果讓使用者滿意。

互動式視訊物體分割不是一個單一算法,而且多種算法有機融合的解決方案,包括互動式圖像物體分割、半監督視訊物體分割、互動式視訊物體區域傳遞算法等。其主要評估方法為 Davis Challenge on Video Object Segmentation 中提出的 Jaccard&F-measurement@60s (簡稱 J&F@60s )和 Area Under Curve(簡稱 AUC)。Davis競賽提出限定8次使用者互動,建立準确度随時間的變化曲線圖,曲線下方區域的面積就是 AUC,t=60s 時刻曲線插值就是 J&F@60s。下圖為一個 J&F 随時間變化曲線圖。

如何在視訊裡任意摳圖?阿裡工程師做到了!一、半監督視訊物體分割二、互動式視訊物體分割三、無監督視訊物體分割五、阿裡文娛摩酷實驗室的後續計劃

圖3. 互動式分割結果 J&F曲線示例

從評估名額可以看出,互動式視訊物體分割強調分割算法的時效性,不能讓使用者長時間等待。是以,在互動式視訊物體分割中一般不采用基于線上學習方法的半監督視訊物體分割算法。目前還沒有互動式視訊物體分割的開源代碼。但是互動式視訊物體分割算法對工業界有非常重要的意義,其原因是:

1)半監督視訊物體分割需要物體第一幀的 ground-truth,實用中擷取比較麻煩。而互動式視訊物體分割隻需要使用者的簡單互動,非常容易達到;

2)互動式視訊物體分割可以通過多次互動,達到非常高的分割正确率。高精度的分割結果能夠提供更好的使用者體驗,才是使用者需要的結果。

三、無監督視訊物體分割

無監督視訊物體分割是全自動的視訊物體,除了 RGB 視訊,沒有其他任何輸入。其目的是分割出視訊中顯著性的物體區域。在上述三個方向中,無監督視訊物體分割是最新的研究方向。

Davis 和 Youtube VOS 競賽今年第一次出現無監督賽道。從算法層面上說,無監督視訊物體分割需要增加顯著性物體檢測子產品,其他核心算法沒有變化。

半監督和互動式視訊物體分割中,物體是事先指定的,不存在任何歧義。而在無監督視訊物體分割中,物體顯著性是主觀概念,不同人之間存在一定的歧義。是以,在 Davis VOS 中,要求參賽者總共提供 N 個物體的視訊分割結果(在 Davis Unsupervised VOS 2019 中,N=20),與資料集 ground-truth 标記的 L 個顯著物體序列計算對應關系。對應上的物體和遺漏的物體參與計算 J&F 的均值。N 個物體中多餘的物體不做懲罰。

  • 四、阿裡文娛摩酷實驗室的研究現狀

目前很多半監督視訊物體分割算法在學術上有很好的創新,但是實用中效果不佳。我們統計了今年 CVPR 的論文,在 Davis 2017 val資料集上,沒有一篇正會論文J&F>0.76。FEELVOS[5]、siamMask[7]等算法理論上有很好,實用中卻存在多種問題。互動式視訊物體分割更是沒有開源代碼。

是以,阿裡文娛摩酷實驗室從2019年3月底開始從事半監督和互動式視訊物體分割算法的研究。

2019年5月,我們完成一版基礎的半監督視訊物體分割算法和互動式視訊物體分割解決方案,并以此參加了 DAVIS Challenge on Video Object Segmentation 2019,在互動式視訊物體分割賽道獲得第四名。

我們提出的 VOS with robust tracking 政策[8],可以較大幅度的提高基礎算法的魯棒性。在 Davis 2017驗證集上,我們互動式視訊物體分割算法 J&F@60s 準确率從3月底的0.353 提高到5月初的0.761。現在,我們的半監督視訊物體分割算法也達到了J&F=0.763。可以說,在這個集合上我們的結果已經接近業界一流水準。一些分割結果示例如下:

如何在視訊裡任意摳圖?阿裡工程師做到了!一、半監督視訊物體分割二、互動式視訊物體分割三、無監督視訊物體分割五、阿裡文娛摩酷實驗室的後續計劃

我們的互動式視訊物體分割結果示例

五、阿裡文娛摩酷實驗室的後續計劃

目前,我們在繼續探索複雜場景下的算法應用,這些複雜場景包括小物體、前景背景高度相似、物體運動速度很快或表觀變化很快、物體遮擋嚴重等。後續,我們計劃在online learning、space-time network、region proposal and verification 等政策上發力,以提高視訊物體分割算法在複雜場景下的分割精度。

另外,圖像物體分割算法、多目标物體跟蹤算法也是視訊物體分割算法的重要基礎,我們也将在這些方面持續提升精度。

Reference:

[1] The 2019 DAVIS Challenge on VOS: Unsupervised Multi-ObjectSegmentation. S. Caelles, J. Pont-Tuset, F. Perazzi, A. Montes, K.-K. Maninis,and L. Van Gool .arXiv:1905.00737, 2019

[2] A. Khoreva, R. Benenson, E. Ilg, T. Brox, and B. Schiele. Lucid datadreaming for object tracking. In arXiv preprint arXiv: 1703.09554, 2017. 2

[3] S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taix´e,D. Cremers,and L. Van Gool. One-shot video object segmentation. CVPR, 2017

[4] J. Luiten, P. Voigtlaender, and B. Leibe. PReMVOS:Proposal-generation, refinement and merging for video object segmentation.arXiv preprint arXiv:1807.09190, 2018.

[5] Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, BastianLeibe, Liang-Chieh Chen. FEELVOS: Fast End-to-End Embedding Learning for VideoObject Segmentation. CVPR 2019

[6]. Seoung Wug Oh, Joon-Young Lee, Ning Xu, Seon Joo Kim.Fast User-GuidedVideo Object Segmentation by Interaction-and-Propagation Networks. CVPR2019

[7]. Wang, Qiang,Zhang, Li,Luca Bertinetto, Weiming Hu, Philip H.S. Torr.Fast Online ObjectTracking and Segmentation: A Unifying Approach. CVPR2019

[8] H. Ren, Y. Yang, X. Liu. Robust Multiple Object Mask Propagation withEfficient Object Tracking. The 2019 DAVIS Challenge on Video ObjectSegmentation - CVPR Workshops, 2019

繼續閱讀