天天看點

1 秒鐘打造智能化視訊内容生産利器

視訊目标分割是目前視訊算法領域的前沿話題,越來越多的應用在了各個行業場景裡。本次由英特爾與阿裡雲聯合舉辦、與優酷戰略合作的 “新内容 新互動 “全球視訊雲創新挑戰賽算法賽道,也将目光聚焦于這一個領域。大賽自開賽以來,已經吸引了 2000 多支隊伍參賽,彙聚了全球算法精英。

本文将以 “Media AI 阿裡巴巴文娛算法挑戰賽” 為例,精選出由優酷人工智能部算法團隊提出的冠軍方案,為本屆大賽選手提供成功的參賽經驗和技術解讀。

除傳統分割算法需要解決的視角光照變化、目标尺度變化、目标間遮擋等難點之外,面向視訊智能生産的人物分割算法還需要關注如下特殊難點:

  • 視訊場景内容豐富多樣:要求算法在複雜背景幹擾下正确發掘場景顯著主角
  • 複雜衣着 / 手持 / 附屬物:要求算法充分描述目标豐富和複雜的外觀語義
  • 目标人物快速劇烈動作:要求算法解決運動模糊、劇烈形變帶來的誤分割、漏分割

Media AI 大賽的資料集面向高精度 - 執行個體級 - 視訊人物分割任務,提供了 1700 段逐幀精細标注視訊資料,其中初賽和複賽各 800 段訓練集和 50 段測試集,對上述難點都有展現。

相比于學術 / 工業界标準的 DAVIS 和 YouTube-VOS 資料集,本資料集含有業界最多人體目标标注标簽(18 萬幀,30 萬标注人體目标),且在标注精度、内容廣度等方面均處于行業領先地位。這次資料庫依托優酷站内海量資源,囊括古裝劇集、現代劇集、街拍、街舞、運動(跑酷、球類、健身)等豐富内容,更加符合智能化視訊内容生産的現實需求。經過精細化人工标注,資料集真值掩碼圖精準勾勒視訊人物的邊緣細節,為訓練以及測試分割算法的準确性和精确性提供了依據。

此外,該資料集還針對人物手持物 / 附屬物進行了标注,有助于算法對人物與物品從屬關系進行學習。

冠軍方案算法詳解

在初賽階段,優酷人工智能部算法團隊以 STM(Video Object Segmentation using Space-Time Memory Networks)為基礎,進行了徹底的模型複現和以及算法改進。在複賽階段,以初賽半監督模型為骨幹,配合以目标檢測、顯著性判别、關鍵幀選擇等子產品,實作高精度無監督視訊分割鍊路。

  1. 監督視訊人物分割

半監督 VOS 的任務目标是在給定第一幀物體掩碼的前提下,将該物體在後續幀中連續分割出來。

  1. 1 基本架構
  • 提出 Spatial Constrained Memory Reader 以解決 STM 空間連續性不足問題

首先 STM 在像素比對時是基于外觀的比對,沒有考慮物體在相鄰兩幀之間空間上的連續性。換言之,STM 會尋找與前面幀中外觀相似的物體,但對該物體出現在何位置不敏感。是以,當一幀中出現多個外觀相似物體時,STM 的分割結果就有可能産生錯誤。

針對這個問題,DAVIS2020 半監督第一名方案的解決方法是将前一幀的物體 mask 結合到 encode 之後的 feature 中,降低離前一幀物體位置較遠像素的權重(如圖 1 所示)。實際嘗試後發現增益不大。我們認為原因在于訓練過程中給與模型過強的位置先驗,導緻模型分割過分依賴于前一幀的物體位置資訊,限制了 non-local 的長距離比對能力。一旦出現前一幀物體被遮擋,或者前一幀物體分割錯誤的情況,整段視訊的分割結果将出現不穩定性偏移。

1 秒鐘打造智能化視訊内容生産利器

圖 1. Spatial-contrained STM

DAVIS2020 半監督第三名方案對此的解決方案是 kernelized memory reader(如圖 2 所示),這種方法能保證 memory 中的點會比對到 query 中最相似的一個區域,可以避免出現一對多比對的問題。但是不能保證空間上的連續,容易出現不可逆的誤差累積。

1 秒鐘打造智能化視訊内容生産利器

圖 2. Kernelized-memory STM

綜合考慮上述兩種方法,我們提出了一種既能考慮前一幀物體位置資訊,又不影響原始比對訓練過程的方法。如圖 3 所示,利用前一幀的物體 mask 生成位置大小相關的高斯核,通過這個高斯核來修正 memory 中像素的最優比對位置。之後流程和圖 2 相似,利用每個像素的最優比對位置對原始比對進行修正。如此一來,既沒有影響訓練過程,導緻 non-local 部分比對能力降低,又引入了 spatial prior,保證了物體 mask 的空間連續性。

1 秒鐘打造智能化視訊内容生産利器
1 秒鐘打造智能化視訊内容生産利器

圖 3.Spatial-contrained Mmeory Reader 示意圖

  • 增加 ASPP & HRNet post-refinement 以解決 STM 解碼器對多尺度目标分割精細度較差問題

通過 ASPP 增加多尺度資訊的捕獲能力,利用 HRnet 對 STM 的初始分割結果進行 refine,優化物體細節的分割效果。

  1. 2 訓練政策

在比賽中采用了兩階段訓練的方法。第一個階段,采用 MS-COCO 靜态圖像庫成視訊序列進行預訓練。第二個階段,将公開資料庫(DAVIS,Youtube-vos)和比賽訓練集進行合并訓練,來保證有足夠的資料量。具體訓練細節如下:

  • Crop 相鄰 3 幀圖像 patch 進行訓練,盡可能增加 augmentation。crop 時需要注意一定要保證在第 2 和第 3 幀出現的物體都在第一幀出現了,否則應該過濾;
  • 将 DAVIS,Youtube-vos 和比賽訓練集以一定比例融合效果最好;
  • 訓練過程名額波動較大,采用 poly 學習率政策可緩解;
  • 訓練比較吃顯存,batch size 比較小的話要 fix 所有的 bn 層。
  1. 3 其他
  • Backbone:更換 resnest101
  • 測試政策:使用 Multi-scale/flip inference
  1. 4 結果

優酷算法團隊的模型,在測試集上取得了 95.5 的成績,相比原始 STM 提高将近 5 個點。

   2.   無監督視訊人物分割

無監督 VOS 的任務目标是在不給定任何标注資訊的前提下,自主發掘前景目标并進行連續的分割。無監督 VOS 方法鍊路較為複雜,通常不是由單一模型解決,其中涉及到目标檢測、資料關聯、語義分割、執行個體分割等子產品。

   2.1 算法架構

我們複賽所采用的算法流程具體分為如下四步:

a. 逐幀做執行個體分割

采用 DetectoRS 作為檢測器,為保證泛化能力,沒有在比賽訓練集上 finetune 模型,而是直接使用在 MS COCO 資料集進行訓練。此階段隻保留 person 類别。門檻值設為 0.1,目的是盡可能多地保留 proposal。

b. 對執行個體分割的 mask 進行後處理

如下左圖所示,現有 instance segmentation 的方法産生的 mask 分辨率低,邊緣粗糙。我們采用語義分割模型對 DetectoRS 産生的結果進行 refine(image+mask ->HRnet -> refined mask), 結果如下圖。可以看出掩碼圖中的物體邊緣以及細節都有了明顯的改善。

1 秒鐘打造智能化視訊内容生産利器

圖 4. 檢測器(DetectoRS)輸出掩碼圖(上)與 refine 後掩碼圖(下)

c. 幀間進行資料關聯,得到初步結果

利用 STM 将 t-1 幀的 mask warp 到 t 幀,這樣就可以利用 warp 後的 mask 和第 t 幀的分割結果進行比對。通過這個過程,補償了運動等問題産生的影響,穩定性更高。具體的,對于首幀物體,我們保留置信度大于 0.8 的 proposal。對第 t-1 幀和第 t 幀做資料關聯時,首先利用 STM 将第 t-1 幀的結果 warp 到第 t 幀。然後用匈牙利算法對 warp 後的 mask 和第 t 幀由 DetectRS 生成的 proposal 進行二部圖比對。

d. 篩選分割結果較好的幀作為 key frames 進行疊代優化

經上述資料關聯以後,我們已經得到了初步的無監督 VOS 結果,其中每幀的 mask 是由 DetectRS 生成,id 是由資料關聯決定。但是這個結果存在很多問題,還可以進一步優化。比如說視訊開始處出現的漏檢無法被補上。如下圖所示,左側的人在視訊開始處不易被檢測,直到第 10 幀才被檢測出來。另外,視訊中人體交疊嚴重處分割品質要遠低于人體距離較大處。

1 秒鐘打造智能化視訊内容生産利器

是以,我們可以根據物體數量,bbox 的交疊程度等資訊篩選出一些可能分割較好的幀作為下一輪優化的 reference。具體的,我們可以利用篩選出來的 key frames 作為初始 memory,用 STM 進行雙向預測。首先雙向預測可以解決視訊開始處的漏檢,其次 STM 對于遮擋等問題的處理也要好過單幀的執行個體分割。經實驗驗證,每疊代一次 STM 雙向預測,名額都有小幅度提升。

1 秒鐘打造智能化視訊内容生産利器

視訊目标(人物)分割(Video Object Segmentation,簡稱為 VOS)算法是業界公認的技術重點難點,同時又有着最為廣泛的落地場景和應用需求。相信參與本屆 “新内容 新互動 “全球視訊雲創新挑戰賽算法賽道的選手,将以視訊目标分割為起點,利用計算機視覺算法領域的諸多技術,為行業和大衆打造更加智能化、便捷化、趣味化的視訊服務。

「視訊雲技術」你最值得關注的音視訊技術公衆号,每周推送來自阿裡雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。
1 秒鐘打造智能化視訊内容生産利器