1 秒鐘打造智能化視訊内容生産利器

視訊目标分割是目前視訊算法領域的前沿話題，越來越多的應用在了各個行業場景裡。本次由英特爾與阿裡雲聯合舉辦、與優酷戰略合作的 “新内容新互動 “全球視訊雲創新挑戰賽算法賽道，也将目光聚焦于這一個領域。大賽自開賽以來，已經吸引了 2000 多支隊伍參賽，彙聚了全球算法精英。

本文将以 “Media AI 阿裡巴巴文娛算法挑戰賽” 為例，精選出由優酷人工智能部算法團隊提出的冠軍方案，為本屆大賽選手提供成功的參賽經驗和技術解讀。

除傳統分割算法需要解決的視角光照變化、目标尺度變化、目标間遮擋等難點之外，面向視訊智能生産的人物分割算法還需要關注如下特殊難點：

視訊場景内容豐富多樣：要求算法在複雜背景幹擾下正确發掘場景顯著主角
複雜衣着 / 手持 / 附屬物：要求算法充分描述目标豐富和複雜的外觀語義
目标人物快速劇烈動作：要求算法解決運動模糊、劇烈形變帶來的誤分割、漏分割

Media AI 大賽的資料集面向高精度 - 執行個體級 - 視訊人物分割任務，提供了 1700 段逐幀精細标注視訊資料，其中初賽和複賽各 800 段訓練集和 50 段測試集，對上述難點都有展現。

相比于學術 / 工業界标準的 DAVIS 和 YouTube-VOS 資料集，本資料集含有業界最多人體目标标注标簽（18 萬幀，30 萬标注人體目标），且在标注精度、内容廣度等方面均處于行業領先地位。這次資料庫依托優酷站内海量資源，囊括古裝劇集、現代劇集、街拍、街舞、運動（跑酷、球類、健身）等豐富内容，更加符合智能化視訊内容生産的現實需求。經過精細化人工标注，資料集真值掩碼圖精準勾勒視訊人物的邊緣細節，為訓練以及測試分割算法的準确性和精确性提供了依據。

此外，該資料集還針對人物手持物 / 附屬物進行了标注，有助于算法對人物與物品從屬關系進行學習。

冠軍方案算法詳解

在初賽階段，優酷人工智能部算法團隊以 STM（Video Object Segmentation using Space-Time Memory Networks）為基礎，進行了徹底的模型複現和以及算法改進。在複賽階段，以初賽半監督模型為骨幹，配合以目标檢測、顯著性判别、關鍵幀選擇等子產品，實作高精度無監督視訊分割鍊路。

監督視訊人物分割

半監督 VOS 的任務目标是在給定第一幀物體掩碼的前提下，将該物體在後續幀中連續分割出來。

1 基本架構

提出 Spatial Constrained Memory Reader 以解決 STM 空間連續性不足問題

首先 STM 在像素比對時是基于外觀的比對，沒有考慮物體在相鄰兩幀之間空間上的連續性。換言之，STM 會尋找與前面幀中外觀相似的物體，但對該物體出現在何位置不敏感。是以，當一幀中出現多個外觀相似物體時，STM 的分割結果就有可能産生錯誤。

針對這個問題，DAVIS2020 半監督第一名方案的解決方法是将前一幀的物體 mask 結合到 encode 之後的 feature 中，降低離前一幀物體位置較遠像素的權重（如圖 1 所示）。實際嘗試後發現增益不大。我們認為原因在于訓練過程中給與模型過強的位置先驗，導緻模型分割過分依賴于前一幀的物體位置資訊，限制了 non-local 的長距離比對能力。一旦出現前一幀物體被遮擋，或者前一幀物體分割錯誤的情況，整段視訊的分割結果将出現不穩定性偏移。

圖 1. Spatial-contrained STM

DAVIS2020 半監督第三名方案對此的解決方案是 kernelized memory reader（如圖 2 所示），這種方法能保證 memory 中的點會比對到 query 中最相似的一個區域，可以避免出現一對多比對的問題。但是不能保證空間上的連續，容易出現不可逆的誤差累積。

圖 2. Kernelized-memory STM

綜合考慮上述兩種方法，我們提出了一種既能考慮前一幀物體位置資訊，又不影響原始比對訓練過程的方法。如圖 3 所示，利用前一幀的物體 mask 生成位置大小相關的高斯核，通過這個高斯核來修正 memory 中像素的最優比對位置。之後流程和圖 2 相似，利用每個像素的最優比對位置對原始比對進行修正。如此一來，既沒有影響訓練過程，導緻 non-local 部分比對能力降低，又引入了 spatial prior，保證了物體 mask 的空間連續性。

1 秒鐘打造智能化視訊内容生産利器

圖 3.Spatial-contrained Mmeory Reader 示意圖

增加 ASPP & HRNet post-refinement 以解決 STM 解碼器對多尺度目标分割精細度較差問題

通過 ASPP 增加多尺度資訊的捕獲能力，利用 HRnet 對 STM 的初始分割結果進行 refine，優化物體細節的分割效果。

2 訓練政策

在比賽中采用了兩階段訓練的方法。第一個階段，采用 MS-COCO 靜态圖像庫成視訊序列進行預訓練。第二個階段，将公開資料庫（DAVIS,Youtube-vos）和比賽訓練集進行合并訓練，來保證有足夠的資料量。具體訓練細節如下：

Crop 相鄰 3 幀圖像 patch 進行訓練，盡可能增加 augmentation。crop 時需要注意一定要保證在第 2 和第 3 幀出現的物體都在第一幀出現了，否則應該過濾；
将 DAVIS,Youtube-vos 和比賽訓練集以一定比例融合效果最好；
訓練過程名額波動較大，采用 poly 學習率政策可緩解；
訓練比較吃顯存，batch size 比較小的話要 fix 所有的 bn 層。

3 其他

Backbone：更換 resnest101
測試政策：使用 Multi-scale/flip inference

4 結果

優酷算法團隊的模型，在測試集上取得了 95.5 的成績，相比原始 STM 提高将近 5 個點。

2. 無監督視訊人物分割

無監督 VOS 的任務目标是在不給定任何标注資訊的前提下，自主發掘前景目标并進行連續的分割。無監督 VOS 方法鍊路較為複雜，通常不是由單一模型解決，其中涉及到目标檢測、資料關聯、語義分割、執行個體分割等子產品。

2.1 算法架構

我們複賽所采用的算法流程具體分為如下四步：

a. 逐幀做執行個體分割

采用 DetectoRS 作為檢測器，為保證泛化能力，沒有在比賽訓練集上 finetune 模型，而是直接使用在 MS COCO 資料集進行訓練。此階段隻保留 person 類别。門檻值設為 0.1，目的是盡可能多地保留 proposal。

b. 對執行個體分割的 mask 進行後處理

如下左圖所示，現有 instance segmentation 的方法産生的 mask 分辨率低，邊緣粗糙。我們采用語義分割模型對 DetectoRS 産生的結果進行 refine（image+mask ->HRnet -> refined mask）, 結果如下圖。可以看出掩碼圖中的物體邊緣以及細節都有了明顯的改善。

圖 4. 檢測器（DetectoRS）輸出掩碼圖（上）與 refine 後掩碼圖（下）

c. 幀間進行資料關聯，得到初步結果

利用 STM 将 t-1 幀的 mask warp 到 t 幀，這樣就可以利用 warp 後的 mask 和第 t 幀的分割結果進行比對。通過這個過程，補償了運動等問題産生的影響，穩定性更高。具體的，對于首幀物體，我們保留置信度大于 0.8 的 proposal。對第 t-1 幀和第 t 幀做資料關聯時，首先利用 STM 将第 t-1 幀的結果 warp 到第 t 幀。然後用匈牙利算法對 warp 後的 mask 和第 t 幀由 DetectRS 生成的 proposal 進行二部圖比對。

d. 篩選分割結果較好的幀作為 key frames 進行疊代優化

經上述資料關聯以後，我們已經得到了初步的無監督 VOS 結果，其中每幀的 mask 是由 DetectRS 生成，id 是由資料關聯決定。但是這個結果存在很多問題，還可以進一步優化。比如說視訊開始處出現的漏檢無法被補上。如下圖所示，左側的人在視訊開始處不易被檢測，直到第 10 幀才被檢測出來。另外，視訊中人體交疊嚴重處分割品質要遠低于人體距離較大處。

是以，我們可以根據物體數量，bbox 的交疊程度等資訊篩選出一些可能分割較好的幀作為下一輪優化的 reference。具體的，我們可以利用篩選出來的 key frames 作為初始 memory，用 STM 進行雙向預測。首先雙向預測可以解決視訊開始處的漏檢，其次 STM 對于遮擋等問題的處理也要好過單幀的執行個體分割。經實驗驗證，每疊代一次 STM 雙向預測，名額都有小幅度提升。

視訊目标（人物）分割（Video Object Segmentation，簡稱為 VOS）算法是業界公認的技術重點難點，同時又有着最為廣泛的落地場景和應用需求。相信參與本屆 “新内容新互動 “全球視訊雲創新挑戰賽算法賽道的選手，将以視訊目标分割為起點，利用計算機視覺算法領域的諸多技術，為行業和大衆打造更加智能化、便捷化、趣味化的視訊服務。

「視訊雲技術」你最值得關注的音視訊技術公衆号，每周推送來自阿裡雲一線的實踐技術文章，在這裡與音視訊領域一流工程師交流切磋。

1 秒鐘打造智能化視訊内容生産利器

冠軍方案算法詳解

繼續閱讀

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希