1. 引言

10月11-17日，萬衆期待的國際計算機視覺大會 ICCV 2021 (International Conference on Computer Vision) 線上上如期舉行，受到全球計算機視覺領域研究者的廣泛關注。

今年阿裡雲多媒體 AI 團隊（由阿裡雲視訊雲和達摩院視覺團隊組成）參加了 MFR 口罩人物身份鑒别全球挑戰賽，并在總共5個賽道中，一舉拿下1個冠軍、1個亞軍和2個季軍，展現了我們在人物身份鑒别領域深厚的技術積澱和業界領先的技術優勢。

2. 競賽介紹

MFR口罩人物身份鑒别全球挑戰賽是由帝國理工學院、清華大學和InsightFace.AI聯合舉辦的一次全球範圍内的挑戰賽，主要為了解決新冠疫情期間佩戴口罩給人物身份鑒别算法帶來的挑戰。競賽從6月1日開始至10月11日結束，曆時4個多月，共吸引了來自全球近400支隊伍參賽，是目前為止人物身份鑒别領域規模最大、參與人數最多的權威賽事。據官方統計，此次競賽收到的總送出次數超過10000次，各支隊伍競争異常激烈。

2.1 訓練資料集

此次競賽的訓練資料集隻能使用官方提供的3個資料集，不允許使用其它額外資料集以及預訓練模型，以保證各算法對比的公平公正性。官方提供的3個資料集，分别是ms1m小規模資料集、glint360k中等規模資料集和webface260m大規模資料集，各資料集包含的人物ID數和圖檔數如下表所示：

2.2 評測資料集

此次競賽的評測資料集包含的正負樣本對規模在萬億量級，是目前業界規模最大、包含資訊最全的權威評測資料集。值得注意的是所有評測資料集均不對外開放，隻提供接口在背景進行自動測評，避免算法過拟合測試資料集。

InsightFace賽道評測資料集的詳細統計資訊如下表所示：

WebFace260M賽道評測資料集的詳細統計資訊如下表所示：

2.3 評測名額

此次競賽的評測名額不僅有性能方面的名額，而且還包含特征次元和推理時間的限制，是以更加貼近真實業務場景。詳細的評測名額如下表所示：

3. 解決方案

下面，我們将從資料、模型、損失函數等方面，對我們的解決方案進行逐一解構。

3.1 基于自學習的資料清洗

衆所周知，人物身份鑒别相關的訓練資料集中廣泛存在着噪聲資料，例如同一人物圖檔分散到不同人物ID下、多個人物圖檔混合在同一人物ID下，資料集中的噪聲會對識别模型的性能産生較大影響。針對上述問題，我們提出了基于自學習的資料清洗架構，如下圖所示：

首先，我們使用原始資料訓練初始模型M0，然後使用該模型進行特征提取、ID合并、類間清洗和類内清洗等一系列操作。對于每個人物ID，我們使用DBSCAN聚類算法去計算中心特征，然後使用中心特征進行相似度檢索，這一步使用的高維向量特征檢索引擎是達摩院自研的Proxima，它可以快速、精準地召回Doc中與Query記錄相似度最高的topK個結果。緊接着，我們使用清洗完成的資料集，訓練新的模型M1，然後重複資料清洗及新模型訓練過程，通過不斷進行疊代自學習方式，使得資料品質越來越高，模型性能也随之越來越強。具體來看，類間清洗和類内清洗的示意圖如下圖所示：

值得注意的是，我們的清洗流程中先進行類間清洗、再進行類内清洗，與CAST[1]資料清洗架構不同，這樣在完成類間清洗後可以更新新的ID中心特征，使得整個清洗過程更加完備，清洗效果也更好。為了驗證資料清洗對最終性能的影響，我們在ms1m資料集上做了一系列對比實驗，結果如下表所示：

表中的門檻值指的是類内清洗的相似度門檻值，可以看出當門檻值設定過低（如0.05）時，噪聲沒有被清洗幹淨，是以性能表現不是最佳；而當門檻值設定過高（如0.50）時，噪聲被清洗的同時難樣本也被清洗了，導緻模型泛化能力變弱，在評測資料集上性能反而下降。是以選擇一個中間門檻值0.25，既清洗了大量噪聲，又保留了困難樣本，在各項評測名額上均達到最佳性能。此外，我們還畫出了不同相似度門檻值與剩餘圖檔數的關系，如下圖所示：

3.3 戴口罩資料生成

為解決戴口罩資料不足的問題，一種可行的方案是在已有的無口罩圖像上繪制口罩。然而，目前大部分的繪制方案屬于位置貼圖式，這種方案生成的戴口罩圖像不夠真實且缺乏靈活性。是以，我們借鑒PRNet[2,3]的思路，采用一種圖像融合方案[4]來擷取更符合真實情況的戴口罩圖像，如下圖所示，

該方案的原理是将口罩圖像和原圖像通過3D重建分别生成UV Texture Map，然後借助紋理空間合成戴口罩圖像。在資料生成過程中，我們使用了8種類型的口罩，意味着我們可在已有的資料集上對應生成8種不同風格的戴口罩圖像。基于UV映射的方案克服了傳統平面投影方式中原圖像和口罩圖像間的不理想銜接和變形等問題。此外，由于渲染過程的存在，戴口罩圖像可以獲得不同的渲染效果，比如調整口罩角度及光照效果等。生成的戴口罩圖像示例如下圖所示：

在生成戴口罩資料訓練模型的過程中，我們發現戴口罩資料的比例對模型性能有不同程度的影響。是以，我們将戴口罩資料占比分别設定為5%、10%、15%、20%和25%，實驗結果如下表所示：

從上表中發現，當戴口罩資料比例為5%時，模型在MR-ALL評測集上的性能最高；當戴口罩資料比例調整至25%時，對Mask戴口罩評測集的性能提升明顯，但在MR-ALL上的性能下降明顯。這說明當混合戴口罩資料和正常資料進行訓練時，其比例是影響模型性能的重要參數。最終，我們選擇戴口罩資料比例為15%，在戴口罩和正常資料上的性能達到一個較好平衡。

3.4 基于NAS的骨幹網絡

不同骨幹網絡對特征提取的能力差異較大，在人物身份鑒别領域，業界常用的基線骨幹網絡是在ArcFace[5]中提出的IR-100。在此次競賽中，我們采用達摩院提出的Zero-shot NAS (Zen-NAS[6]) 範式，在模型空間搜尋具有更強表征能力的骨幹網絡。Zen-NAS差別于傳統NAS方法，它使用Zen-Score代替搜尋模型的性能評測分數，值得注意的是Zen-Score與模型最終的性能名額成正比關系，是以整個搜尋過程非常高效。Zen-NAS的核心算法結構如下圖所示：

我們基于IR-SE基線骨幹網絡，使用Zen-NAS搜尋3個模型結構相關的變量，分别是：Input層的通道數、Block層的通道數和不同Block層堆疊的次數，限制條件是搜尋出的骨幹網絡滿足各賽道的推理時間限制。一個有趣的發現是：Zen-NAS搜尋出的骨幹網絡，在ms1m小資料集賽道上的性能表現與IR-SE-100幾乎無差異，但在WebFace260M這樣的大資料集賽道，性能表現會明顯優于基線。原因可能是搜尋空間增大後，NAS可搜尋的範圍随之增大，搜尋到更強大模型的機率也随之增加。

3.5 損失函數

此次競賽我們采用的基線損失函數為Curricular Loss[7]，該損失函數在訓練過程中模拟課程學習的思想，按照樣本從易到難的順序進行訓練。然而，由于訓練資料集通常是極度不平衡的，熱門人物包含的圖檔數多達數千張，而冷門人物包含的圖檔數往往隻有1張。為解決資料不均衡帶來的長尾問題，我們将Balanced Softmax Loss[8]的思想引入Curricular Loss中，提出一個新的損失函數：Balanced Curricular Loss，其表達式如下圖所示：

在ms1m賽道上，我們對比了Balanced Curricular Loss (BCL) 與原始Curricular Loss (CL) 的性能，結果如下表所示：

可以看出Balanced Curricular Loss相對于Curricular Loss，無論在Mask還是MR-ALL上的名額均有較大幅度的提升，充分證明了其有效性。

3.6 知識蒸餾

由于此次比賽對模型的推理時間有限制，模型逾時會被直接取消成績。是以，我們采用知識蒸餾的方式，将大模型強大的表征能力傳遞給小模型，然後使用小模型進行推理，以滿足推理時間的要求。此次競賽我們采用的知識蒸餾架構如下圖所示：

其中，蒸餾損失采用最簡單的L2 Loss，用以傳遞教師模型的特征資訊，同時學生模型使用Balanced Curricular Loss訓練，最終的損失函數是蒸餾損失與訓練損失的權重和。經過知識蒸餾後，學生模型在評測資料集上的部分名額，甚至超過了教師模型，同時推理時間大大縮短，在ms1m小資料集賽道的性能有較大提升。

3.7 模型和資料同時并行

WebFace260M大資料集賽道的訓練資料ID數量>200萬、總圖檔數>4000萬，導緻傳統的多機多卡資料并行訓練方式已難以容納完整的模型。Partial FC[9]采用将FC層均勻分散到不同GPU上，每個GPU負責計算存儲在自己顯存單元的sub FC層結果，最終通過所有GPU間的同步通信操作，得到近似的full FC層結果。Partial FC的示意圖如下所示：

采用Partial FC，可同時使用模型并行與資料并行，使得之前無法訓練的大模型可以正常訓練，另外可采用負樣本采樣的方式，進一步加大訓練的batch size，縮短模型訓練周期。

3.8 其它技巧

在整個競賽過程中，我們先後嘗試了不同資料增強、标簽重構及學習率改變等政策，其中有效的政策如下圖所示：

4. 競賽結果

此次競賽我們mind_ft隊在InsightFace和WebFace260M共5個賽道中獲得1個冠軍（WebFace260M SFR）、1個亞軍（InsightFace unconstrained）和2個季軍（WebFace260M Main和InsightFace ms1m）。其中，WebFace260M賽道官方排行榜的最終結果截圖如下所示：

在競賽結束之後的Workshop中，我們受邀在全球範圍内分享此次競賽的解決方案。此外，我們在此次競賽中投稿的論文，也被同步收錄于ICCV 2021 Workshop[10]。最後，展示一下我們在此次競賽中收獲的榮譽證書：

5. EssentialMC2介紹與開源

EssentialMC2，實體時空關系推理多媒體認知計算，是達摩院MinD-數智媒體組對于視訊了解技術的一個長期研究結果沉澱的核心算法架構。核心内容包括表征學習MHRL、關系推理MECR2和開集學習MOSL3三大基礎子產品，三者分别對應從基礎表征、關系推理和學習方法三個方面對視訊了解算法架構進行優化。基于這三大基礎子產品，我們總結了一套适合于大規模視訊了解算法研發訓練的代碼架構，并進行開源，開源工作中包含了組内近期發表的優秀論文和算法賽事結果。

essmc2是EssentialMC2配套的一整套适合大規模視訊了解算法研發訓練的深度學習訓練架構代碼包，開源的主要目标是希望提供大量可驗證的算法和預訓練模型，支援使用者以較低成本快速試錯，同時希望在視訊了解領域内建立一個有影響力的開源生态，吸引更多貢獻者參與項目建設。essmc2的主要設計思路是“配置即對象”，通過簡要明了的配置檔案配合注冊器的設計模式（Registry），可以将衆多模型定義檔案、優化器、資料集、預處理pipeline等參數以配置檔案的形式快速構造出對象并使用，本質上貼合深度學習的日常使用中不斷調參不斷實驗的場景。同時通過一緻性的視角實作單機和分布式的無縫切換，使用者僅需定義一次，便可在單機單卡、單機多卡、分布式環境下進行切換，同時實作簡單易用與高可移植性的特性。

目前essmc2的開源工作已經釋出了第一個可用版本，歡迎大家試用，後續我們會增加更多算法和預訓練模型。連結位址：

https://github.com/alibaba/EssentialMC2

。

6. 産品落地

随着網際網路内容的視訊化以及VR、元宇宙等應用的興起，非結構化視訊内容數量正在高速增長，如何對這些内容進行快速識别、準确了解，成為内容價值挖掘關鍵的一環。

人物是視訊中的重要内容，高精度的視訊人物身份鑒别技術，能夠快速提取視訊人物關鍵資訊，實作人物片段剪輯、人物搜尋等智能應用。另外，對于視訊的視覺、語音、文字多元度内容進行分析了解，識别人、事、物、場、辨別等更豐富的視訊内容實體标簽，可形成視訊結構化資訊，幫助更全面地提取視訊關鍵資訊。

更進一步，結構化的實體标簽作為語義推理的基礎，通過多模态資訊融合，幫助了解視訊核心内容，實作視訊内容高層語義分析，進而實作類目、主題了解。

阿裡雲多媒體 AI 團隊的高準确率人物身份鑒别及視訊分析技術，已內建于EssentialMC2核心算法架構，并進行産品化輸出，支援對視訊、圖像的多元度内容進行分析了解并輸出結構化标簽（點選進行體驗：Retina視訊雲多媒體 AI 體驗中心-智能标簽産品

https://retina.aliyun.com/#/Label

）。

多媒體AI産品

智能标簽産品通過對視訊中視覺、文字、語音、行為等資訊進行綜合分析，結合多模态資訊融合及對齊技術，實作高準确率内容識别，綜合視訊類目分析結果，輸出貼合視訊内容的多元度場景化标簽。

類目标簽：實作視訊内容高層語義分析，進而實作類目、主題的了解，視訊分類标簽，分為一級、二級和三級類目，實作媒資管理及個性化推薦應用。

實體标簽：視訊内容識别的實體标簽，次元包括視訊類目主題、影視綜漫IP、人物、行為事件、物品、場景、辨別、畫面标簽，同時支援人物、IP的知識圖譜資訊。其中，影視綜漫的IP搜尋基于視訊指紋技術，将目标視訊與庫内的影視綜等資源進行指紋比對檢索，支援6萬餘部電影、電視劇、綜藝、動漫、音樂的IP識别，可分析識别出目标視訊内容中包含哪一部電影、電視劇等IP内容，幫助實作精準的個性化推薦、版權檢索等應用。基于優酷、豆瓣、百科等各類型資料，建構了涵蓋影視綜、音樂、人物、地标、物體的資訊圖譜，對于視訊識别命中的實體标簽，支援輸出知識圖譜資訊，可用于媒資關聯及相關推薦等應用。

關鍵詞标簽：支援視訊語音識别及視訊OCR文字識别，結合NLP技術融合分析語音及文字的文本内容，輸出與視訊主題内容相關的關鍵詞标簽，用于精細化内容比對推薦。

完善的标簽體系、靈活的定制化能力

智能标簽産品綜合優酷、洋芋、UC海外等平台的PGC、UGC視訊内容進行學習、訓練，提供最全面完善、高品質的視訊标簽體系。在提供通用的标簽類目體系外，支援開放多層面定制化的能力，支援人臉自注冊、自定義實體标簽等擴充功能；面向客戶特定标簽體系的業務場景，采用标簽映射、定制化訓練等方式，提供一對一的标簽定制服務，更有針對性地幫助客戶解決平台的視訊處理效率問題。

高品質人機協同服務

針對要求準确的業務場景，智能标簽産品支援引入人工互動判斷，形成高效、專業的人機協同平台服務，AI識别算法與人工相輔相成，提供面向個性化業務場景的精準視訊标簽。

人機協同體系具備先進的人機協同平台工具、專業的标注團隊，通過人員教育訓練、試運作、質檢、驗收環節等标準化的傳遞管理流程，確定資料标注品質，幫助快速實作高品質、低成本的标注資料服務。通過AI算法+人工的人機協同方式，提供人工标注服務作為AI算法的補充和修正，確定精準、高品質的服務輸出結果，實作業務效率和使用者體驗的提升。

體育行業和影視行業的視訊标簽識别

傳媒行業和電商行業的視訊标簽識别

以上能力均已內建到阿裡雲視訊雲智能标簽産品，提供高品質的視訊分析及人機協同服務，歡迎大家了解及體驗試用（智能标簽産品

），搭建更高效、智能化的視訊業務應用。

參考文獻：

[1] Zheng Zhu, et al. Webface260m: A benchmark unveilingthe power of million-scale deep face recognition. CVPR 2021.

[2] Yao Feng, et al. Joint 3d face reconstruction and dense alignment with position map regression network. ECCV, 2018.

[3] Jun Wang et al. Facex-zoo: A pytorch toolbox for face recognition. _arxiv_, abs/2101.04407, 2021.

[4] Jiankang Deng et al. Masked Face Recognition Challenge: The InsightFace Track Report. arXiv, abs/2108.08191, 2021.

[5] Jiankang Deng, et al. Arcface: Additive angular margin loss for deep face recognition. CVPR 2019.

[6] Ming Lin, et al. Zen-NAS: A Zero-Shot NAS for High-Performance Image Recognition. ICCV 2021.

[7] Yuge Huang et al. Curricularface: Adaptive curriculum learning loss for deep face recognition. CVPR 2020.

[8] Jiawei Ren et al. Balanced meta-softmax for long-tailed visual recognition. NeurIPS, 2020.

[9] Xiang An, et al. Partial fc: Training 10 million identities on a single machine. ICCV 2021.

[10] Tao Feng, et al. Towards Mask-robust Face Recognition. ICCV 2021.

掃碼入群和作者一起探讨音視訊技術

擷取更多視訊雲行業最新資訊👇

「視訊雲技術」你最值得關注的音視訊技術公衆号，每周推送來自阿裡雲一線的實踐技術文章，在這裡與音視訊領域一流工程師交流切磋。公衆号背景回複【技術】可加入阿裡雲視訊雲産品技術交流群，和業内大咖一起探讨音視訊技術，擷取更多行業最新資訊。

ICCV 2021口罩人物身份鑒别全球挑戰賽冠軍方案分享1. 引言2. 競賽介紹3. 解決方案4. 競賽結果5. EssentialMC2介紹與開源6. 産品落地

1. 引言

2. 競賽介紹

2.1 訓練資料集

2.2 評測資料集

2.3 評測名額

3. 解決方案

3.1 基于自學習的資料清洗

3.3 戴口罩資料生成

3.4 基于NAS的骨幹網絡

3.5 損失函數

3.6 知識蒸餾

3.7 模型和資料同時并行

3.8 其它技巧

4. 競賽結果

5. EssentialMC2介紹與開源

6. 産品落地

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希