CVPR 2021 | 騰訊AI Lab入選論文解讀

本文轉載自騰訊AI實驗室

CVPR（Conference on Computer Vision and Pattern Recognition）是計算機視覺三大頂會之一，也是中國計算機學會推薦的人工智能領域的A類會議。

CVPR 2021 接收結果已于本月公布。今年有效投稿多達7500篇，一共有1663篇論文被接收，接收率為27%。其中騰訊 AI Lab 入選13篇，涵蓋自監督表征學習、視覺内容生成、多模态了解與生成、3D感覺、對抗攻防等方向。以下為論文解讀。

自監督表征學習

自監督表征學習的研究場景為如何利用海量資料，在不經過人工标注的情況下，學習骨幹網絡進而對資料進行普适的表征。對資料良好的表征對于後續一系列的識别任務均有重要的影響。近兩年，針對自然圖像的表征學習引起了廣泛關注。然而少有研究工作關注于視訊以及三維資訊的表征學習。今年有2篇表征學習的工作被接收。其中一篇關注于時序連續性的視訊表征學習。另一篇關注于三維手部資訊的重建任務。

1. 利用時序對抗樣本進行對比視訊表征學習

VideoMoCo: Constrastive Video Representation Learning with Temporally Adversarial Examples

本文由騰訊 AI Lab 獨立完成。動量對比對自監督圖像表征學習十分有效。本文提出視訊動量對比來進行視訊的表征學習。針對一段輸入視訊，我們從兩個角度提升動量對比的方法。

第一，我們引入一個生成器進而進行時序上剔除若幹幀的操作。對應的判别器應學會編碼相似的表征進而克服缺幀的影響。

第二，我們采用一種時序衰減的方式來模拟在對抗學習中隊列中元素的衰弱。由于動量編碼器在元素入隊列後進行更新，當我們利用這些元素進行對比學習的時候，其表征會逐漸衰弱。

我們利用時序衰弱來模拟這些表征的衰弱，進而使得輸入樣本更關注于隊列中最新的一些樣本。通過以上兩種方式，我們提升了視訊的時序表征能力，在實驗中取得了不錯的效果。

CVPR 2021 | 騰訊AI Lab入選論文解讀

2. 通過自我監督學習進行基于模型的3D手重建

Model-based 3D Hand Reconstruction via Self-Supervised Learning

本文由騰訊 AI Lab、武漢大學、紐約州立大學布法羅分校合作完成。重建三維人手模型對于人體行為分析和人機互動十分重要，而從單目圖像中重建三維人手是一個病态問題，因而目前大多數方法十分依賴于使用大量三維标注資料用于訓練神經網絡。

本文提出一種自監督三維手部重建架構，在不使用任何人工三維和二維标注的情況下訓練網絡，其可有效估計手部姿态、形狀、紋理和相機視角。基于此設定，本算法使用一個關鍵點檢測器得到訓練圖檔的含噪聲的二位關鍵點僞标簽，并通過三維模型與其二維投影的關系設定一系列自監督懲罰項來訓練網絡。

該算法第一次驗證了不使用人工标注訓練一個三維高精度人手重建網絡的可能性。在實驗資料集上，本研究提出的自監督算法實作了與最近的全監督算法相比較的精度。

CVPR 2021 | 騰訊AI Lab入選論文解讀

視覺内容生成

内容生成近些年為視覺任務中至關重要的方向。研究工作針對編碼器解碼器結構，利用生成對抗學習的思想不斷開拓解決一系列的視覺内容生成問題。今年有6篇該方向的文章被接收。其中做虛拟換裝2篇，圖像編輯和補洞2篇，圖像風格轉換和遷移2篇。

1. 無需解析，通過蒸餾外觀流的虛拟換裝

Parser-Free Virtual Try-on via Distilling Appearance Flows

本文由騰訊 AI Lab 主導，與香港大學合作完成。圖像虛拟換裝意在将目标衣服穿到目标人身上。先前的換裝方法嚴重依賴人體解析。進而使得有差錯的解析結果帶來不真實的并有瑕疵的換裝結果。最近有一項研究采用知識蒸餾的方法減少對人體解析的依賴，然而蒸餾的“學生”網絡仍然受到了解析模型的影響。

為了解決這個問題，我們提出了老師-助教-學生的知識蒸餾網絡。其将解析的方法産生的僞圖作為助教資訊，這張僞圖中的瑕疵可以被真是的老師資訊進行修正。老師資訊則可以通過自監督的方式從真人圖像中提取出來。另外，我們通過對外觀流蒸餾的方式，提升的衣服圖像和人物圖像的對應精度，在标準資料庫實驗中取得了不錯的效果。

CVPR 2021 | 騰訊AI Lab入選論文解讀

2. 利用可拆解的循環一緻性做高度逼真的虛拟換裝

Disentangled Cycle Consistency for Highly-realistic Virtual Try-On

本文由騰訊 AI Lab 主導，與香港大學，瑞士蘇黎世聯邦理工合作完成。圖像虛拟換裝意在替換圖像中人穿的衣服。這個任務的挑戰性在于人和衣服沒有配對資料進而無法進行有監督的學習。現有的方法通過内容填充或者原始的循環一緻性來解決，這兩種思路均是通過自監督的方法進行圖像重建。然後，這些方法并沒有區分衣服與非衣服區域，這樣一個籠統的生成機制使得效果有限。

作為對比，我們提出一個換衣的循環模型，其通過肢解圖像區域（衣服比對，皮膚生成和圖像合成）能夠産生真實性強的換裝效果。自此，我們的方法也是通過自監督的方式無須額外的資料源，并在資料集中驗證有效。

CVPR 2021 | 騰訊AI Lab入選論文解讀

3. 通過靈活的底層控制實作深度圖像編輯

DeFLOCNet: Deep Image Editing via Flexible Low-level Controls

本文由騰訊 AI Lab、香港城市大學、湖南大學、虎牙合作完成。在圖像編輯場景中，使用者會将期望的視覺内容填充到輸入圖像的空洞區域中。粗糙的底層輸入通常由稀疏的草圖線和彩色點組成，傳達使用者建立内容的意圖（即自由形式編輯）。盡管現有的方法将輸入圖像和底層控制資訊作為神經網絡的輸入，但其對應的特征無法充分的代表使用者的意圖，導緻期望的内容無法準确生成。

本文提出一個解決該問題的方法。不同于先前的将底層控制與輸入圖像相結合的方式，我們将這些控制直接注入神經網絡中進行特征空間内的結構生成和顔色傳播。然後我們将這些修改後的特征與最初的解碼器特征進行結合進行結構的生成。

同時，我們引入另外一個支路進行紋理的修複。結構和紋理同時在解碼器中進行合成，可以産生使用者期望的内容效果。我們的方法在實驗中得到了理想的成果。

CVPR 2021 | 騰訊AI Lab入選論文解讀

4. 利用機率多樣化生成對抗學習做圖像補洞

PD-GAN: Probabilistic Diverse GAN for Image Inpainting

本文由騰訊 AI Lab、香港城市大學、湖南大學、虎牙合作完成。我們針對圖像補洞，提出一種機率多樣的對抗學習方法。對于一張有缺失的輸入圖像，我們的方法可以産生内容多樣且均現實的内容。我們的方法由原始的對抗學習衍生出來。

在圖像生成過程中，我們層次的調制輸入噪聲的深度特征。調制的方法由輸入一個初始複原的圖像和孔洞區域組成。我們注意到在補洞過程中，在孔洞附近的像素内容應确定而孔洞中心的内容應該更随機。至此，我們提出空間機率多樣的歸一化方法來确定孔洞區域的内容資訊。

我們的方法可以在孔洞區域動态調整多樣性和一緻性，進而使得孔洞中心内容更多樣，同時孔洞邊緣内容與圖像内容更一緻。同時，我們提出一個感覺多樣的損失來增強内容多樣性的生成。實驗證明，我們提出的方法在圖像修複場景能有效實作多樣性和真實性。

CVPR 2021 | 騰訊AI Lab入選論文解讀

5. 藝術流：通過可逆的神經網絡流實作無偏的圖像風格轉換

ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

本文由騰訊 AI Lab 主導，與羅徹斯特大學、百度研究院合作完成。普适的風格轉換會将任意的藝術風格從參考圖像轉換到目标圖像上。最近風格轉換的方法在風格化和普适性方面均取得的不錯的效果。然而，這些方法會洩露圖像内容資訊。

為了解決這個問題，我們提出了一個新穎的風格轉換方法稱為藝術流。其由可逆的神經網絡流和一個無偏的特征轉換子產品構成。藝術流支援前向和逆向的預測，并且以一個投影轉換和可逆的模式工作。在前向預測的過程中，圖像被提取深度特征，這些特征在逆向的過程中能夠無偏無損失的複原回圖像。

大量的實驗證明，我們提出的藝術流方法能夠獲得跟目前前沿風格轉換算法差不多的效果，同時可以避免内容洩露帶來的問題。

CVPR 2021 | 騰訊AI Lab入選論文解讀

6. 非監督圖像域轉換風格隐空間平滑方法

Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation

本文由騰訊 AI Lab 與意大利特倫托大學合作完成。圖像到圖像多域轉換的模型通常會使用視覺語義上的圖像插值品質進行評價。但是，最新的模型通常會在垮圖像域插值過程中呈現出明顯的跳變或不真實的問題。

本文提出一種新的優化訓練方法，即使用三種特殊損失代價函數，幫助模型在訓練過程中學習到平滑且可分的圖像風格隐空間，進而達到：

1）圖像域内和域間插值過程中生成圖像平滑漸變；

2）輸入圖像的主要内容資訊能夠較好保持。

此外，我們還提出一種新的評價測度，用來衡量圖像風格隐空間的平滑程度。本文提出的方法可以直接應用到已有圖像域轉換模型。多個資料集上的實驗結果表明，本文所提出的方法能夠生成高品質的平滑漸變的插值圖像結果。

CVPR 2021 | 騰訊AI Lab入選論文解讀

多模态了解與生成

多模态研究的是如何同時基于視訊、圖像、文本、語音等不同模态的資料進行學習，這類技術能讓 AI 更全面地學習有關這個世界的知識，也是以被認為是 AI 發展的未來方向，在自動駕駛、機器人、醫療和數字助理等領域都有重要的應用前景。今年有 3 篇相關論文被接收，其涵蓋的主題主要是圖像與文本的多模态了解與生成。

1.一種基于知識蒸餾的弱監督圖像文本比對模型

Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation

本文由騰訊 AI Lab 主導完成。弱監督的圖像文本比對旨在學習僅使用圖像句子的對應來得到細顆粒度的圖像區域和短語的對應. 是以，主要的挑戰在于訓練期間圖像區域和句子短語之間缺少比對的資料。

為了應對這一挑戰，我們在訓練時利用了通用的物體檢測器知識蒸餾，并提出了利用對比學習來得到圖像和文本細顆粒度比對的新方法。我們的方法在弱監督的視覺區域和短語比對任務上超越了以前的方法。

CVPR 2021 | 騰訊AI Lab入選論文解讀

2. 針對場景圖生成語義模糊性的機率性模組化

Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation

本文由騰訊 AI Lab 主導，與清華大學、電子科技大學、香港中文大學（深圳）合作完成。為了生成“精确”表述的場景圖，幾乎所有現有的方法都以确定性的方式預測成對關系，我們認為視覺關系在語義上往往具有模糊歧義性。

具體來說，受語言學知識的啟發，我們将歧義分為三類：同義歧義、上下義歧義和多視點歧義。這種模糊性自然會導緻隐性多标簽問題，也激發了對預測多樣性的需求。在這項工作中，我們提出了一個新的即插即用機率不确定性模組化（PUM）子產品。它将每個聯合區域模組化為高斯分布，其方差度量相應視覺内容的不确定性。與傳統的确定性方法相比，這種不确定性模組化帶來了特征表示的随機性，使得預測具有多樣性。作為一個副産品，PUM還能夠覆寫更細粒度的關系，進而減輕對頻繁關系的偏見。

在大規模視覺資料集上的大量實驗表明，将PUM與新提出的ResCAGCN相結合可以在平均召回度量下獲得最佳性能。此外，我們通過将PUM插入到一些現有模型中，證明了PUM的普适性，文中也對其生成多樣化但合理的視覺關系的能力進行了深入分析。

CVPR 2021 | 騰訊AI Lab入選論文解讀

3. 基于特定動詞語義的可控圖像描述生成

Human-like Controllable Image Captioning with Verb-specific Semantic Roles

本文由騰訊 AI Lab 主導，與哥倫比亞大學、浙江大學、騰訊TEG資料平台部合作完成。過去幾年來，可控圖像描述生成（Controllable Image Captioning, CIC）——根據指定的控制信号生成圖像描述——受到了前所未有的關注。為了模仿人類控制描述生成的能力，目前的CIC研究隻關注與客觀屬性（例如感興趣的内容或描述模式）有關的控制信号。

然而，我們認為幾乎所有現有的客觀控制信号都忽略了理想控制信号的兩個不可或缺的特征：（1）事件相容性：在一個句子中提到的所有視覺内容都應該與所描述的活動相容；（2）樣本适合性：控制信号應适合于特定的圖像樣本。

為此，我們提出了一種新的CIC控制信号：特定動詞語義角色（Verb-specific Semantic Roles, VSR）。VSR由一個動詞和一些語義角色組成，它們表示目标活動和該活動中涉及的實體的角色。在給定VSR條件下，我們首先訓練一個語義角色定位标注（Grounded Semantic Role Labeling）模型來識别和定位每個角色的所有實體。

然後，我們提出了一種語義結構規劃器（Semantic Structure Planner）來學習類似人的描述的語義結構。最後，我們用基于循環神經網絡的角色轉換描述生成模型來生成描述。

大量的實驗表明，在兩個具有挑戰性的CIC基準測試中，我們的架構比幾個強大的基準模型有更好的控制效果。此外，我們還可以輕松地生成多層次多樣的描述。

CVPR 2021 | 騰訊AI Lab入選論文解讀

對抗攻防

安全性為伴随深度學習網絡結構發展而衍生出的問題。如何讓網絡能夠抵禦人為的誤導，對深度學習的發展影響很大。今年有2篇該方向的文章被接收。其中1篇為首次在視覺跟蹤中提出黑盒對抗攻擊的方法，展示現有視覺跟蹤算法的局限性，呼籲更多的研究關注這個方向。另外1篇為提取人臉高頻資訊進而能夠辨識人臉圖像是否有僞造過的痕迹，該方法具有很強的泛化性，能夠适用于識别一系列的人臉僞造算法。

1. 交并比攻擊：針對目标跟蹤的時序連貫的黑盒對抗攻擊

IoU Attack: Towards Temporally Coherent Black-Box Adversarial Attack for Visual Object Tracking

本文由騰訊 AI Lab 與上海交通大學合作完成。對抗攻擊由分析神經網絡的脆弱性衍生而來。最近，對抗性攻擊已應用于視覺對象跟蹤，以評估深度跟蹤器的魯棒性。目前的對抗攻擊方法都是基于白盒的，即假設網絡結構和參數已知。然而，實際應用場景中跟蹤器的結構往往是未知的。

本文提出了一個針對目标跟蹤的黑盒攻擊方法。跟先前針對靜态圖像的黑盒攻擊方法不同，我們提出交并比攻擊進而能夠基于預測的交并比分數來産生對抗擾動。除此之外，我們将目前幀産生的擾動遷移到後續幀進行時序運動攻擊的初始化操作。在基準資料集上進行的大量實驗表明，所提出的IoU攻擊方法是有效的。

CVPR 2021 | 騰訊AI Lab入選論文解讀

2. 基于高頻特征的可泛化人臉僞造檢測

Generalizing Face Forgery Detection with High-frequency Features

本文由騰訊 AI Lab 主導，與上海交通大學合作完成。當被應用于檢測與訓練時相同的算法僞造的人臉時，目前的人臉僞造檢測方法已經獲得較高的準确率。然而，在跨資料集檢測（待檢測的僞造人臉是由與訓練時不同的算法僞造的）的場景下，現有的檢測方法尚未取得滿意的性能。我們分析發現目前基于CNN的檢測方法傾向于過度拟合到某種造假算法所特有的紋理模式，因而缺乏泛化能力。

我們觀察到圖像的高頻噪聲不僅去除了顔色紋理，還暴露了真實和篡改區域之間的差異，是以利用高頻噪聲來提高人臉僞造檢測器的泛化能力。

為了充分利用圖像的高頻特征，我們精心設計了三個子產品。一是多尺度高頻特征提取子產品，該子產品在多個尺度上提取高頻噪聲，以構成新的模态資訊。二是殘差引導的空間注意子產品，該子產品從新的角度引導底層的RGB特征提取器更加專注于僞造痕迹。三是跨模态注意力子產品，該子產品利用兩個互補模态之間的相關性來促進彼此的特征學習。在多個基準資料集的實驗表明我們所提出的檢測模型具有優越的泛化性能。

CVPR 2021 | 騰訊AI Lab入選論文解讀

END

CVPR 2021 | 騰訊AI Lab入選論文解讀

備注：CVPR

CVPR 2021 | 騰訊AI Lab入選論文解讀

CVPR2021交流群

更多CVPR論文等最新資訊，若已為CV君其他賬号好友請直接私信。

我愛計算機視覺

微信号:aicvml

QQ群:805388940

微網誌知乎:@我愛計算機視覺

投稿:[email protected]

網站:www.52cv.net

CVPR 2021 | 騰訊AI Lab入選論文解讀

在看，讓更多人看到

CVPR 2021 | 騰訊AI Lab入選論文解讀

CVPR 2021 | 騰訊AI Lab入選論文解讀

繼續閱讀

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普