天天看點

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

本文轉載自微軟研究院AI頭條。

編者按:作為世界頂級的 AI 會議,CVPR 一直引領着計算機視覺與模式識别技術領域的學術與工業潮流。今年的 CVPR 于6月19日至25日線上上舉辦。在此,為大家精選了9篇微軟亞洲研究院被 CVPR 2021 收錄的論文,一覽計算機視覺領域的前沿研究。

用于三維重建的深度隐式移動最小二乘函數

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/pdf/2103.12266.pdf

代碼位址:https://github.com/Andy97/DeepMLS

三維重建是計算機視覺和深度學習的重要任務。到目前為止,三維重建按照其表達方式仍然主要分為兩大類:一類是顯式表達,以點雲為代表(也有生成網格和體素),由神經網絡直接回歸生成三維空間中的幾何元素;另一類是隐式表達(如 OccNet, NeRF),神經網絡隻是模組化三維物體的空間占用,需要後續的渲染或表面提取獲得顯式三維形狀。兩類方法各有優缺點:點雲靈活直覺、生成友善,但是無法表達高品質的幾何形狀;隐函數可以捕捉豐富的細節,但是隐式到顯式的轉換計算代價高昂。

為此,微軟亞洲研究院的研究員們提出了一種兼具點雲和隐函數表達優點的混合架構 IMLSNet,用于進行高品質、可泛化的三維重建。架構基于隐式移動最小二乘函數,其近似表達了點集定義的空間中三維形狀的符号距離函數,既具有隐函數光滑連續的品質,又具有點集表達的局部性和低計算複雜度,符合三維重建任務的要求。

為了生成混合點雲和隐函數的表達,研究員們設計了相适應的網絡結構和學習方法。首先,為了生成變長的點集,采用了“腳手架+點集”的兩步方法:第一步,生成一個空間自适應的八叉樹結構作為建構點集的腳手架;第二步,在腳手架的葉子節點中生成定義隐式移動最小二乘曲面的點集(如圖1所示)。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖1:方法概念示意圖。左圖:IMLSNet 通過神經網絡解碼生成了一個八叉樹的腳手架,在八叉樹的葉子節點進一步生成點集,通過隐式移動最小二乘函數定義隐式曲面。右圖:點集和點集定義的高品質三維曲面。

其次,為了訓練“腳手架+點集”的生成網絡,研究員們設計了完備的損失函數,用來監督八叉樹結構、隐函數表達的符号距離場、點集的均勻分布和規則性等。綜合以上設計,IMLSNet 模型取得了比最先進的隐函數表達學習方法更高的重建品質和更好的泛化能力(如圖2所示)。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖2:在未知類别物體上的結果比較。在這些訓練集合以外的物體類别上,IMLSNet 的結果品質高于對比方法,展示了良好的泛化能力。

LIRR:學習不變表征和風險

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/pdf/2010.04647.pdf

代碼位址:https://github.com/Luodian/Learning-Invariant-Representations-and-Risks

傳統的機器學習算法的成功極大程度上依賴于訓練資料和測試資料來源于相同的分布,但此假設在現實情況下通常并不成立。為了解決這個問題,大量現有的無監督域遷移算法(unsupervised domain adaptation, UDA)關注于學習域間一緻的特征,即域不變表征(domain-invariant representations),以及減小分類器在源域的誤差。

然而,最近的一些工作說明了這種方法無法保證在标簽分布遷移(label distribution shift)的情況下仍然有較好的分類效果。換句話說,UDA 無法解決某些情況下的源域誤差,但是通常可以在真實的環境中借助于人工标注獲得一部分的可标注資料,通過借用這部分的可标注資料可幫助解決域遷移的問題,這種情景被稱為半監督域遷移(semi-supervised domain adaptation, Semi-DA)。

面向 Semi-DA 場景,微軟亞洲研究院的研究員們提出了針對分類(classification)以及回歸(regression)問題的泛化誤差上界。泛化誤差上界的提出,揭示了解決源域的誤差應該考慮在特征空間同時拉近兩個域的邊緣分布和條件分布。受此啟發,研究員們提出了 Learning Invariant Representations and Risks算法,簡稱 LIRR。

LIRR 算法可同時對齊源域以及目标域在特征空間的分布,促進了特征層面的一緻性,即實作了不變表征(invariant representations),以及減小域不變預測器(domain-invariant predictor)和域感覺預測器 (domain-aware predictor)的預測誤差,進而使得當依賴于合适的特征時,訓練得到的域不變預測器的預測是條件無關的,即實作不變風險(invariant risks)。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖3:當模型關注于特征層面的對齊時,由于源最優分類器和目标域最優分類器的不一緻性,可能仍然存在被誤分類的樣本(如被标注紅色邊緣的樣本所示)。LIRR 的目标是同時學習一緻性特征以及域不變預測器和域感覺預測器的一緻性預測誤差,是以可以解決上述的誤分類情況。

LightTrack:超輕量化目标跟蹤網絡結構搜尋

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/abs/2104.14545

代碼位址:https://github.com/researchmm/LightTrack

随着深度神經網絡的不斷發展,目标跟蹤(Object Tracking)模型的精度得到大幅提升,但是與此同時,模型複雜度也變得越來越大。為了獲得“輕量化”的神經網絡,使得模型能在受限資源條件下實時運作,微軟亞洲研究院的研究員們提出了一種基于網絡結構搜尋的輕量化模型設計新方法。該方法搜尋出的輕量化網絡結構 LightTrack 取得了與目前主流跟蹤算法性能相當的準确率,但是其參數量與計算量卻比已有方法減小數十倍。

目前,主流的目标跟蹤模型由兩部分構成:基于 ImageNet 預訓練的、用于特征提取的骨幹網絡,和用于目标定位的預測頭部。這兩部分共同決定了跟蹤器的性能,是以研究員們将它們看作一個整體,在目标跟蹤資料集上聯合搜尋最适合跟蹤任務的“骨幹網絡-預測頭部”結構。此外,由于骨幹網絡需要在 ImageNet 上進行預訓練,而對所有可能的骨幹網絡結構分别獨立做 ImageNet 預訓練在計算量上是無法承受的,是以研究員們将所有可能的結構統一為一個超網,全部子網絡共享超網參數,并通過對超網進行預訓練來達到對所有子結構做預訓練的效果。搜尋過程可以用以下公式描述:

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

而為了減小模型的計算量和參數量,LightTrack 的骨幹網絡和預測頭部分别采用了“逆向殘差單元”(Inverted Residual Blocks)和“深度可分離卷積” (Depth-wise Separable Convolutions)作為核心子產品。對于逆向殘差單元,設定其卷積核大小有{3, 5, 7}三種選擇,通道倍增率有{4, 6}兩種選擇;而對于深度可分離卷積,設定其卷積核大小有{3, 5}兩種選擇,通道數有{128, 192, 256}三種選擇。與此同時,研究員們還通過加入短路連接配接(shortcut connection)允許預測頭部具有可變的深度。除此之外,關于“骨幹網絡産生的多層特征中,哪一層最适合目标跟蹤任務”這一問題,目前尚未有明确結論。在論文中,研究員們也将所要選取的層作為了一個可搜尋的變量,進一步增加了超網結構的多樣性。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表1:LightTrack 的搜尋空間

LightTrack 的搜尋流程包括三步:(1)主幹網絡超網預訓練,(2)目标跟蹤超網訓練,(3)利用進化算法從目标跟蹤超網中搜尋最優的子結構。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖4:LightTrack 的搜尋流程

當 LightTrack 與其他性能先進的跟蹤算法在 VOT2019 資料集上的精度、計算量、參數量進行綜合比較時,從圖5中可以看出,相比于之前性能最先進的 Ocean 算法,LightTrack 在取得與之比肩的性能的同時,僅用了其1/13的參數和1/38的計算量。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖5:VOT 2019 資料集上的精度、計算量、參數量綜合比較

研究員們還在多種資源有限的硬體平台上比較了 LightTrack 和其他性能先進的方法的運作速度,如圖6所示,LightTrack 的速度要比 Ocean 快5倍到17倍。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖6:在多種資源有限的平台上的運作速度比較

M3P:多語言多模态預訓練模型

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/abs/2006.02635

代碼位址:https://github.com/microsoft/M3P

近年來,預訓練技術已經在自然語言處理、計算機視覺等諸多領域中取得了新的突破。預訓練模型也開始擴充到了多語言場景和多模态場景。然而,在缺乏大規模資料的多語言多模态場景上,直接使用傳統預訓練技術進行預訓練是十分困難的。多語言場景下的預訓練語言模型由于隻接受僅包含語言資訊的單模态資料訓練,難以直接處理視覺的資訊;而多模态場景下的預訓練模型由于隻接受英文語料,在非英語的多語言場景下很難被應用。即便通過機器翻譯系統對資料進行擴充,低語言覆寫度與高資源消耗也難以被接受。模型訓練時缺乏顯式的視覺與非英語語言的對齊資訊,使得非英語的語言與視覺資訊的關系學習很難進行。

為了解決這兩個挑戰,微軟亞洲研究院的研究員們提出了 M3P,這是首個統一的多語言多模态預訓練模型。與此同時,研究員們還提出了多模态語碼切換訓練(MCT),一種有效的增強多語言遷移能力的訓練方式。

M3P 使用了類似 BERT 的自注意力 Transformer 結構,通過多任務學習可以讓預訓練階段同時優化多個目标。具體地,研究員們設定了兩個訓練目标——多語言訓練和多模态語碼切換訓練(MCT)。多語言訓練使用了隻包含文本的多語言語料訓練,而多模态語碼切換訓練則使用了僅用英文的文本-圖像對和通過語碼切換生成的多語言文本-圖像對訓練。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖7:M3P的模型概覽

實驗表明,M3P 在 MSCOCO 和 Multi30K 的多語言文本圖像檢索任務的非英語測試集上取得了新的 SOTA 結果,并在英語測試集上取得了與前人可比的結果。實驗還表明多模态語碼切換訓練(MCT)可以極大的增強模型在低資料場景上的表現。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表2:多語言文本圖像檢索任務結果

像素級别自監督方法PixPro 

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/abs/2011.10043

代碼位址:https://github.com/zdaxie/PixPro

基于對比學習的自監督表示學習過去一年在 ImageNet 線性評估上的性能不斷提升,但在物體檢測和語義分割上并未有太大改進。同時,執行個體級别對比學習本身對于密集預測下遊任務也并非最優選擇。

是以,微軟亞洲研究院提出了像素級别對比學習的 PixContrast 方法和挖掘像素級别一緻性的 PixPro 方法,大幅提升了自監督方法在檢測和分割下遊任務上的性能。PixPro 使用了 ResNet-50,在 Pascal VOC(C4),COCO (FPN/C4)和 Cityscapes 上分别取得了60.2 AP,41.4/40.5 mAP和77.2 mIoU的結果,分别比之前的最優方法提升了2.6 AP,0.8/1.0 mAP和1.0 mIoU。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖8:MoCo 後一年内自監督預訓練方法在 ImageNet-1K 線性評估上提升了15.6個點

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖9:MoCo 後一年内自監督預訓練方法在 Pascal VOC 物體檢測任務上提升了1.7個點,PixPro 一次帶來額外2.6個點的提升

ImageNet 線性評估準确率在過去一年内從60.6上升到了76.2,提升幅度達到了15.6,但 Pascal VOC 物體檢測的性能隻從55.9 AP上升到了57.6 AP,提升幅度僅有1.7 AP。這一現象首先反映了線性評估并不能完全揭示網絡對檢測、分割等密集預測下遊任務的遷移能力,其次是過去一年主流的執行個體級别對比學習方法未必适合遷移到檢測、分割這類要求密集預測的下遊任務上。

為此,PixContrast 把執行個體級别對比學習任務推廣到了像素級别,PixPro 則進一步引入了空間平滑性,通過設計像素到傳播一緻性任務來大幅提升自監督預訓練模型的遷移性能。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖10:從執行個體級别(Instance-level)對比學習到像素級别(Pixel-level)對比學習

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖11:像素級别對比學習(Pixel-level Contrastive Learning)和像素級别一緻性學習(PixPro)

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖12:PixPro 網絡結構

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖13:将帶有 FPN 結構的 FCOS 與 PixPro 相結合,讓 PixPro 有利于實作與下遊檢測任務更一緻的自監督預訓練

研究員們将 PixPro 和目前最先進的方法進行了比較實驗,如表3所示,PixPro 在物體檢測和分割的下遊任務上遠好于此前的圖像級别方法。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表3:系統級别結果比較

如表4所示,PixPro 還能使得更多的下遊任務網絡(例如 head)得到預訓練,以及和圖像級别的預訓練形成互補。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表4:PixPro 結合下遊任務網絡以及執行個體級别對比學習結果

如表5所示,PixPro 對于半監督物體檢測也有所幫助。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表5:PixPro 半監督訓練結果

ProDA:新型無監督域自适應(UDA)技術

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/abs/2101.10979

代碼位址:https://github.com/microsoft/ProDA

在過去幾年,深度學習在各種實際任務上都取得了巨大的成功。然而,深度學習往往需要從大量有标注的資料中學習足夠的知識才能在實際任務中發揮作用。而對資料的收集和标注是需要大量精力和成本的,如果對每個新的任務或新的場景都去标注資料,将耗費巨大的人力和時間成本。

幸運的是無監督域自适應(UDA)技術,使得我們可以在新的任務或場景中使用已有的、相似的任務或場景的有标注資料來做訓練,并能在目标域上有不錯的表現,以減少标注成本。而微軟亞洲研究院提出的 ProDA 方法就是一種新型的 UDA 技術,可以把之前最好的 UDA 技術的性能再次提高50%以上。

ProDA 沿用了自訓練的政策,利用原型(prototype)自身的魯棒特性和特征以及不同原型的距離資訊,來對僞标簽錯誤的部分進行修正,提高僞标簽的準确率,進而為沒有标注的目标域資料提供一些較高準确率的僞标簽,讓訓練好的模型對目标域有一個很好的表現。同時為了滿足原型能用于修正僞标簽的緊緻特征空間的假設,研究員們還借鑒無監督表征學習領域的對比學習政策,通過使用不同的資料增強來對特征空間進行擾動,并要求輸出對不同的擾動保持一緻,以保證目标域能學習到一個緊緻的特征空間。

ProDA 在 UDA 領域取得了非常好的效果。在 GTA5 到 Cityscapes 的資料集上,完全不使用任何 Cityscapes 的标注資訊,ProDA 在 Deeplabv2 取得了57.5的 mIoU,比之前最好的 UDA 技術的自适應收益提高了52.6%。在 SYNTHIA 到 Cityscapes 的資料集上,ProDA 在 Deeplabv2 取得了55.5的 mIoU,比之前最好的 UDA 技術的自适應收益提高了58.5%。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖14:ProDA 與傳統 self-training 在域自适應分割上的性能比較

SpareNet:結合全局上下文資訊,讓網絡更好捕獲結構資訊 

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文連結:https://arxiv.org/abs/2103.02535

代碼位址:https://github.com/microsoft/SpareNet

随着深度相機和雷達傳感器的普及,點雲越來越容易擷取。然而受限于傳感器的有限分辨率和物體之間的遮擋,原始的點雲通常是稀疏和殘缺的。将稀疏殘缺的點雲補全成完整的點雲對三維場景的了解、編輯、可視化有着重要的意義。

然而,現存的點雲補全網絡存在一些問題:首先,提取點雲的結構資訊時,現有的方法沒有根據點雲的殘缺特性設計特征提取器;其次,目前生成網絡使用的網絡結果沒有生成局部細節的能力,對于複雜結構,往往生成噪聲雲團;最後,在訓練網絡時,沒有衡量點雲生成的感覺品質的名額去監督訓練。為了解決上述問題,微軟亞洲亞洲研究院提出了 SpareNet,在名額上和視覺上都取得了目前最好的結果。

SpareNet 使用了 Channel Attentive EdgeConv,在提取局部特征時,結合了全局上下文的資訊,使得網絡可以更好地捕獲結構資訊。為了提高生成網絡的能力,研究員們設計了 Style-based 的網絡結構,使用 AdaIN 的子產品将前一步提取的結構資訊直接注入到生成網絡的每一層中,大幅提升了生成網絡的表達能力。最後,為了網絡可以在更好的監督下訓練,研究員們還使用了一個可微的渲染器,将點雲投影到不同角度的深度圖中,使用對抗訓練去提高點雲的感覺品質。

SpareNet 在點雲補全的若幹基準(benchmark)上都取得了迄今為止的最佳效果。在 ShapeNet 上取得了0.645的 FPD 和1.862*10-3的 EMD,比之前最好的方法有明顯提升。在 KITTI 資料集上,SpareNet 也表現出了極強的優勢,取得了0.249的 Consistency 和0.368的 MMD。在名額優勢之外,受益于基于深度圖可微渲染器的判别網絡,補全結果在視覺上的結果也明顯優于之前的方法。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖15:基于可微分渲染器的點雲補全方法 SpareNet 整體結構

SSAN:針對視訊表征學習的可分離自注意力網絡

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/abs/2105.13033

視訊表征學習是視訊了解相關任務的核心。跟圖像資料相比,視訊資料不僅具有空域的場景資訊,而且具有時域的運動資訊。這就要求學習網絡要具有建立遠距離相關性的能力,進而可以更好地了解物體和場景之間的語義關系,識别出相應的動作和事件。傳統的卷積網絡由于感受野(receptive field)的限制,缺乏全局相關性的模組化能力。而自注意力(self-attention)機制因為具有遠端模組化的優點,近年來被嘗試用于卷積網絡對視訊表征的學習中,并取得了不錯的效果。然而,目前主流的 3D 自注意力子產品同時考慮空域和時域的遠端相關性,就會導緻空域和時域的不同語義資訊混雜在一起,降低學習效率。

為了解決這一問題,微軟亞洲研究院提出了一種可分離的自注意力(separable self-attention)機制,可以對空域和時域資訊分别進行特定的相關性計算。将其整合到 2D CNN 網絡中,就可以建立一個高效的可分離自注意力網絡(SSAN)。在設計的過程中,研究員們進一步發現,單純的将空域和時域的自注意力分開并不能提高太多的效率,反而會因為額外參數的引入,而增加複雜度。

因為單純分開空域和時域的自注意力學習,雖然可以針對不同的語義資訊進行處理,但是忽略了時域方向的近程相關性。這樣會導緻在動作或者事件變化比較快的情況下,丢失關鍵資訊。于是,綜合考慮各方面的因素,最終研究員們設計了如圖16所示的自注意力子產品,并且建立了相應的自注意力網絡。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

圖16:可分離自注意力子產品。黃色代表空域注意力(SA),藍色代表時域注意力(TA)

實驗結果表明,SSAN 不僅在傳統的視訊分類任務上取得了優異的效果,而且在跨模态的視訊-文字檢索任務上取得了突破性的成績。在視訊分類資料集 Something-Something V1上(如表6),SSAN 在驗證集和測試集都取得了最佳結果。對于視訊檢索任務,SSAN 提取的特征在 MSR-VTT 資料集上的表現比之前最好的方法提高了12%。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表6:Something-Something-V1 資料集上的視訊分類結果比較

利用視覺跟蹤任務設計自監督學習

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

論文位址:https://arxiv.org/pdf/2105.02545.pdf

代碼位址:https://github.com/microsoft/CtP

許多認知科學的實驗表明,人類在嬰幼兒時期就具備了通過視線跟蹤物體的本能,這種本能讓嬰兒逐漸學會認識物體。那麼,對于神經網絡模型,是否也能夠通過視覺跟蹤學會更好的表征呢?

微軟亞洲研究院的研究員們利用視覺跟蹤任務設計了一種自監督學習的方法,用來預訓練視訊表征模型,如 C3D、R3D 等等。在給定輸入視訊和待跟蹤物體在起始幀的位置後,模型能夠輸出待跟蹤物體在所有幀的位置。另外,該自監督學習任務還能夠讓模型學習視訊幀間的運動資訊,這對于一些視訊了解任務而言至關重要。

為了充分利用大規模的無标簽資料,研究員們希望在沒有人工标注的情況下,擷取跟蹤軌迹的真實值(ground-truth)來監督模型訓練。為達這一目的,研究員們嘗試了多種不同的途徑,如:使用現有的目标跟蹤器産生僞标簽、利用跟蹤的循環特性(正向跟蹤之後,反向跟蹤需要回到原點)、貼圖檔塊産生合成資料等等。實驗發現合成資料的方式效果最好,即:從視訊中複制一小份圖檔塊,将其按一定規律覆寫到視訊幀上。盡管這種方法會破壞原本的視訊資料分布,導緻合成的視訊看上去不自然,但是它獲得的跟蹤軌迹卻非常準确。

研究員們将預訓練過的視訊表征模型遷移到一系列下遊任務中,如動作識别、視訊檢索等等,該方法都取得了非常不錯的性能。例如,在 UCF-101 動作識别資料集上,随機初始化的模型僅有67.0%的準确率,而預訓練過的 R(2+1)D 模型能夠達到88.4%的準确率,這與有監督學習的結果92.7%已經較為接近。在未來的工作中,研究員們希望進一步探索視訊幀間運動資訊在自監督學習中的應用。

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

表7:與其他視訊表示方法比較的結果

END

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

注明:CVPR

微軟亞研院 CVPR 2021 9篇視覺研究前沿進展

CVPR交流群

掃碼備注拉你入群。