天天看點

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

選自arXiv

作者:Chen Wei等

機器之心編譯

mask-and-predict 的方法可能會成為計算機視覺領域的新流派。

自監督預訓練在自然語言處理方面取得了驚人的成功,其基本思路中包含着掩碼預測任務。前段時間,何恺明一作的論文《Masked Autoencoders Are Scalable Vision Learners》提出了一種簡單實用的自監督學習方案 MAE,将 NLP 領域的掩碼預測(mask-and-predict)方法用在了視覺問題上。現在來自 Facebook AI 研究院(FAIR)的研究團隊又提出了一種自監督視覺預訓練新方法 MaskFeat。

論文位址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 首先随機掩碼一部分輸入序列,然後預測被掩碼區域的特征。通過研究 5 種不同類型的特征,研究者發現方向梯度直方圖 (HOG) 是一種很好的特征描述方法,在性能和效率方面都表現優異。并且研究者還觀察到 HOG 中的局部對比歸一化對于獲得良好結果至關重要,這與之前使用 HOG 進行視覺識别的工作一緻。

該方法可以學習豐富的視覺知識并驅動基于 Transformer 的大規模模型。在不使用額外的模型權重和監督的情況下,MaskFeat 在未标記的視訊上進行預訓練,使用 MViT-L 在 Kinetics-400 上實作了前所未有的 86.7% top-1 準确率。此外,MaskFeat 還能進一步推廣到圖像輸入,并在 ImageNet 上獲得了有競争力的結果。

方法

掩碼視覺預測任務旨在修複被掩碼的視覺内容。通過模組化掩碼樣本,該模型從識别物體的部位和運動的意義上實作了視訊了解。例如,要補全下圖中的圖像,模型必須首先根據可見區域識别對象,還要知道對象通常的形态和移動方式,以修複缺失區域。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

該任務的一個關鍵組成部分是預測目标。在自然語言處理任務中,掩碼語言模組化使用詞表 tokenize 語料庫作為目标。而在視覺領域,原始視覺信号是連續的、高維的,并且沒有可用的自然「詞表」。

是以,MaskFeat 提出将預測被掩碼區域的特征。借助從原始完整樣本中提取的特征進行監督。目标特征的選擇在很大程度上影響了預訓練模型的屬性,該研究對特征進行了廣泛的解釋,并主要考慮了 5 種不同類型的目标特征。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

首先研究者将目标特征分為兩組:1) 可以直接獲得的單階段目标,包括像素顔色和 HOG;2) 由經過訓練的深度網絡提取的兩階段目标。由于預測兩階段目标是借助訓練有素的深度網絡有效學得的(類似于模型蒸餾),是以教師模型的預訓練和推理的額外計算成本是不可避免的。該研究主要探究的 5 種特征類型是:

像素顔色;

方向梯度直方圖(HOG);

離散變分自編碼器(dVAE);

深度特征;

僞标簽。

該研究通過了一系列的分析探究了這 5 種特征的利弊。盡管掩碼語言模組化最初是在預定義詞表上預測分類分布,但 BEiT 中的離散化不需要視覺資訊。分析結果表明,連續的無監督特征和圖像描述符是性能較好的預測目标,其中前者需要模型蒸餾,後者則不需要額外的計算開銷。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

此外,研究者還發現監督訓練的目标特征會産生較差的結果,這可能與存在于特征中的類級特定資訊有關,即這種方法對于局部掩碼模組化來說過于全局化。總的來說,考慮性能和計算成本之間的權衡,該研究最終選擇了 HOG 作為 MaskFeat 的預設特征。

方向梯度直方圖(HOG)特征是一種在計算機視覺和圖像進行中用來進行物體檢測的特征描述方法,最早是在 CVPR 2005 的一篇論文《Histograms of Oriented Gradients for Human Detection》中提出的。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

HOG 特征提取的過程如下:首先把樣本圖像分割為若幹個像素單元,把梯度方向平均劃分為多個區間,在每個單元裡面對所有像素的梯度方向在各個方向區間進行直方圖統計,得到一個多元的特征向量,每相鄰的單元構成一個區間,把一個區間内的特征向量聯起來得到多元的特征向量,用區間對樣本圖像進行掃描,掃描步長為一個單元。最後将所有塊的特征串聯起來,就得到了完整的特征。

基于視訊識别的實驗

該研究在 K400 資料集上将 MaskFeat 和之前的工作進行了比較,結果如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上實作了新的 SOTA——86.7% top-1 準确率。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

遷移學習

為了評估該方法在下遊任務上的遷移學習性能,該研究在 AVA v2.2 上微調了 MViT-L312,40×3 Kinetics 模型,實驗結果如上表 3 和下表 4 所示,在 K600 上實作了 88.3% top-1 準确率,K700 上為 80.4%,均實作了新的 SOTA。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

該研究在 AVA v2.2 上微調了 MViT-L312,40×3 Kinetics 模型,下表 5 給出了 MaskFeat 模型與現有方法相比的平均精度 (mAP)。MaskFeat 在全分辨率測試中達到了前所未有的 38.8 mAP,大大超過了以前所有方法。

比MAE更強,FAIR新方法MaskFeat用HOG重新整理多個SOTA

感興趣的讀者可以閱讀論文原文了解更多研究細節。

繼續閱讀