編輯：LRS

【新智元導讀】隻需一個簡單操作擴充MAE，即可實作自監督學習新sota！

在計算機視覺領域，想要建立圖像和場景（scene）之間之間的對應關系是一項比較困難的任務，尤其是在存在遮擋、視角改變或是物體外觀發生變化的情況下。

最近，斯坦福大學李飛飛團隊對MAE進行擴充，提出了孿生掩碼自編碼器SiamMAE（Siamese Masked Autoencoders）以學習視訊中的視覺對應關系。

論文連結：https://siam-mae-video.github.io/resources/paper.pdf

先随機采樣兩個視訊幀，并進行非對稱掩碼操作；然後SiamMAE編碼器網絡對兩個幀進行獨立處理，最後使用交叉注意層組成的解碼器來預測未來幀（future frame）中丢失的圖像塊。

通過對未來幀中的大部分（95%）圖像塊進行掩碼，同時保持過去幀（past frame）圖像不變，SiamMAE促使網絡專注于物體運動，并學習以物體為中心的表征。

盡管整個網絡的設計概念比較簡單，但通過SiamMAE學習到的特征在視訊物體分割、姿勢關鍵點傳播和語義部分傳播任務上都優于最先進的自監督方法。

SiamMAE在不依賴于資料增強、基于手工跟蹤的前置任務或其他技術來防止表征崩潰的情況下，實作了非常有競争力的性能。

孿生掩碼自編碼器

研究人員的目标是開發一種自監督的方法來學習對應關系，主要是将掩碼自編碼器（MAE）模型擴充到視訊資料中。

Patchify

給定具有L幀的視訊剪輯，首先随機采樣兩個視訊幀，兩幀之間的距離通過從預定的potential frame gaps範圍中選擇一個随機值來确定。

與原始ViT模型類似，通過将每個幀轉換為一系列不重疊的N×N個patch來拼接視訊幀。

最後，把位置嵌入加到線性投影上，并附加一個[CLS]标記，需要注意的是沒有使用時序位置嵌入。

Masking

像圖像和視訊這樣的自然信号是高度備援的，分别表現為空間和時空上的備援。

為了創造一個具有挑戰性的預測性自監督學習任務，MAEs随機掩碼了75%的圖像patch，視訊資料的掩碼率提升到90%，并且對每幀都使用相同的掩碼率。

這種設計可以使網絡無法利用和學習到時間上的對應關系，避免在對應關系學習基準上達到次優性能。

研究人員認為，不對稱的掩碼可以創造一個更有挑戰性的自監督學習任務，并且可以鼓勵網絡學習時間上的相關性。

是以對于采樣的兩個視訊幀，對第一幀選擇不掩碼，對第二幀選擇掩碼95%，這樣就可以将整個過去幀（entire past frame）作為輸入，網絡隻需要将其擴散到未來中的适當位置即可，可以促進網絡對物體運動進行模組化并關注物體的邊界。

為了進一步增加任務的難度，兩個視訊幀之間具有更大的時間間隔，盡管可能會導緻對未來的預測變得模糊，并可能産生多種合理的結果，但為第二幀提供少量的patch作為輸入，可以讓網絡的自監督學習變得更困難。

編碼器

研究人員探索了兩種不同的編碼器配置來處理輸入幀。

聯合編碼器（joint encoder）是圖像MAEs在一對視訊幀上的擴充，把兩幀未掩碼的圖像patch串聯起來，然後輸入到标準的ViT編碼器中進行處理。

孿生編碼器（siamese encoder）是用于比較實體的權重共享神經網絡，是對比表征學習方法的一個重要元件，用于對應學習（corresponding learning）時通常需要一些資訊瓶頸來防止網絡學習的解決方案，如使用顔色通道dropout來迫使網絡避免依賴顔色來比對對應關系。

在這篇論文中，研究人員使用孿生編碼器來獨立處理兩幅圖像，使用非對稱掩碼作為資訊瓶頸。

解碼器

編碼器的輸出通過線性層進行投影，并加入帶有位置嵌入的[MASK] token，以生成對應于輸入幀的所有token

研究人員探索了三種不同的解碼器配置：

聯合解碼器（joint decoder）在兩幀的token串聯上使用原版Transformer子產品，其主要缺點是對GPU記憶體的需求大幅增加，特别是在使用較小的patch尺寸時。

交叉自解碼器（cross-self decoder）與原版Transformer模型的編碼-解碼器設計類似，每個解碼器塊由一個交叉注意力層和一個自注意力層組成，來自第二幀的token通過交叉注意力層與第一幀的token進行注意力操作，然後通過自注意力層進行互相融合。

可以注意到，交叉注意力層在功能上類似于自監督對應學習方法中經常使用的affinity矩陣。

交叉解碼器（cross decoder）由交叉注意力層的解碼器塊組成，其中來自第二幀的token與來自第一幀的token進行注意力操作。

最後，解碼器的輸出序列被用來預測掩碼圖像塊中的歸一化像素值，在解碼器的預測和真實值之間使用L2損失。

實驗結果

視訊物體分割

在多物體分割基準資料集DAVIS 2017上，使用480p分辨率的圖像對模型進行評估。

實驗結果可以發現SiamMAE明顯優于VideoMAE（從39.3%提升到62.0%），研究人員将其歸因于VideoMAE中使用了tube掩碼方案，使得模型無法學習時間上的對應關系。

與DINO類似，研究人員也發現降低patch的尺寸會帶來明顯的性能提升。

并且文中使用的ViT-S/8（+9.4%）模型優于之前所有的對比學習和自監督的對應學習方法。

還可以注意到盡管較大的MAE-ST模型（ViT-L/16，304M參數）在随機掩碼的情況下比VideoMAE表現更好，但其性能仍然落後于SiamMAE相當多。

而且在視訊上訓練的MAE與圖像MAE的表現相似，視訊與圖像的不同之處在于，圖像是（近似）各向同性的，時間次元是特殊的，并不是所有的時空方向都是同等可能的。

是以，對稱地處理空間和時間資訊可能是次優的。

視訊部分分割（Video Part Segmentation）

在視訊執行個體解析（Video Instance Parsing， VIP）基準上對SiamMAE進行評估，該基準包括為20個不同的人體部位傳播語義掩碼。

與評估的其他資料集相比，VIP特别具有挑戰性，因為包括更長的視訊（最長120秒）。

與先前工作類似，使用560×560的圖像和單一背景幀進行評估後，可以發現ViT-S/8模型性能大大超越了DINO (從39.5提升到45.9)。

SiamMAE從更小的patch尺寸中，比DINO受益更多，實作了+8.6的mIoU評分，比DINO的+3.3 mIoU有所提高。

SiamMAE也優于之前所有的對比學習和自監督的對應關系學習方法。

姿勢追蹤（pose tracking）

在關鍵點傳播的任務上對SiamMAE進行了評估，需要傳播15個關鍵點，并且要求空間上的精确對應關系，使用320×320的圖像和一個單一的背景幀，SiamMAE的性能優于所有其他模型，并且比DINO更受益于較小的patch尺寸（+14.9到+10.9 [email protected]）

參考資料：

https://siam-mae-video.github.io/resources/paper.pdf

李飛飛團隊新作：孿生掩碼自編碼器SiamMAE，刷榜視覺自監督方法

孿生掩碼自編碼器

實驗結果