天天看點

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源

作者:機器之心Pro

機器之心專欄

機器之心編輯部

來自新加坡國立大學和 Sea AI Lab 的研究者開源了四種 MetaFormer 基線模型,通過使用最基本或者最常見的 token mixer,探索了 MetaFormer 的下限、通用性和潛力。值得注意的是,所提模型之一 CAFormer 基于 ImageNet 正常有監督訓練(無額外資料和蒸餾),在 224x224 分辨率上取得 85.5% 的新紀錄,相比之前的 SOTA 模型減少了 55% 的參數量和 45% 的計算量。此外,該團隊所提出的激活函數StarReLU比常用的GELU減少了71%的計算量,但取得了更好的性能。
無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源
  • 論文位址:https://arxiv.org/abs/2210.13452
  • 代碼位址:https://github.com/sail-sg/metaformer

*This work was partially performed when W. Yu was a research intern at Sea AI Lab.

去年,該團隊的一篇論文《MetaFormer Is Actually What You Need for Vision》引起研究社群關注。該論文針對 Transformer 模型 “Attention is all you need” 的觀點提出了不同看法,即 MetaForemr 猜想 “MetaFormer Is Actually What You Need”。該論文通過把 attention 子產品抽象成 token mixer,進而将 Transformer 抽象成通用架構 MetaFormer。為了驗證 MetaFormer 猜想,作者把 token mixer 設定為極為簡單的池化算子,發現所得模型 PoolFormer 性能居然超過了 ViT/MIL-like/ResNet 等模型,實驗結果很好地驗證了 MetaFormer 猜想。

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源

圖源:該團隊去年的論文《MetaFormer Is Actually What You Need for Vision》(CVPR 2022 Oral)

最近,該團隊再次進一步探究通用架構 MetaFormer 的各種性質:他們在 MetaFormer 架構下,通過使用最基本或者最常見的 token mixer,引入了幾種 MetaFormer 基線模型,并總結了他們的觀察。

1.MetaFormer 確定可靠的性能下限。

為了探索模型的性能下限,作者将 token mixer 設定為恒等映射。實驗發現,這個名為 IdentityFormer 的簡陋模型,在 ImageNet 上竟然能取得超過 80% 的準确率。

2. MetaFormer 使用任意 token mixer 也能工作。

為了探索 MetaFormer 對于 token mixer 的通用性,作者使用全局随機矩陣(随機初始化後固定住)來混合 token。具體地,對于四階段模型,作者将後兩階段的 token mixer 設定為随機混合,而前兩階段的 token mixer 仍然保持為恒等映射,以避免引入過多計算量和固定參數。所派生的 RandFormer 模型被證明是有效的,準确率相比 IdentityFormer 提高了 1.0%,為 81.4%。這一結果證明 MetaFormer 對于 token mixer 有很好的通用性。是以,當引入新奇的 token mixer 時,請放心 MetaFormer 的性能。

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源

圖 1:MetaFormer 基線模型和其他最先進模型在 ImageNet 224x224 分辨率上的性能。 該論文所提模型的具體架構展示在後續的圖 2 中。(a) IdentityFormer/RandFormer 取得超過 80%/81% 的準确率,表明 MetaFormer 具有可靠的性能下限,并且使用任意 token mixer 都能很好地工作。圖中 ResNet-50 的準确率來自論文《ResNet strikes back》。(b) 使用經典可分離卷積做為 token mixer 的 ConvFormer (可視為純 CNN)大幅優于 ConvNeXt,而使用可分離卷積和原始 self-attention 作為 token mixer 的 CAFormer 在正常有監督訓練下(無額外資料和蒸餾),在 ImageNet 224x224 分辨率上創造了 85.5% 準确率的新記錄。

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源

圖 2:(a-d)IdentityFormer、RandFormer、ConvFormer 和 CAFormer 的總體架構。與 ResNet 類似,模型采用四階段架構,階段 i 具有特征次元為 Di 的 Li 個 block。每個下采樣子產品由一層卷積實作。第一個下采樣的 kernel 大小為 7,stride 為 4,而後三個下采樣的 kernel 大小為 3,stride 為 2。(e-h) IdentityFormer、RandForemr、ConvFormer 和 Transformer block 的架構,它們的 token mixer 分别為恒等映射,随機混合,可分離卷積和原始 self-attention。

3. MetaFormer 輕松地提供 SOTA 性能。無需設計新的 token mixer,僅需裝備五年前的 “老式” 算子,所衍生的 MetaFormer 具體模型就實作了 SOTA。

ConvFormer 大幅優于 ConvNeXt。通過簡單地将 token mixer 設定為可分離卷積,所衍生的純卷積模型 ConvFormer 性能大幅優于 ConvNeXt。

CAFormer 重新整理 ImageNet 記錄。通過将四階段模型的前兩個階段的 token mixer 設定為可分離卷積,後兩個階段設定為原始的 self-attention,所衍生模型 CAFormer 在 ImageNet 無額外資料正常有監督訓練下,在 224x224 分辨率上創造 85.5% 準确率的新紀錄。

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源

圖 3:各種先進模型(圖中 Swin 都成了墊底)在 ImageNet 224x224 上準确率、計算量和模型規模的比較。□、△和○分别代表 CNN 類,attention 類和混合類模型。在各個次元的計算量和模型規模下,ConvFormer 均優于同類 CNN 模型;CAFormer 明顯優于其他各類模型。值得注意的是 CAFormer 取得新的準确率記錄 85.5%,不僅超過之前 MViTv2 取得的 85.3% 的記錄,還比 MViTv2 減少了 55% 的參數量和 45% 的計算量。

4. 新型激活函數 StarReLU 超越 GELU。此外,作者還提出了新型激活函數 StarReLU 用以取代常用的 GELU 激活函數。該函數為平方 ReLU 的變體,為消除分布偏移而設計。StarReLU 每個神經元僅需 4 FLOPs,相比 GELU (14 FLOPs)減少了 71% 的計算量,卻取得更好的性能。ConvFormer-S18 模型在 ImageNet 資料集上,使用 StarReLU 相比 GELU 準确率提升 0.3%,相比 ReLU 提升了 0.9%。

無需新型token mixer就能SOTA:MetaFormer視覺基線模型開源

其中 s 和 b 為所有通道共享的标量,可設為固定值或者可學參數。

以上作者通過将 token mixer 設定為最基本或者最常見的算子(恒等映射、随機混合、可分離卷積和原始 self-attenton)來進一步探索 MetaFormer 架構的下限、通用性和潛力。所提各種 MetaFormer 模型可作為視覺領域可靠的基線。相信當引入更先進 token mixer 或者訓練政策時,MetaFormer 類模型會打破記錄,取得新的 SOTA。