天天看點

何恺明團隊新作:隻用普通ViT,不做分層設計也能搞定目标檢測

魚羊 發自 凹非寺

量子位 | 公衆号 QbitAI

微軟的Swin Transformer去年橫空出世,一舉突破了Transformer做視覺任務複雜度過高的問題。

這種把Transformer“卷積網絡”化的做法,也成為目前ViT研究領域的熱門方向。

但現在,何恺明團隊的最新論文提出了不同的觀點:

在目标檢測任務上,像Swin Transformer那樣的複雜操作可能是沒有必要的。

隻用普通ViT做骨幹網絡,一樣能在目标檢測任務上拿下高分。

何恺明團隊新作:隻用普通ViT,不做分層設計也能搞定目标檢測

不對ViT引入分層設計

ViT可以說是打開了Transformer跨界處理視覺任務的新大門。

但原始ViT的問題在于,它是一個非階層化的架構。也就是說,ViT隻有一個單一尺度的特征圖。

于是在目标檢測這樣的任務中,ViT就面臨着兩個問題:

其一,如何在下遊任務中用預訓練好的骨幹網絡來處理好各種大小不同的物體?

其二,全局注意力機制的複雜度與輸入圖像尺寸的平方呈正比,在面對高分辨率圖像時,處理效率低下。

以Swin Transformer為代表,給出的解決方案是向CNN學習,将分層設計重新引入骨幹網絡:

基于分層特征圖,利用特征金字塔網絡(FPN)或U-Net等技術進行密集預測

将自注意力計算限制在不重疊的局部視窗中,同時允許跨視窗連接配接,進而帶來更高的效率

而何恺明團隊的這篇新論文,則試圖尋找一個新的突破方向。

其核心,是放棄FPN設計。

具體而言,研究人員通過對ViT的最後一層特征圖進行卷積或反卷積,得到了多尺度特征圖,進而重建出一個簡單的FPN。

何恺明團隊新作:隻用普通ViT,不做分層設計也能搞定目标檢測

相比于标準特征金字塔通過bottom-up、top-down和lateral connection做特征融合的方法,可以說得上是簡單粗暴。

另外,在對高分辨率圖像進行特征提取時,研究人員也采用了視窗注意力機制,但沒有選擇像Swin Transformer那樣做shift。

在進行資訊互動時,他們将block均分為四個部分,探索了兩種政策:全局傳播和卷積傳播。

何恺明團隊新作:隻用普通ViT,不做分層設計也能搞定目标檢測

從表格中可以看出,采用4個卷積塊(conv block)的效果是最好的。

這種新方法被命名為ViTDet。

論文還提到,結合MAE方法進行預訓練,效果更好。

從實驗結果來看,以ViT作為骨幹網絡的方法,在模型較大時,展現出了比Swin、MVITv2等采用分層政策的方法更優的性能。

何恺明團隊新作:隻用普通ViT,不做分層設計也能搞定目标檢測

研究人員表示:

使用普通ViT作為骨幹網絡,基于MAE方法進行預訓練,由此得到的ViTDet能與之前所有基于分層骨幹網絡的先進方法競争。

關于作者

Yanghao Li,本碩畢業于北京大學,現在在Facebook AI研究院擔任研究工程師。

Hanzi Mao,本碩畢業于華中科技大學,2020年在德州農工大學拿到博士學位,現為Facebook AI研究院進階研究科學家。

另外,除了何恺明,Ross Girshick大神也坐鎮了這篇論文。

論文位址:

https://arxiv.org/abs/2203.16527

繼續閱讀