天天看點

Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

深度神經網絡(DNNs)已經在各種人工智能(AI)任務中展現出了顯著的性能,而基本架構在确定模型能力方面起着至關重要的作用。傳統神經網絡通常包括多層感覺器(MLP)或全連接配接(FC)層。卷積神經網絡(CNNs)引入了卷積和池化層,特别适用于處理像圖像這樣的平移不變資料。循環神經網絡(RNNs)利用循環單元處理順序或時間序列資料。為了解決CNN、RNN和GNN模型僅捕獲局部關系的問題,Transformer于2017年提出,在學習遠距離特征表示方面表現出色。Transformer主要依賴于基于注意力的注意力機制,例如自注意力和交叉注意力,來提取内在特征并改善其表示能力。例如GPT-3這樣的預訓練大規模基于Transformer的模型在各種NLP資料集上表現出色,擅長自然語言了解和生成任務。Transformer基于模型在視覺應用中的廣泛采用推動了其出色性能。Transformer模型的核心是其在捕獲長距離依賴關系和最大化大型資料集利用方面的非凡技能。特征提取子產品是視覺Transformer架構的主要組成部分。它使用一系列的自注意力塊來處理資料,顯著提高了其分析圖像的能力。

然而,Transformer的一個主要障礙是自注意力機制的巨大計算需求,随着圖像分辨率的增加呈二次增加。注意力塊内的Softmax運算進一步加劇了計算需求,給在邊緣和低資源裝置上實作這些模型帶來了重大挑戰。此外,利用基于Transformer的實時計算機視覺系統必須遵循嚴格的低延遲标準,以保持高品質的使用者體驗。這種情況突顯了新架構的持續演變以提高性能,盡管這往往伴随着更高的計算需求的權衡。許多基于稀疏注意機制或創新的神經網絡範式的新模型已被提出,以進一步降低計算成本,同時捕獲長距離依賴關系并保持高性能。狀态空間模型(SSMs)已經成為這些發展的中心關注點。如圖1(a)所示,與SSMs相關的出版物數量呈現出爆炸性增長趨勢。最初設計用于模拟諸如控制理論和計算神經科學等領域中的動态系統,使用狀态變量,當為深度學習适應時,SSMs主要描述線性不變(或穩定)系統。随着SSMs的發展,一種名為Mamba的新型選擇性狀态空間模型已經出現。它通過兩個關鍵改進提高了對離散資料(例如文本)的狀态空間模型(SSMs)的模組化。首先,它具有一個根據輸入調整SSM參數的機制,動态增強資訊過濾。其次,Mamba使用一種硬體感覺算法,根據序列長度線性處理資料,提高了在現代系統上的計算速度。受Mamba在語言模組化中的成就啟發,現在有幾個倡議旨在将這一成功适應到視覺領域。許多研究已經探讨了其與Mixture-of-Experts(MoE)技術的內建,如Jamba、MoE-Mamba和BlackMamba,以較少的訓練步驟超越了現有技術架構Transformer-MoE。正如圖1(b)所示,自從2023年12月釋出Mamba以來,專注于視覺領域的Mamba的研究論文數量迅速增加,于2024年3月達到高峰。這一趨勢表明,Mamba正在成為視覺中一個突出的研究領域,可能為Transformer提供了一種可行的替代方案。是以,對目前相關工作進行回顧是必要且及時的,以提供對這個不斷發展的領域中這種新方法的詳細概述。是以,我們提供了對Mamba模型在視覺領域中的使用方式的全面概述。本文旨在為希望深入探讨這一領域的研究人員提供指南。

Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?

我們的工作的關鍵貢獻包括:

(1)本調查論文是首次對視覺領域中的Mamba技術進行全面回顧,明确關注分析提出的政策。

(2)在基于Naive的Mamba視覺架構的基礎上進行了擴充,我們調查了如何增強Mamba的能力,并與其他架構結合以實作更高性能。

(3)我們通過根據各種應用任務組織文獻進行了深入探讨。我們建立了一個分類法,确定了針對每個任務的特定進展,并就克服挑戰提供了見解。

綜述的結構如下:第2節探讨了Mamba政策的一般和數學概念。第3節讨論了Naive Mamba視覺模型以及它們如何與其他技術內建以增強性能,這是近年來提出的。第4節探讨了Mamba技術在解決各種計算機視覺任務中的應用。最後,第5節總結了調查。

标題:A Survey on Visual Mamba

作者:Hanwei Zhang, Ying Zhu, Dan Wang, Lijun Zhang, Tianxiang Chen, Zi Ye

機構:汽車軟體創新中心、中國科學院大學、中國科學技術大學、智能軟體研究所、薩爾州大學

原文連結:https://arxiv.org/abs/2404.15956

具有選擇機制和硬體感覺體系結構的狀态空間模型(SSMs),即Mamba,最近在長序列模組化方面表現出顯著的潛力。由于Transformer中的自注意機制随着圖像大小的增加而呈二次複雜度,并且計算需求增加,研究人員現在正在探索如何調整Mamba以用于計算機視覺任務。本文是第一篇旨在對計算機視覺領域的Mamba模型進行深入分析的綜述。它首先探讨了對Mamba成功起到貢獻的基本概念,包括狀态空間模型架構、選擇機制和硬體感覺設計。接下來,我們通過将這些視覺mamba模型分類為基礎模型,并使用諸如卷積、循環和注意力等技術對其進行增強,來審查這些視覺mamba模型,以提高其複雜性。我們進一步深入探讨了Mamba在視覺任務中的廣泛應用,其中包括将它們用作各種級别視覺處理的骨幹。這包括一般視覺任務、醫學視覺任務(例如2D / 3D分割、分類和圖像配準等)以及遙感視覺任務。我們特别從兩個層面介紹了一般視覺任務:高/中級視覺(例如對象檢測、分割、視訊分類等)和低級視覺(例如圖像超分辨率、圖像恢複、視覺生成等)。我們希望這一努力将激發社群内的額外興趣,以解決目前的挑戰,并進一步将Mamba模型應用于計算機視覺領域。

SSMs通常作為獨立的序列轉換,可以內建到端到端的神經網絡體系結構中。這裡我們介紹幾種基本的體系結構。線性注意力用循環機制近似自注意力,作為線性SSM的簡化形式。H3,如圖2所示,在兩個門控連接配接之間放置了一個SSM,并在其前插入了一個标準的局部卷積。在H3之後,Hyena,用MLP參數化的全局卷積替換了SSM層。RetNet引入了額外的門,并使用更簡單的SSM。RetNet啟用了一條替代的可并行化計算路徑,并使用多頭注意力(MHA)的變體,而不是卷積。受無注意力Transformer的啟發,最近的RNN設計RWKV,可以解釋為兩個SSMs的比率,因為它的主要"WKV"機制涉及線性時間不變性(LTI)的循環。

Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?

原始的Mamba塊設計用于一維序列,然而與視覺相關的任務需要處理多元輸入,如圖像、視訊和三維表示。是以,為了使Mamba适應這些任務,改進Mamba塊的掃描機制和架構對于有效處理多元輸入至關重要。

在本節中,我們提出了使Mamba能夠處理與視覺相關任務并增強其效率和性能的努力。最初,我們深入探讨了兩個基礎性的工作:Vision Mamba和 VMamaba。這些工作分别引入了 ViM 塊和 VSS 塊,作為後續研究努力的基礎。随後,我們探讨了重點放在改進Mamba架構上的其他工作,作為視覺相關任務的骨幹。最後,我們讨論了将Mamba與其他架構(如卷積、循環和注意力)內建的工作。

4.1 視覺Mamba塊

受視覺Transformer架構啟發,保留Transformer模型的架構,同時用Mamba塊替換注意力塊,保持其餘過程不變,似乎是自然而然的。問題的核心在于将Mamba塊調整到與視覺相關的任務上。幾乎同時,Vision Mamba 和 VMamba 提出了各自的解決方案:ViM 塊和 VSS 塊。

ViM 塊有時也被稱為雙向Mamba塊,使用位置嵌入标注圖像序列,并使用雙向狀态空間模型壓縮視覺表示。它同時處理前向和後向的輸入,使用單向卷積處理每個方向,如圖 4 的(a)所示。

Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?
Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?

視覺狀态空間(VSS)塊包含關鍵的狀态空間模型操作。它首先通過深度卷積層引導輸入,然後通過 SiLU 激活函數,然後通過狀态空間模型使用近似 B。之後,狀态空間模型的輸出經過層歸一化,然後與其他資訊流的輸出合并,如圖 3 的(b)所示。為了解決遇到的方向敏感問題,他們引入了交叉掃描子產品(CSM)來周遊空間域,并将任何非因果視覺圖像轉換為順序更新檔序列,如圖 4 的(b)所示。

4.2 純Mamba

受視覺Transformer架構的啟發,Vision Mamba将Transformer編碼器替換為基于 ViM 塊的視覺Mamba編碼器,同時保留其餘過程。這包括将二維圖像轉換為平坦的更新檔,然後将這些更新檔投影到向量中,并添加位置嵌入。一個類令牌代表整個更新檔序列,随後的步驟涉及歸一化層和 MLP 層以推導最終的預測。

LocalMamba是基于 ViM 塊建構的,它引入了一種包含在不同視窗内進行局部掃描的新穎方法,以捕獲詳細的局部資訊和全局上下文。此外,LocalMamba 在不同網絡層之間搜尋掃描方向,以識别和應用最有效的掃描組合。他們提出了兩種變體,即普通結構和分層結構。他們提出了 LocalVim 塊,包括四個掃描方向(參見圖 4 的(d)):vim 掃描并将令牌分區到不同的視窗以及它們的翻轉對應物,從尾部到頭部進行掃描,狀态空間子產品和空間和通道注意力子產品(SCAttn)。

基于 VSS 塊,PlainMamba 塊通過兩種主要機制增強了它從二維圖像中學習特征的能力:(i)采用連續的二維掃描過程來改善空間連續性,確定掃描序列中的令牌是相鄰的,如圖 4 的(c)所示,以及(ii)融合方向感覺更新,使模型能夠通過編碼方向資訊來識别令牌之間的空間關系。PlainMamba 通過繼續使用相反方向的掃描,直到到達圖像的最終視覺令牌,改善了 Vim 和 VMamba 的二維掃描機制中在新行/列移動時的空間不連續性。此外,PlainMamba 消除了特殊令牌的需要。

在輕量級模型設計中,EfficientVMamba通過基于孔徑的選擇性掃描方法提高了 VMamba 的能力,即 Efficient 2D Scanning(ES2D)。ES2D 采用在垂直和水準方向上前進掃描而跳過更新檔并保持更新檔數量不變的政策,如圖 4 的(e)所示。他們的高效視覺狀态空間(EVSS)塊包括一個用于局部特征的卷積分支,将 ES2D 用作用于全局特征的 SSM 分支,并且所有分支都通過一個 squeeze-excitation 塊結束。他們在階段 1 和階段 2 中都采用 EVSS 塊,而在階段 3 和階段 4 中選擇倒置殘差塊以增強全局表示的捕獲。

多元資料作為多元資料的一部分。作為多元資料的一部分,現有的多元資料模型也适用于與視覺相關的任務,但往往缺乏促進跨次元和維内通信或資料無關性的能力。MambaMixer 塊引入了跨令牌和通道的雙重選擇機制。然後,通過權重平均機制連接配接順序選擇混合器,使層能夠直接通路來自各層的輸入和輸出。Mamba-ND通過在層間交替序列遊走來擴充 SSM 的應用到更高次元。利用與 VMamba 相同的二維情景的類似掃描政策,将這種方法擴充到三維。此外,他們倡導使用多頭 SSM 作為多頭注意力的類比。針對傳統Transformer在圖像和時間序列進行中遇到的低效率和性能挑戰,提出了一種名為簡化Mamba基礎架構的新架構,SiMBA,以将Mamba塊用于序列模組化,并将EinFFT用于通道模組化,旨在增強模型處理圖像和時間序列任務的穩定性和效率。Mamba塊在處理長序列資料方面證明是有效的,而 EinFFT 則代表了一種新穎的通道模組化技術。實驗結果表明,SiMBA 在多個基準測試中超越了現有的狀态空間模型和Transformer。

作為Mamba的重要組成部分,掃描機制不僅有助于效率,而且在與視覺相關的任務場景中提供資訊。我們總結了現有作品中不同掃描機制的使用情況,如表 1 所示。Cross-Scan和 BiDirectional Scan是最廣泛采用的掃描機制。然而,各種其他掃描機制都有特定的用途。例如,3D BiDirectional Scan和 Spatiotemporal Selective Scan針對視訊輸入進行了定制。Local Scan側重于收集局部資訊,而 ES2D優先考慮效率。

Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?

4.3 Mamba與其他架構

為了将Mamba與卷積結合起來,Mamba引入了獲得局部資訊的能力,這對于與醫學圖像或分割任務相關的任務至關重要。RES-VMAMBA在 VMamba 模型内引入了一個殘差學習架構,以同時利用原始 VMamba 架構設計中固有的全局和局部狀态特征。該架構以負責處理輸入圖像的幹擾子產品開頭,然後是一系列按照四個不同階段順序組織的 VSS 塊。與原始 VMamba 架構不同,Res-VMamba 架構采用 VMamba 結構作為其骨幹,并将原始資料直接整合到特征圖中。他們将這種整合稱為全局殘差機制,以差別于 VSS 塊中的殘差結構。這種整合旨在促進個别 VSS 塊捕獲的局部細節和未處理輸入中的整體全局特征之間的共享資訊,進而增強模型的表征能力,并提高在需要全面了解視覺資料的任務上的性能。

為了利用Mamba塊的長序列模組化能力和 LSTM 的時空表示能力,VMRNN Cell 消除了 ConvLSTM中的所有權重和偏差,并使用 VSS 塊來學習垂直方向的空間依賴性。在 VMRNN Cell 中,通過從水準角度更新單元狀态和隐藏狀态的資訊來捕獲長期和短期時間依賴性。在 VMRNN Cell 的基礎上,提出了兩種變體:VMRNN-B 和 VMRNN-D。VMRNN-B 主要依賴于堆疊 VMRNN 層,而 VMRNN-D 則包含更多的 VMRNN Cells,并引入了 Patch Merging 和 Patch Expanding 層。Patch Merging 層用于下采樣,有效減少資料的空間次元,有助于降低計算複雜度并捕獲更抽象、全局的特征。相反,更新檔擴充層用于上采樣,增加空間次元以恢複細節,并在重構階段中實作對特征的精确定位。最終,重構層接收來自 VMRNN 層的隐藏狀态,并将其縮放回輸入大小,生成下一個時間步的預測幀。整合下采樣和上采樣過程在我們的預測架構中具有重要優勢。下采樣簡化了輸入表示,使模型能夠以較低的計算開銷處理更進階别的特征。這對于更抽象地了解資料内部的複雜模式和關系特别有利。

SSM-ViT 塊用于有效地處理基于事件的資訊。它包括三個主要元件:自注意力塊(Block-SA)、擴張注意力塊(Grid-SA)和 SSM 塊。Block-SA 專注于即時的空間關系,并提供附近特征的詳細表示。Grid-SA 提供全局視角,捕獲全面的空間關系和整體輸入結構。SSM 塊確定時間一緻性和連續資訊在連續時間步之間的傳遞。通過将 SSM 與自注意力結合,SSM-ViT 塊實作了更快的訓練和參數時間尺度調整,以進行時間聚合。

Meet More Areas(MMA)塊采用 MetaFormer 風格的架構,包括兩個層歸一化層、一個令牌混合器(由通道注意力機制和一個 ViM 塊并行組成)和一個用于深度特征提取的 MLP 塊。選擇這種結構的主要原因有兩個:首先,采用 MetaFormer 風格的架構的模型已經顯示出有希望的結果,表明了實作良好結果的潛力。其次,為了充分利用和利用 ViM 塊提取的全局資訊,将通道注意力機制并入以激活更多像素,因為全局細節在确定通道注意力權重方面起着作用。此外,合理地認為使用基于卷積的子產品可以增強 ViM 塊獲得的視覺表示,并簡化訓練過程,與Transformer觀察到的好處類似。對于恢複,Residual State Space Blocks(RSSBs)塊在通道注意力塊之前添加了 VSS 塊,這使得 VSS 可以專注于學習多樣的通道表示,之後通過後續通道注意力選擇關鍵通道,進而避免通道備援。

Mamba為什麼能颠覆Transformer在計算機視覺的統治地位?

Mamba在計算機視覺領域日益受到關注,因為它能夠處理長距離依賴關系,并且相對于變壓器具有顯著的計算效率。正如最近的調查所詳述的那樣,已經開發了各種方法來利用和探索Mamba的能力,這反映了該領域不斷發展的進步。

我們首先讨論SSM(Structured Sparse Matrices,結構稀疏矩陣)和Mamba架構的基本概念,然後對一系列計算機視覺應用中的各種競争方法進行全面分析。我們的調查涵蓋了專門針對骨幹架構、高/中級視覺、低級視覺、醫學成像和遙感設計的最新Mamba模型。這篇調查是關于SSMs和基于Mamba的技術的最新發展的第一篇綜述論文,明确關注計算機視覺挑戰。我們的目标是在視覺社群中引起更多對利用Mamba模型可能性和找到解決目前限制的解決方案的興趣。

對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀