天天看点

Mamba刚火就凉了?视觉真的需要Mamba吗?

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

近年来,Transformer已成为各种任务的主流骨干,支撑着诸多重要模型,如BERT、GPT系列和ViT。然而,Transformer的token mixer,也就是attention,随着序列长度的增加,产生了二次复杂度,给处理长序列带来了重大挑战。为了解决这个问题,已经引入了一系列与 token 长度线性复杂度相关的 token mixer,例如 dynamic convolution、Linformer、Longformer、Big Bird和Performer。最近,出现了一波新的类似 RNN 的模型,引起了社区的极大兴趣,因为它们能够并行训练,并在处理长序列时表现高效。值得注意的是,像 RWKV和Mamba这样的模型已被证明是大型语言模型(LLMs)的有效骨干。

受到类似RNN模型的有希望的能力的启发,各种研究尝试将Mamba引入视觉识别任务,例如Vision Mamba、VMamba、LocalMamba、PlainMamba的开创性工作。Mamba的token mixer 是结构化状态空间模型(SSM),符合 RNN 的精神。然而,他们的实验表明,基于 SSM 的视觉模型实际上与最先进的基于卷积和基于注意力的模型相比表现不佳。这引发了一个引人注目的研究问题:我们是否真的需要 Mamba 来进行视觉识别?

在本文中,我们调查了 Mamba 的性质,并从概念上总结出,Mamba 理想地适用于具有两个关键特征的任务:长序列和自回归,因为它具有 SSM 的固有 RNN 机制。不幸的是,不多的视觉任务同时具备这两个特征。例如,ImageNet 上的图像分类既不符合长序列特征,也不符合自回归特征,而在 COCO 上的目标检测与实例分割和在 ADE20K 上的语义分割仅符合长序列特征。另一方面,自回归特征要求每个 token 仅从前一个和当前的 token 中聚合信息,这个概念被称为 token mixing 的因果模式。事实上,所有的视觉识别任务都属于理解域而不是生成域,意味着模型可以一次看到整张图像。因此,在视觉识别模型中对 token mixing 施加额外的因果约束可能导致性能下降。尽管这个问题可以通过双向分支来缓解,但是问题在每个分支内部不可避免地存在。

基于以上的概念讨论,我们提出以下两个假设:

• 假设 1:对于图像分类任务来说,SSM 并不是必要的,因为该任务既不符合长序列特征,也不符合自回归特征。

• 假设 2:对于目标检测与实例分割以及语义分割任务来说,SSM 可能有潜在的益处,因为它们符合长序列特征,尽管它们不是自回归的。

为了实验验证我们的假设,我们开发了一系列称为 MambaOut 的模型,通过堆叠门控 CNN块。门控 CNN 和 Mamba 块之间的主要区别在于 SSM 的存在。实验结果表明,简化的 MambaOut 模型实际上已经超过了视觉 Mamba 模型的性能,从而验证了我们的假设 1。我们还展示了实证结果,表明在检测和分割任务中,MambaOut 的性能不及最先进的视觉 Mamba 模型,这强调了 SSM 在这些任务中的潜力,并有效验证了我们的假设 2。

1. 论文信息

标题:MambaOut: Do We Really Need Mamba for Vision?

作者:Weihao Yu, Xinchao Wang

机构:新加坡国立大学

原文链接:https://arxiv.org/abs/2405.07992

代码链接:https://github.com/yuweihao/MambaOut

2. 摘要

Mamba,一种具有类似RNN的状态空间模型(SSM)的标记混合器的架构,最近被引入以解决注意力机制的二次复杂度,并随后应用于视觉任务。然而,与卷积和基于注意力的模型相比,Mamba在视觉方面的性能通常令人失望。在本文中,我们深入探讨了Mamba的本质,并在概念上得出结论,即Mamba非常适用于具有长序列和自回归特性的任务。对于视觉任务,由于图像分类既不符合长序列特性也不符合自回归特性,我们假设Mamba对于这个任务不是必要的;检测和分割任务也不是自回归的,但它们遵循长序列特性,因此我们认为探索Mamba在这些任务中的潜力仍然是值得的。为了经验性地验证我们的假设,我们构建了一系列模型,命名为MambaOut,通过堆叠Mamba块来移除它们的核心标记混合器SSM。实验结果强烈支持我们的假设。具体来说,我们的MambaOut模型在ImageNet图像分类任务上超过了所有视觉Mamba模型,这表明Mamba对于这个任务确实是不必要的。至于检测和分割任务,MambaOut无法匹配最先进的视觉Mamba模型的性能,显示了Mamba在长序列视觉任务中的潜力。该代码可在https://github.com/yuweihao/MambaOut获得。

3. 效果展示

(a) Gated CNN和 Mamba模块的架构。Mamba 模块通过额外的状态空间模型(SSM)扩展了 Gated CNN,SM 对于 ImageNet上的图像分类并不必要。为了经验性地验证这一说法,我们堆叠 Gated CNN 模块构建了一系列名为 MambaOut 的模型。(b) MambaOut 在 ImageNet 图像分类上表现优于视觉 Mamba 模型,例如 Vision Mamba、VMamba和 PlainMamba。

Mamba刚火就凉了?视觉真的需要Mamba吗?

4. 主要贡献

我们论文的贡献有三个方面:

首先,我们分析了 SSM 的类似 RNN 机制,并概念性地得出结论,即 Mamba 适用于具有长序列和自回归特征的任务。

其次,我们检验了视觉任务的特征,并假设 SSM 对于 ImageNet 上的图像分类任务是不必要的,因为该任务既不符合长序列特征,也不符合自回归特征,但是探索 SSM 对于检测和分割任务的潜力仍然是有价值的,因为这些任务符合长序列特征,尽管它们不是自回归的。

第三,我们开发了一系列基于门控 CNN 块但没有 SSM 的模型,名为 MambaOut。实验表明,MambaOut 在 ImageNet 图像分类任务中实际上超过了视觉 Mamba 模型,但在检测和分割任务中却达不到最先进的视觉 Mamba 模型的性能。这些观察结果进一步验证了我们的假设。因此,基于奥卡姆剃刀原理,MambaOut 可以成为未来视觉 Mamba 模型研究的自然基线。

5. 基本原理是啥?

从内存角度讲,因果注意力和类RNN模型的机制图示,其中xi表示第i步的输入标记。(a) 因果注意力将所有先前标记的键k和值v存储为内存。内存通过不断添加当前标记的键和值来更新,因此内存是无损的,但缺点是随着序列长度增加,整合旧内存和当前标记的计算复杂度增加。因此,注意力可以有效管理短序列,但可能在处理更长序列时遇到困难。(b) 相比之下,类RNN模型将先前的标记压缩为固定大小的隐藏状态h,这作为内存。这个固定大小意味着RNN内存本质上是有损的,无法直接与注意力模型的无损内存容量竞争。尽管如此,类RNN模型在处理长序列时可以展现出明显的优势,因为与序列长度无关,合并旧内存和当前输入的复杂度保持恒定。

Mamba刚火就凉了?视觉真的需要Mamba吗?

(a) Token mixing 的两种模式。对于总共 T 个 token,全可见模式允许 token t 聚合所有 token 的输入,即 {xi}Ti=1,以计算其输出 yt。相比之下,因果模式限制 token t 只能聚合之前和当前 token 的输入 {xi}ti=1。默认情况下,注意力操作在全可见模式下,但可以通过因果注意力掩码调整为因果模式。类似 RNN 的模型,例如 Mamba 的 SSM,由于其循环性质,本质上是在因果模式下操作的。(b) 我们将 ViT 的注意力从全可见模式修改为因果模式,并观察到在 ImageNet 上的性能下降,这表明因果混合对于理解任务是不必要的。

Mamba刚火就凉了?视觉真的需要Mamba吗?

(a) MambaOut视觉识别的总体框架。与ResNet类似,MambaOut采用具有四个阶段的分层架构。Di表示第i个阶段的通道维度。(b) 门控CNN块的架构。门控CNN块和Mamba块的区别在于门控CNN块中没有SSM(状态空间模型)。

Mamba刚火就凉了?视觉真的需要Mamba吗?

6. 实验结果

MambaOut模型、视觉Mamba模型以及各种其他基于卷积和注意力的模型在ImageNet上的表现如表1所示。值得注意的是,我们的MambaOut模型,不包含SSM,始终优于所有模型尺寸上包含SSM的视觉Mamba模型。例如,MambaOut-Small模型的top-1准确率为84.1%,比LocalVMamba-S高出0.4%,同时只需79%的MACs。这些结果强烈支持我们的假设1,即在ImageNet上引入SSM进行图像分类是不必要的,符合奥卡姆剃刀原则。

此外,与最先进的卷积和注意力模型相比,视觉Mamba模型目前存在显著的性能差距。例如,采用传统标记混合器如简单可分离卷积和标准注意力机制的CAFormer-M36在准确率上超过所有相同尺寸的视觉Mamba模型超过1%。如果未来的研究旨在挑战我们的假设1,将需要开发具有卷积和SSM标记混合器的视觉Mamba模型,以实现在ImageNet上的最先进性能。

Mamba刚火就凉了?视觉真的需要Mamba吗?

尽管MambaOut可以在COCO上的目标检测和实例分割方面超越一些视觉Mamba模型,但仍落后于最先进的视觉Mamba,如VMamba和LocalVMamba。例如,作为Mask R-CNN骨干的MambaOut-Tiny的性能比VMamba-T低1.4 APb和1.1 APm。这种性能差距突显了在长序列视觉任务中集成Mamba的好处,进一步强化了我们的假设2。然而,与最先进的卷积-注意力混合模型TransNeXt相比,视觉Mamba仍存在显著的性能差距。视觉Mamba需要通过在视觉检测任务中超越其他最先进的模型来进一步验证其有效性。

Mamba刚火就凉了?视觉真的需要Mamba吗?

ADE20K上语义分割的性能趋势与COCO上的目标检测类似。MambaOut可以胜过一些视觉Mamba模型,但无法与最先进的Mamba模型匹敌。例如,LocalVMamba-T在单尺度(SS)和多尺度(MS)评估中比MambaOut-Tiny分别高出0.5 mIoU,进一步从经验上证实了我们的假设2。此外,与集成了卷积和注意力机制的更先进的混合模型(如SG-Former和TransNeXt)相比,视觉Mamba模型在性能上仍存在明显的缺陷。视觉Mamba需要通过在视觉分割任务中提供更强的性能来进一步展示其长序列建模优势。

Mamba刚火就凉了?视觉真的需要Mamba吗?

7. 总结 & 未来工作

本文讨论了Mamba机制的概念,并得出结论,认为它非常适合具有长序列和自回归特性的任务。我们根据这些标准分析了常见的视觉任务,并认为在ImageNet图像分类中引入Mamba是不必要的,因为它既不符合特征1也不符合特征2。然而,Mamba在与长序列特性相一致的视觉检测和分割任务中的潜力值得进一步探索。为了从经验上证实我们的主张,我们开发了使用Mamba块但没有其核心令牌混合器SSM的MambaOut模型。MambaOut在ImageNet上超越了所有视觉Mamba模型,但与最先进的视觉Mamba模型相比存在明显的性能差距,从而验证了我们的主张。由于计算资源的限制,本文仅验证了Mamba概念在视觉任务中的应用。将来,我们可能会进一步探索Mamba和RNN概念,以及将RNN和Transformer集成到大型语言模型(LLMs)和大型多模态模型(LMMs)中。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。