天天看点

腾讯新作!如何解决缺少工业异常检测数据?

作者:3D视觉工坊

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

论文题目:DMAD: Dual Memory Bank for Real-World Anomaly Detection

作者:Jianlong Hu, Xu Chen等

作者机构:Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, School of Informatics, Xiamen University等

论文链接:https://arxiv.org/pdf/2403.12362.pdf

这篇文章介绍了一个名为DMAD的新框架,用于处理现实世界中的异常检测问题。传统的多类设置通常只使用正常数据,而忽略了少量但重要的已标注异常数据。为了解决这一挑战,DMAD框架提出了双内存增强表示学习的概念,可以处理无监督和半监督场景。DMAD利用双内存库计算正常和异常模式之间的特征距离和特征注意力,从而封装了有关正常和异常实例的知识,并利用这些知识构建增强表示进行异常分数学习。实验结果表明,在MVTec-AD和VisA数据集上,DMAD的性能优于当前的最先进方法,显示了其在处理现实世界异常检测场景复杂性方面的能力。

读者理解:

这篇论文提出的DMAD框架在处理实际工业场景中的异常检测问题方面具有很高的创新性和实用性。通过利用双存储器来构建增强表示,DMAD能够有效地处理无监督和半监督场景,并且在MVTec-AD和VisA数据集上取得了显著的性能提升。特别是,在处理少量已标注异常数据的情况下,DMAD能够学习到更精确的决策边界,进一步提高了异常检测的准确性。然而,该研究仅对简化场景进行了模拟,并且在异常的逐像素注释方面存在一定的局限性,需要进一步的研究来解决这些问题

这篇文章介绍了一个名为DMAD的新框架,用于处理图像异常检测问题。传统方法为每个对象训练一个独特的模型,但随着对象类别数量增加,这种方法导致了存储消耗的增加。为了解决这个问题,UniAD提出了一种多类设置,利用所有对象的正常数据来训练一个统一模型。然而,当前的异常检测方法主要依赖于无监督学习,并且在训练过程中缺乏真实异常数据可能导致边界定义不准确。近期研究表明,在现实世界中获取少量异常数据是可行的,这种半监督方法可以帮助模型预测潜在的异常模式并增强性能。因此,作者提出了一个新的统一半监督设置,填补了研究空白,这种设置更接近实际情况,统一方便,且在训练过程中可以利用相似的缺陷提供额外优势。作者提出的DMAD框架适用于这种统一半监督设置,同时也适用于一般的统一设置。DMAD利用双内存库来处理这两种情况,首先利用一个补丁特征编码器提取特征,然后利用双内存库计算特征之间的距离和交叉注意力,最终使用多层感知器学习特征表示与异常分数之间的映射。实验结果表明,DMAD在MVTec-AD和VisA数据集上的表现显著优于当前最先进的方法。

腾讯新作!如何解决缺少工业异常检测数据?

这篇文章介绍了一个名为DMAD的新框架,旨在处理现实世界中的异常检测问题。在实际工业场景中,训练一个统一模型被认为更加兼容和存储效率更高。该框架面临两种情况:一般统一设置和带有少量已标注异常的统一设置,即统一半监督设置。这取决于异常的可用性。为了实现这一目标,DMAD主要由三个组件组成:补丁特征编码器、基于双内存库的知识增强和异常分数映射器。DMAD的目标是训练一个统一的神经网络,能够为异常分配比正常实例更高的异常分数。通过有效利用正常数据和可访问的异常数据,DMAD能够在处理现实世界异常检测挑战方面取得显著进展。

腾讯新作!如何解决缺少工业异常检测数据?

2.1 补丁特征编码器

本节介绍了补丁特征编码器,主要由特征提取器FΦ : x → q 和可选的特征过滤操作Filter 组成。特征提取器FΦ 用于从图像中提取补丁特征,包括一个预训练的主干网络和一个聚合操作。训练图像表示为x ∈ R3×H×W,提取的补丁特征表示为q ∈ RN×C,其中N = H0×W0 表示补丁数量,H0 和W0 分别表示特征的高度和宽度,C 表示特征的通道数。在一般统一设置中,仅可以使用正常数据,对于每个正常图像xn,作者直接获得其补丁特征qn。当检测系统运行时,一些已标注的异常变得可访问,并可以纳入到DMAD 的训练中。对于每个已见异常xas,作者使用Filter操作来从其提取的补丁特征FΦ(xas) 中隔离异常部分。对于每个有缺陷的图像xa,作者可以计算其异常的补丁特征qa。这些补丁特征将随后通过双内存库进行增强。

2.2 双内存库增强知识

本节介绍了基于双内存库的知识增强方法,用于处理异常检测问题。首先介绍了双内存库的构建,其中包括正常内存库Mn和异常内存库Ma。正常内存库存储正常模式,而异常内存库存储潜在的缺陷模式。对于一般统一设置,使用coreset采样算法从所有正常数据中提取补丁特征来构建Mn。对于Ma,如果没有可用的已标注异常,从DTD数据集中随机采样异常数据构建Ma。当可用的已标注异常变得可访问时,将观察到的已标注异常的过滤异常补丁特征集Mas加入到Ma中。为了提取额外的知识,对于每个补丁正常特征,从Mn和Ma中识别最近邻特征,并计算特征与最近邻特征的距离和注意力矩阵。最后,将特征本身和两部分知识结合起来形成增强表示。这种方法有助于在异常检测中更有效地利用所有可用的信息,提高模型的性能。

2.3 异常评分映射器

本节介绍了异常分数映射器,用于将增强表示o映射到异常分数S。采用多层感知器(MLP)Ψ学习映射关系,并使用铰链损失函数优化网络。在一般统一(多类别)场景中,采用特征增强策略生成伪负样本,用于模型的训练。当可用已标注异常时,使用三部分铰链损失进行模型优化,其中λ1和λ2为超参数。这部分的工作有助于将增强表示与异常分数之间的关系建模,从而提高异常检测的性能。

2.4 异常检测和定位

本节介绍了如何利用训练良好的DMAD模型对测试图像进行异常检测和定位。首先,通过DMAD模型得出图像的补丁级别的异常分数,并取前5个异常分数的平均值作为图像级别的分数。然后,对于像素级别的分数,采用双线性插值和高斯平滑的方法来优化分数的值。这种方法有助于在异常检测过程中对异常进行准确的定位和评分。

腾讯新作!如何解决缺少工业异常检测数据?
  • 实验部分主要介绍了在MVTec-AD和VisA数据集上对DMAD模型进行的实验。MVTec-AD数据集包含来自不同领域的高分辨率图像,分为训练集和测试集,用于检测纹理和物体缺陷。VisA数据集包含多个类别的高分辨率图像,用于检测复杂结构、多个实例和单个实例的物体。实验使用了多个标准评估指标,包括AUROC、AP和F1max等,以及用于异常定位的PRO指标。
  • 在实验中,采用了WideResnet50作为预训练CNN骨干网络,从第2层和第3层提取特征,然后将其聚合成补丁特征。对于投影层,采用了一个全连接层来投影特征和知识。MLP包括四个非线性层,每个非线性层包括一个线性层、批归一化和Leaky ReLU激活。优化器采用AdamW,学习率为0.0001,用于线性层和投影层,MLP的学习率为0.0002。训练过程持续48个epochs,批大小为32。
  • 实验结果表明,在无监督情况下,DMAD在MVTec-AD数据集上的表现与UniAD相当,但在VisA数据集上优于UniAD。当少量注释的异常可用时,DMAD利用双存储器学习更精确的决策边界,在MVTec-AD和VisA数据集上实现了最先进的性能。
  • 此外,实验还对异常定位进行了评估,结果表明DMAD在所有不同设置下均实现了最佳性能。综上所述,DMAD在处理实际场景中的异常检测问题时表现出色,具有较高的应用价值。
腾讯新作!如何解决缺少工业异常检测数据?
腾讯新作!如何解决缺少工业异常检测数据?
腾讯新作!如何解决缺少工业异常检测数据?

这篇研究提出了一个名为DMAD的新框架,用于处理实际场景中的异常检测问题。DMAD是一个统一的框架,能够在多类别设置下管理无监督和半监督场景。它利用双存储器计算正常和异常实例的知识,然后利用这些知识构建增强表示,用于异常分数学习。在MVTec-AD和VisA数据集上的实验结果表明,DMAD在异常检测方面表现出优越性能。然而,该研究仅模拟了简化的场景,并且对异常的逐像素注释可能无法获得,需要进一步研究新的方法来解决这些问题。

腾讯新作!如何解决缺少工业异常检测数据?

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

继续阅读