天天看點

騰訊新作!如何解決缺少工業異常檢測資料?

作者:3D視覺工坊

來源:3D視覺工坊

添加小助理:dddvision,備注:方向+學校/公司+昵稱,拉你入群。文末附行業細分群

掃描下方二維碼,加入3D視覺知識星球,星球内凝聚了衆多3D視覺實戰問題,以及各個子產品的學習資料:近20門視訊課程(星球成員免費學習)、最新頂會論文、計算機視覺書籍、優質3D視覺算法源碼等。想要入門3D視覺、做項目、搞科研,歡迎掃碼加入!

論文題目:DMAD: Dual Memory Bank for Real-World Anomaly Detection

作者:Jianlong Hu, Xu Chen等

作者機構:Key Laboratory of Multimedia Trusted Perception and Efficient Computing, Ministry of Education of China, School of Informatics, Xiamen University等

論文連結:https://arxiv.org/pdf/2403.12362.pdf

這篇文章介紹了一個名為DMAD的新架構,用于處理現實世界中的異常檢測問題。傳統的多類設定通常隻使用正常資料,而忽略了少量但重要的已标注異常資料。為了解決這一挑戰,DMAD架構提出了雙記憶體增強表示學習的概念,可以處理無監督和半監督場景。DMAD利用雙記憶體庫計算正常和異常模式之間的特征距離和特征注意力,進而封裝了有關正常和異常執行個體的知識,并利用這些知識建構增強表示進行異常分數學習。實驗結果表明,在MVTec-AD和VisA資料集上,DMAD的性能優于目前的最先進方法,顯示了其在處理現實世界異常檢測場景複雜性方面的能力。

讀者了解:

這篇論文提出的DMAD架構在處理實際工業場景中的異常檢測問題方面具有很高的創新性和實用性。通過利用雙存儲器來建構增強表示,DMAD能夠有效地處理無監督和半監督場景,并且在MVTec-AD和VisA資料集上取得了顯著的性能提升。特别是,在處理少量已标注異常資料的情況下,DMAD能夠學習到更精确的決策邊界,進一步提高了異常檢測的準确性。然而,該研究僅對簡化場景進行了模拟,并且在異常的逐像素注釋方面存在一定的局限性,需要進一步的研究來解決這些問題

這篇文章介紹了一個名為DMAD的新架構,用于處理圖像異常檢測問題。傳統方法為每個對象訓練一個獨特的模型,但随着對象類别數量增加,這種方法導緻了存儲消耗的增加。為了解決這個問題,UniAD提出了一種多類設定,利用所有對象的正常資料來訓練一個統一模型。然而,目前的異常檢測方法主要依賴于無監督學習,并且在訓練過程中缺乏真實異常資料可能導緻邊界定義不準确。近期研究表明,在現實世界中擷取少量異常資料是可行的,這種半監督方法可以幫助模型預測潛在的異常模式并增強性能。是以,作者提出了一個新的統一半監督設定,填補了研究空白,這種設定更接近實際情況,統一友善,且在訓練過程中可以利用相似的缺陷提供額外優勢。作者提出的DMAD架構适用于這種統一半監督設定,同時也适用于一般的統一設定。DMAD利用雙記憶體庫來處理這兩種情況,首先利用一個更新檔特征編碼器提取特征,然後利用雙記憶體庫計算特征之間的距離和交叉注意力,最終使用多層感覺器學習特征表示與異常分數之間的映射。實驗結果表明,DMAD在MVTec-AD和VisA資料集上的表現顯著優于目前最先進的方法。

騰訊新作!如何解決缺少工業異常檢測資料?

這篇文章介紹了一個名為DMAD的新架構,旨在處理現實世界中的異常檢測問題。在實際工業場景中,訓練一個統一模型被認為更加相容和存儲效率更高。該架構面臨兩種情況:一般統一設定和帶有少量已标注異常的統一設定,即統一半監督設定。這取決于異常的可用性。為了實作這一目标,DMAD主要由三個元件組成:更新檔特征編碼器、基于雙記憶體庫的知識增強和異常分數映射器。DMAD的目标是訓練一個統一的神經網絡,能夠為異常配置設定比正常執行個體更高的異常分數。通過有效利用正常資料和可通路的異常資料,DMAD能夠在處理現實世界異常檢測挑戰方面取得顯著進展。

騰訊新作!如何解決缺少工業異常檢測資料?

2.1 更新檔特征編碼器

本節介紹了更新檔特征編碼器,主要由特征提取器FΦ : x → q 和可選的特征過濾操作Filter 組成。特征提取器FΦ 用于從圖像中提取更新檔特征,包括一個預訓練的主幹網絡和一個聚合操作。訓練圖像表示為x ∈ R3×H×W,提取的更新檔特征表示為q ∈ RN×C,其中N = H0×W0 表示更新檔數量,H0 和W0 分别表示特征的高度和寬度,C 表示特征的通道數。在一般統一設定中,僅可以使用正常資料,對于每個正常圖像xn,作者直接獲得其更新檔特征qn。當檢測系統運作時,一些已标注的異常變得可通路,并可以納入到DMAD 的訓練中。對于每個已見異常xas,作者使用Filter操作來從其提取的更新檔特征FΦ(xas) 中隔離異常部分。對于每個有缺陷的圖像xa,作者可以計算其異常的更新檔特征qa。這些更新檔特征将随後通過雙記憶體庫進行增強。

2.2 雙記憶體庫增強知識

本節介紹了基于雙記憶體庫的知識增強方法,用于處理異常檢測問題。首先介紹了雙記憶體庫的建構,其中包括正常記憶體庫Mn和異常記憶體庫Ma。正常記憶體庫存儲正常模式,而異常記憶體庫存儲潛在的缺陷模式。對于一般統一設定,使用coreset采樣算法從所有正常資料中提取更新檔特征來建構Mn。對于Ma,如果沒有可用的已标注異常,從DTD資料集中随機采樣異常資料建構Ma。當可用的已标注異常變得可通路時,将觀察到的已标注異常的過濾異常更新檔特征集Mas加入到Ma中。為了提取額外的知識,對于每個更新檔正常特征,從Mn和Ma中識别最近鄰特征,并計算特征與最近鄰特征的距離和注意力矩陣。最後,将特征本身和兩部分知識結合起來形成增強表示。這種方法有助于在異常檢測中更有效地利用所有可用的資訊,提高模型的性能。

2.3 異常評分映射器

本節介紹了異常分數映射器,用于将增強表示o映射到異常分數S。采用多層感覺器(MLP)Ψ學習映射關系,并使用鉸鍊損失函數優化網絡。在一般統一(多類别)場景中,采用特征增強政策生成僞負樣本,用于模型的訓練。當可用已标注異常時,使用三部分鉸鍊損失進行模型優化,其中λ1和λ2為超參數。這部分的工作有助于将增強表示與異常分數之間的關系模組化,進而提高異常檢測的性能。

2.4 異常檢測和定位

本節介紹了如何利用訓練良好的DMAD模型對測試圖像進行異常檢測和定位。首先,通過DMAD模型得出圖像的更新檔級别的異常分數,并取前5個異常分數的平均值作為圖像級别的分數。然後,對于像素級别的分數,采用雙線性插值和高斯平滑的方法來優化分數的值。這種方法有助于在異常檢測過程中對異常進行準确的定位和評分。

騰訊新作!如何解決缺少工業異常檢測資料?
  • 實驗部分主要介紹了在MVTec-AD和VisA資料集上對DMAD模型進行的實驗。MVTec-AD資料集包含來自不同領域的高分辨率圖像,分為訓練集和測試集,用于檢測紋理和物體缺陷。VisA資料集包含多個類别的高分辨率圖像,用于檢測複雜結構、多個執行個體和單個執行個體的物體。實驗使用了多個标準評估名額,包括AUROC、AP和F1max等,以及用于異常定位的PRO名額。
  • 在實驗中,采用了WideResnet50作為預訓練CNN骨幹網絡,從第2層和第3層提取特征,然後将其聚合成更新檔特征。對于投影層,采用了一個全連接配接層來投影特征和知識。MLP包括四個非線性層,每個非線性層包括一個線性層、批歸一化和Leaky ReLU激活。優化器采用AdamW,學習率為0.0001,用于線性層和投影層,MLP的學習率為0.0002。訓練過程持續48個epochs,批大小為32。
  • 實驗結果表明,在無監督情況下,DMAD在MVTec-AD資料集上的表現與UniAD相當,但在VisA資料集上優于UniAD。當少量注釋的異常可用時,DMAD利用雙存儲器學習更精确的決策邊界,在MVTec-AD和VisA資料集上實作了最先進的性能。
  • 此外,實驗還對異常定位進行了評估,結果表明DMAD在所有不同設定下均實作了最佳性能。綜上所述,DMAD在處理實際場景中的異常檢測問題時表現出色,具有較高的應用價值。
騰訊新作!如何解決缺少工業異常檢測資料?
騰訊新作!如何解決缺少工業異常檢測資料?
騰訊新作!如何解決缺少工業異常檢測資料?

這篇研究提出了一個名為DMAD的新架構,用于處理實際場景中的異常檢測問題。DMAD是一個統一的架構,能夠在多類别設定下管理無監督和半監督場景。它利用雙存儲器計算正常和異常執行個體的知識,然後利用這些知識建構增強表示,用于異常分數學習。在MVTec-AD和VisA資料集上的實驗結果表明,DMAD在異常檢測方面表現出優越性能。然而,該研究僅模拟了簡化的場景,并且對異常的逐像素注釋可能無法獲得,需要進一步研究新的方法來解決這些問題。

騰訊新作!如何解決缺少工業異常檢測資料?

本文僅做學術分享,如有侵權,請聯系删文。

3D視覺工坊交流群

目前我們已經建立了3D視覺方向多個社群,包括2D計算機視覺、大模型、工業3D視覺、SLAM、自動駕駛、三維重建、無人機等方向,細分群包括:

2D計算機視覺:圖像分類/分割、目标/檢測、醫學影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識别、模型量化剪枝、遷移學習、人體姿态估計等

大模型:NLP、CV、ASR、生成對抗大模型、強化學習大模型、對話大模型等

工業3D視覺:相機标定、立體比對、三維點雲、結構光、機械臂抓取、缺陷檢測、6D位姿估計、相位偏折術、Halcon、攝影測量、陣列相機、光度立體視覺等。

SLAM:視覺SLAM、雷射SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器标定、動态SLAM、MOT SLAM、NeRF SLAM、機器人導航等。

自動駕駛:深度估計、Transformer、毫米波|雷射雷達|視覺攝像頭傳感器、多傳感器标定、多傳感器融合、自動駕駛綜合群等、3D目标檢測、路徑規劃、軌迹預測、3D點雲分割、模型部署、車道線檢測、Occupancy、目标跟蹤等。

三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等

無人機:四旋翼模組化、無人機飛控等

除了這些,還有求職、硬體選型、視覺産品落地、最新論文、3D視覺最新産品、3D視覺行業新聞等交流群

添加小助理: dddvision,備注:研究方向+學校/公司+昵稱(如3D點雲+清華+小草莓), 拉你入群。

3D視覺工坊知識星球

3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點雲實戰、Open3D、缺陷檢測、BEV感覺、Occupancy、Transformer、模型部署、3D目标檢測、深度估計、多傳感器标定、規劃與控制、無人機仿真、三維視覺C++、三維視覺python、dToF、相機标定、ROS2、機器人控制規劃、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬體結構光掃描器,無人機等。

繼續閱讀