天天看點

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

作者:小小cv筆記
CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

論文題目:

Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection

摘要

本研究解決了在目标檢測中出現不同的紅外和可見光圖像的融合問題。為了生成高視覺品質的圖像,以前的方法發現了兩種模式的共同之處,并通過疊代優化或深度網絡融合在共同空間上。這些方法忽略了模态差異意味着互補資訊對于融合和随後的檢測任務都是極其重要的。本文提出了融合和檢測聯合問題的雙層優化公式,然後展開了目标感覺的融合雙對抗學習(TarDAL)網絡和常用的檢測網絡。該融合網絡在求同存異的同時,保留了紅外目标的結構資訊和可見光目标的紋理細節。此外,我們建立了一個同步成像系統與校準的紅外和光學傳感器,并收集目前最全面的基準涵蓋廣泛的場景。在幾個公共資料集上的大量實驗和我們的基準測試表明,我們的方法不僅輸出視覺上吸引人的融合,而且比最先進的方法具有更高的檢測mAP。

代碼https://github.com/dlut-dimt/TarDAL

1. 介紹

随着傳感硬體的快速發展,多模态成像在監控、自動駕駛等廣泛應用中受到了廣泛關注。特别是紅外和可見光傳感器的結合對于後續的智能處理具有顯著的優勢。可見光成像在明确的光照條件下提供高空間分辨率的豐富細節,而紅外傳感器捕捉物體發出的環境溫度變化,突出對光照變化不敏感的熱目标的結構。不幸的是,紅外圖像往往伴随着模糊的細節和較低的空間分辨率。由于兩者明顯的外觀差異,充分利用紅外和可見光的互補資訊,融合具有視覺吸引力的圖像和/或支援更高層次的視覺任務,如分割、跟蹤和檢測,是一項挑戰。

在過去的幾十年裡,人們開發了許多旨在提高視覺品質的紅外和可見光圖像融合(IVIF)方法。傳統的多尺度變換、優化模型、備用表示和子空間方法試圖發現兩種模态的内在共同特征,并設計合适的權重規則進行融合,方法通常必須調用一個耗時的疊代優化過程。最近,研究人員通過學習強大的特征表示和/或權重政策,将深度網絡引入到IVIF中,當有備援的準備好的圖像對可供訓練時。結果表明,這種融合是一種有效的推理過程,能有效地提高品質。

然而,無論是傳統方法還是深度人工授精方法,都力求提高品質,但忽略了後續檢測,這是許多實際計算機視覺應用的關鍵。這種融合更強調“尋找共同性”,而忽略了這兩種模式在呈現目标的結構資訊和環境背景的紋理細節方面的差異。這些差異對于區分目标的不同特征進行目标檢測起着至關重要的作用,同時産生高對比度的清晰外觀,便于人類檢測。此外,從這些差異(實際上是互補的資訊)中學習需要從兩種模式中全面收內建像資料。在光照和天氣變化的情況下拍攝的圖像與這兩種模式表現出明顯不同的特征。不幸的是,現有的資料收集隻涵蓋有限的條件,這對學習補充資訊和驗證有效性造成了障礙。

本文提出了融合與檢測聯合問題的雙層優化公式,這個公式展開到一個精心設計的雙對抗融合網絡,由一個生成器和兩個目标感覺鑒别器組成,以及一個常用的檢測網絡。一個鑒别器從紅外成像的圖像域區分前景熱目标,另一個鑒别器從可見光圖像的梯度域區分背景紋理細節。我們還推導了一種合作訓練政策來學習兩個網絡的最優參數。圖1表明,與最先進的(SOTA)相比,我們的方法可以用更少的時間和更少的參數,準确地從目标不同和視覺上吸引人的融合中檢測物體。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

我們的貢獻有四個方面:

•我們将圖像融合和目标檢測結合在一起,采用雙層優化配方,産生高檢測精度以及融合後的圖像具有更好的視覺效果。

•我們設計了一個目标感覺雙對抗學習網絡(TarDAL),具有較少的參數用于面向檢測的融合。這種單發生器和雙鑒别器網絡“求同存異”,從紅外中儲存目标資訊,從可見光中儲存紋理細節。

•我們從雙層公式中推導出一種合作訓練方案,為快速推理(融合和檢測)提供最佳網絡參數。

•我們建立了一個同步成像系統,配備了校準良好的紅外和光學傳感器,并收集了一個多場景多模态資料集(M3FD),其中包括4177對對齊的紅外和可見光圖像以及23,635個注釋對象。該資料集涵蓋了四種主要場景,包括不同的環境、光照、季節和天氣,具有廣泛的像素變化,如圖1所示。

2. 相關工作

融合子產品是多模态傳感器檢測目标的關鍵,本節簡要回顧以往與我們密切相關的基于學習的IVIF方法,以及學習和經驗評估所必需的現有基準。

2.1. 基于學習的方法

由于多層神經網絡強大的非線性拟合能力,深度學習在低層次視覺任務中取得了很好的進展。早期的工作将深度網絡作為特征提取或權重生成的子產品插入到IVIF過程中。Liu等人級聯了兩個預訓練的cnn,一個用于特征,另一個用于權重學習。研究人員還采用了端到端架構,使得一步網絡推理可以通過一組網絡參數生成可信的融合圖像。Li等引入殘差融合網絡,在公共空間中學習增強特征,得到有利于人類檢測的結構一緻的結果。

最近,基于生成對抗網絡(GAN)的IVIF方法通過将不同的分布傳遞到期望的分布産生了吸引人的結果。為了增強紋理細節,Ma等人首次引入了融合圖像和可見圖像之間的對抗博弈。然而,這種信号對抗機制可能會丢失來自紅外的重要資訊。Ma等人對可見光和紅外線采用了相同的對抗政策,部分補償了紅外資訊。不幸的是,所有這些方法都無法捕捉到這兩種成像類型的不同特征,值得研究這些互相補充的差異,融合和檢測都可以從中受益。

2.2. 基準

近年來,我們見證了IVIF基準的快速發展,包括TNO圖像融合、INO視訊分析、OSU Color-Thermal、RoadScene和多光譜資料集。TNO資料集是IVIF最常用的公開資料集,包含261對白天和夜間的多光譜圖像。INO資料集由加拿大國家光學研究所提供,包含對準的紅外和可見光對。它有助于在具有挑戰性的環境中開發用于視訊分析應用的多種傳感器類型。建立了基于融合目标檢測的OSU色熱資料庫,該資料庫包含285對配準的紅外和彩色可見光圖像。整個資料集是白天在俄亥俄州立大學校園一條繁忙的道路上收集的。Xu等人釋出了Roadscene,在包含車輛和行人等豐富物體的道路場景中拍攝了221對對齊的紅外和可見光對。Takumi等人提出了一種新的用于自動駕駛的多光譜資料集,該資料集由RGB、NIR、MIR和FIR圖像以及帶注釋的對象類别組成。

表1列出了這些資料集的配置檔案,如規模、分辨率、照明和場景類别。低圖像分辨率、有限的對象和場景類型以及很少的标簽阻礙了現有資料集在多模态的進階檢測任務中的廣泛應用。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

3.建議的方法

本節詳細介紹了我們的方法,從融合和檢測的雙層優化配方開始。然後,我們詳細闡述了目标感覺雙對抗學習網絡的融合。最後,我們給出了一種協同訓練方案來學習融合和檢測的最優參數。

3.1. 問題公式化

與以前的高視覺品質的方法不同,我們指出,IVIF必須生成有利于視覺檢查和計算機感覺的圖像,即面向檢測的融合。設紅外光、可見光、融合光均為灰階,大小為m × n,分别用列向量x、y、u∈Rmn×1表示。根據不言自明的Stackelberg理論,我們将面向探測的融合表述為一個雙層優化模型:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

式中,Ld為檢測特定的訓練損失,Ψ為具有可學習參數ωd的檢測網絡。f(·)是基于能量的保真度項,其中包含融合圖像u和源圖像x和y,而gT(·)和gD(·)分别是在紅外和可見光上定義的兩個可行性限制。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

圖2(a)表明,這種雙層配方使得找到有利于融合和的解決方案成為可能,然而,由于融合任務不是一個簡單的等式/不等式限制,用傳統的優化技術求解Eq.(2)是不平凡的。相反,我們引入了一個融合網絡Φ,并将學習到的參數ωf轉換為單級優化:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

是以,我們将優化展開到兩個學習網絡Φ和Ψ。我們采用YOLOv5作為檢測網絡Ψ的骨幹,其中Ld也遵循其設定,并精心設計融合網絡Φ如下所示。

3.2. 目标感覺雙重對抗網絡

典型的深度融合方法努力學習兩種不同形态背後的共同特征。相反,我們的融合網絡尋求共同點,同時從差異中學習,這意味着這兩種成像類型的互補特征。通常,紅外線突出目标的獨特結構,而可見光則提供背景的紋理細節。

我們引入了一個由一個生成器和兩個鑒别器組成的對抗遊戲,以便将兩種模式的共同特征與不同特征結合起來,如圖2(b)所示。發生器G被鼓勵提供一個真實的融合圖像,同時欺騙兩個鑒别器。目标鑒别器DT評估來自紅外的目标與由G給出的融合所掩蓋的目标之間的強度一緻性(圖2(b)的上排);細節鑒别器DD區分可見光和融合後的梯度分布(圖2(b)的下一行)。這兩種鑒别器在不同的領域工作,因為目标具有一緻的強度分布,而梯度表征紋理。

生成器:該生成器有助于生成融合圖像,該圖像保留了整體結構并保持與源圖像相似的強度分布。常用的結構相似度指數(SSIM)作為損失函數:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

式中LSSIM為結構相似度損失,為了平衡源圖像的像素強度分布,我們引入了基于顯著度權重(SDW)的像素損失。假設x在第k個像素處的顯著性值可以由Sx(k) = 255Σi=0 Hx(i)|x(k)−i|得到,其中x(k)為第k個像素的值,Hx為像素值i的直方圖,我們定義像素損失Lpixel為:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

我們采用5層密集塊作為G提取共同特征,然後使用具有三層卷積的合并塊進行特征聚合。每個卷積層由一個卷積操作、批歸一化和ReLU激活函數組成,生成的融合圖像u與源圖像大小相同。

目标和細節鑒别器:目标鑒别器DT用于将融合結果的前景熱目标區分為紅外,細節鑒别器DD用于将融合結果的背景細節區分為可見光。我們使用預訓練的顯著性檢測網絡從紅外圖像中計算目标掩模m,使兩個鑒别器可以在各自的區域(目标和背景)上執行。是以,我們定義對抗損失Ladvf為:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

R = x●m和R = 1−R,區分目标和背景;表示逐點乘法。∇(·)表示梯度運算,如Sobel。

這些鑒别器的對抗損失函數計算Wasserstein散度,以互相識别前景熱目标和背景紋理細節是否真實,定義為:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

其中,≈r(x)表示與≈p(x)相似的樣本空間。通常,k和p分别等于2和6。兩個鑒别器DT和DD具有相同的網絡結構,具有四個卷積層和一個全連接配接層。圖3展示了生成器和雙鑒别器的詳細架構。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

總的來說,它是上述三個主要部分的結合:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

其中α和β是權衡參數。

3.3. 合作訓練政策

兩層優化自然衍生出協同訓練政策,以獲得最優網絡參數ω = (ωd, ωf)。我們引入融合正則器Lf,将融合限制下的Eq.(3)優化檢測轉化為互相優化:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

其中λ是權衡參數,而不是設計一個權重規則,該正則化器可以很好地平衡融合和檢測。

圖2(c)展示了梯度傳播協同訓練融合和檢測網絡的流程,關于ωd和ωf的損耗梯度計算為:

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

這些方程揭示了檢測損失随檢測參數的變化而變化的梯度。熔合參數都是反向傳播的,後者還包括熔合損失與熔合參數之間的梯度。

最後,該政策不僅可以生成視覺上吸引人的圖像,而且可以在給定訓練網絡參數的情況下輸出準确的檢測結果,使我們能夠找到面向檢測的融合的最優解,并且比獨立訓練方案更有效地收斂。

4. 多場景多模式基準

現有的紅外和可見光圖像資料集很難應用于學習和/或評估多模态資料的檢測。我們的基準M3FD包含不同場景下不同對象類型的高分辨率紅外和可見光圖像,如表1最後一行所示。

我們建構了一個包含一個雙目光學相機和一個雙目紅外傳感器的同步系統(如圖5所示),以捕獲相應的自然場景雙模态圖像。可見光和紅外雙目錄影機的基線(雙目透鏡焦心之間的距離)分别為12cm和20cm。可見光和紅外傳感器之間的光心距離為4cm。可見光圖像的分辨率為1024×768,成像範圍廣;紅外圖像的标準分辨率為640×512,波長範圍為8−14µm。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

我們首先對所有錄影機進行校準,以估計其内部和外部參數,然後計算一個将紅外圖像的坐标投影到可見光圖像的單應性矩陣。最終,我們通過将所有圖像扭曲到一個共同的坐标,獲得了尺寸為1024 × 768的紅外/可見光圖像對。

我們将M3FD中所有4200對對齊的對分為四種典型類型,即白天、陰天、夜晚和挑戰,以及圖4所示的10個子場景。同時,我們标注了People, Car, Bus, Motorcycle, Truck和Lamp這6個類的33,603個對象,這些對象通常出現在監控和自動駕駛中。M3FD的數量和多樣性為融合圖像學習和評價目标檢測提供了可能。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

5. 實驗

我們對四個資料集進行了實驗評估(三個用于IVIF,即TNO, Roadscene和M3FD,兩個用于目标檢測,即MS和M3FD)。選取180/ 3500張多模态圖像,通過随機裁剪和增強分别裁剪成像素為320×320的24k/151k小塊,用于訓練融合和檢測任務。調諧參數α和β分别設定為20和0.1。Adam優化器以1.0 × 10−3的學習率和指數衰減更新網絡參數。epoch設定為300,批大小為64。我們的方法在PyTorch上使用NVIDIA Tesla V100 GPU實作。

5.1. 紅外-可見光圖像融合結果

我們通過比較7種最先進的方法來評估TarDAL的融合性能,包括DenseFuse、fusongan、RFN、GANMcC、DDcGAN、MFEIF和U2Fusion。

三個資料集的三個典型圖像對的直覺定性結果如圖6所示。與其他現有方法相比,我們的TarDAL有兩個顯著的優點,首先,可以很好地保留紅外圖像中的判别目标。如圖6所示(第二組的綠色纏結),我們方法中的人物對比度高,輪廓鮮明突出,有利于視覺觀察。其次,我們的結果可以保留可見光圖像中豐富的紋理細節(第一組和第三組的綠色纏結),更符合人類的視覺系統。相比之下,視覺檢測表明,DenseFuse和fusongan不能很好地突出區分目标,而GANMcC和DDcGAN不能獲得豐富的紋理細節。請注意,我們的TarDAL能夠生成更加視覺友好的融合結果,具有清晰的目标,更銳利的邊緣輪廓,并保留豐富的紋理細節。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

随後,我們對TarDAL與上述競争對手的400對圖像(來自TNO的20對圖像,來自RoadScene的40對圖像和來自M3FD的340對圖像)進行了定量比較。并引入互資訊(MI)、熵(EN)和标準差(SD)三個評價名額進行評價。定量結果如圖7所示。從統計結果可以看出,我們的方法在三個資料集上連續産生所有評價名額中最大或第二大的平均值。同時,方差較低表明我們的方法在處理各種視覺場景時更加穩定。具體來說,MI的平均值最大證明了我們的方法從兩個源圖像中傳遞了更可觀的資訊,EN和SD值表明我們的結果包含豐富的資訊,目标與背景的對比度最高。總之,我們的方法在一定程度上穩定地保留了有用的資訊,特别是最具辨識力的目标,最豐富的紋理細節,以及與源圖像相當的結構相似性。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

5.2. 紅外-可見目标檢測結果

為了深入讨論IVIF如何影響多模态目标檢測性能,我們使用了兩個資料集,即Multispectral和M3FD,其中,我們使用YOLOv5作為目标檢測的基線模型。為了公平比較,我們分别保留了七種最先進方法融合結果的檢測模型。

如圖8所示,請注意,僅使用紅外或可見光傳感器不能很好地檢測,例如,紅外圖像是停車的汽車,可見光圖像是人。相反,幾乎所有的融合方法都是利用雙方的互補資訊來提高檢測性能的。我們的方法通過設計目标感覺的雙層對抗學習和合作訓練方案的內建,可以持續生成檢測友好的融合結果,在檢測人和車輛(如隐蔽的汽車和遠處岩石上的行人)方面具有優勢。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

表2報告了兩個資料集的定量結果,幾乎所有的融合方法都取得了很好的檢測效果,其檢測AP大大超過了僅使用可見光或紅外圖像的情況。值得注意的是,我們的TarDAL在兩個資料集上的檢測mAP優于其他方法,分别比第二個資料集(即DenseFuse和GANMcC)提高了1.4%和1.1%。值得指出的是,我們的TarDAL在處理挑戰場景方面具有優勢,因為TarDAL充分發現了來自不同模态的獨特資訊。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

為了全面分析我們的方法的計算複雜度,我們提供了所有方法的時間消耗和計算效率。如表2最後一列所示,cnn強大的計算能力使得這些基于學習的方法能夠達到很高的速度。值得注意的是,我們的方法在FLOPs和訓練參數方面同時實作了最高的運作速度和較低的計算複雜度,高效地內建了後續的進階視覺應用。

5.3. 消融研究

模型體系結構研究 我們研究了我們的方法的模型體系結構,并進一步驗證了不同單個元件的有效性,首先,我們從整個網絡中去除目标鑒别器DT。在圖9中,由于該變體沒有區分出重要的紅外目标,融合後的結果往往會在一定程度上模糊目标。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

此外,從表3中可以看出,DT對于提高融合後的檢測性能也起着至關重要的作用,其次,細節鑒别器DD有助于保留可見圖像中的紋理細節。在沒有DD的情況下,融合圖像的背景細節無法完全恢複,直覺的視覺結果如圖9所示。然而,由于備援的背景細節,DD對目标檢測有很小的負面影響。此外,如果DT和DD不整合到我們的整個網絡中,EN和SD可以在TNO資料集上獲得最高的值,這是因為在融合結果上有較大的噪聲可能會導緻EN和SD的顯著上升。綜上所述,我們的方法依賴于每一步的中間結果,每一步對最終的融合結果都有積極的影響。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

訓練損失函數分析 分析訓練損失函數我們讨論了不同的損失函數對我們方法的影響。在圖10中,我們很容易注意到,我們的方法比沒有SDW的方法可以保持更多顯著的像素分布和高對比度,這可以說明新設計的SDW函數的有效性。同時,沒有m的方法可能會丢失一些重要的細節,例如樹葉和煙囪輪廓。這是因為m允許兩個判别器在各自的區域下進行對抗性學習,進而更加關注它們的獨特性。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

評估不同版本的教育訓練政策 對比直接訓練(DT)和任務導向訓練(TT),我們進一步驗證了合作訓練(CT)的優勢。如圖11所示,TT隻使用檢測損失來訓練網絡,導緻觀察的視覺效果較差。相比之下,CT在提高檢測性能和更好的視覺效果方面具有明顯的優勢。同樣的趨勢可以在表4中發現,CT在兩個不同的資料集中達到最大或第二大得分。

CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準
CVPR2022(oral):目标感覺雙對抗學習融合紅外和可見光多模态基準

6. 結論

本文提出了一種共同實作融合與檢測的雙層優化公式,通過将模型展開到一個設計良好的融合網絡和一個常用的檢測網絡,我們可以生成一個視覺友好的融合和目标檢測結果。為了促進該領域的進一步研究,我們提出了一種可見光-紅外傳感器同步成像系統,并收集了多場景多模态基準。

繼續閱讀