目錄
- 📝論文下載下傳位址
- 🔨代碼下載下傳位址
- 👨🎓論文作者
- 📦模型講解
-
- [背景介紹]
- [論文解讀]
-
-
- [VIF-Net網絡結構]
- [M-SSIM+TV損失]
-
-
- [SSIM]
- [TV]
-
- [VIF-Net的訓練]
-
- [結果分析]
-
-
- [評價名額]
-
-
- [ M I MI MI]
- [ Q A B / F Q^{AB/F} QAB/F]
- [ P C PC PC]
- [ Q N C I E Q^{NCIE} QNCIE]
- [ U I Q I UIQI UIQI]
-
- [不同方法之間的對比實驗]
- [不同λ之間的對比實驗]
- [推理時間對比]
- [擴充實驗-視訊融合]
-
- [實踐結果]
- 🚪傳送門
📝論文下載下傳位址
[論文位址]
🔨代碼下載下傳位址
[代碼位址-unofficial]
👨🎓論文作者
Ruichao Hou, Dongming Zhou, Rencan Nie, Dong Liu, Lei Xiong, Yanbu Guo, and Chuanbo Yu
📦模型講解
[背景介紹]
圖像融合時資訊融合的一種,本質就是增強技術,運用多傳感器獲得的不同資料來提高網絡性能。相對于單傳感器的資料局限于一種資料的特性,多傳感器能同時利用多中資料的特性,在視訊監控、衛星成像、軍事上都有很好的發展前景。對于本文來說,可見圖像提供了豐富的紋理細節和環境資訊,而紅外圖像則受益于夜間可見性和對高動态區域的抑制。如下圖所示,左邊時紅外圖像,右邊是可見光圖像。

圖像融合最關鍵的技術是怎麼樣能融合利用多種資料的優勢。往往引入多種資料是雙面性的,是以要抑制資料的不同帶來的幹擾。例如做變化檢測的時候,往往因為成像不同而網絡會錯誤地檢測為變化。
上圖展示了圖像融合的基本操作,将可見光和紅外圖像同時輸入網絡中,進行特征提取,之後進行特征融合,最後特征重建,生成融合圖像。中間網絡的部分也就是作者提出的VIF-Net。
[論文解讀]
作者主要針對其他融合方法有計算成本的局限性,而且需要手動設計融合規則。由此,作者提出了自适應的端到端深度融合架構VIF-Net,旨在生成資訊更豐富的圖像,包含大量的熱資訊和紋理細節。
[VIF-Net網絡結構]
VIF-Net的全稱為Visible and Infrared image Fusion Network就是可見光和紅外圖像融合網絡。VIF-Net體系結構如下圖所示,它由三個主要元件組成:特征提取,融合和重建。
可見圖像和紅外圖像分别表示為 I A I_A IA和 I B I_B IB,它們輸入到雙通道中。通道 A A A由 C 11 C11 C11和包含 D 11 D11 D11、 D 21 D21 D21和 D 31 D31 D31的block組成。通道 B B B由 C 12 C12 C12和一個包含 D 12 D12 D12, D 22 D22 D22和 D 32 D32 D32的block組成。第一層( C 11 C11 C11和 C 12 C12 C12)包含3×3的卷積以提取底層特征,每個 D D D中的三個卷積層也都是3×3的卷積。由于這兩個通道共享相同的權重以提取相同類型的深度特征,是以此結構在降低計算複雜度方面也具有優勢。在特征融合部分,作者嘗試直接連接配接深層特征,也就是通道進行疊加。最後,特征融合層的結果通過另外五個卷積層( C 2 C2 C2, C 3 C3 C3, C 4 C4 C4, C 5 C5 C5和 C 6 C6 C6)來從融合特征中重建融合結果。下表概述了網絡的更詳細的體系結構:
從表格的結構可以看出,假設輸出都是單通道的圖像,經過前面的特征提取層,每一層的輸出都會與後面所有層的輸出直接相連,這裡是通道疊加。這樣,可見光通道會輸出 16 + 16 + 16 + 16 = 64 16+16+16+16=64 16+16+16+16=64通道的特征圖,兩個網絡通道會生成 128 128 128通道,在特征融合層進行通道疊加,輸入特征重建的就是 128 128 128通道的特征圖。
[M-SSIM+TV損失]
從上面的結構圖可以看到,損失函數主要分為兩部分 L S S I M L_{SSIM} LSSIM和 L T V L_{TV} LTV,作者設計的損失函數為:
L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV
[SSIM]
SSIM是一種衡量圖像結構相似性的算法,結合了圖像的亮度,對比度和結構三方面對圖像品質進行測量。原本的SSIM公式為:
S S I M ( x , y ) = [ l ( x , y ) ] α × [ c ( x , y ) ] β × [ s ( x , y ) ] γ SSIM(x,y)=[l(x,y)]^α×[c(x,y)]^β×[s(x,y)]^γ SSIM(x,y)=[l(x,y)]α×[c(x,y)]β×[s(x,y)]γ
其中 l ( x , y ) l(x,y) l(x,y)為亮度部分:
l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 l(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1} l(x,y)=μx2+μy2+C12μxμy+C1
其中 c ( x , y ) c(x,y) c(x,y)為對比度部分:
c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 c(x,y)=\frac{2σ_xσ_y+C_2}{σ_x^2+σ_y^2+C_2} c(x,y)=σx2+σy2+C22σxσy+C2
其中 s ( x , y ) s(x,y) s(x,y)為結構部分:
s ( x , y ) = σ x y + C 3 σ x σ y + C 3 s(x,y)=\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} s(x,y)=σxσy+C3σxy+C3
其中 μ x μ_x μx與 μ y μ_y μy是圖像的像素平均值, σ x σ_x σx和 σ y σ_y σy為像素的标準差, σ x y σ_{xy} σxy為 x y xy xy的協方差, C 1 C_1 C1、 C 2 C_2 C2和 C 3 C_3 C3是常數,防止分母為0。一般情況下, α = β = γ = 1 、 C 2 = 2 × C 3 α=β=γ=1、C_2=2×C_3 α=β=γ=1、C2=2×C3則:
S S I M ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x σ y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 × σ x y + C 3 σ x σ y + C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + C 2 σ x 2 + σ y 2 + C 2 SSIM(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_xσ_y+2C_3}{σ_x^2+σ_y^2+2C_3}×\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} \\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+2C_3}{σ_x^2+σ_y^2+2C_3}\\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+C_2}{σ_x^2+σ_y^2+C_2} SSIM(x,y)=μx2+μy2+C12μxμy+C1×σx2+σy2+2C32σxσy+2C3×σxσy+C3σxy+C3=μx2+μy2+C12μxμy+C1×σx2+σy2+2C32σxy+2C3=μx2+μy2+C12μxμy+C1×σx2+σy2+C22σxy+C2
作者認為圖像分辨率很低亮度就不是很重要,是以去除了亮度,重寫公式:
S S I M M ( x , y ∣ W ) = 2 σ x y + C σ x 2 + σ y 2 + C SSIM_M(x,y|W)=\frac{2σ_{xy}+C}{σ_x^2+σ_y^2+C} SSIMM(x,y∣W)=σx2+σy2+C2σxy+C
根據以上公式可以計算 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM(IA,IF∣W)和 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM(IB,IF∣W),其中 W W W代表一個滑動視窗,大小為 m × n m×n m×n,作者設定視窗為 11 × 11 11×11 11×11、 C = 9 × 1 0 − 4 C=9×10^{-4} C=9×10−4,利用這個公式來衡量 I F I_F IF與 I A I_A IA或者 I B I_B IB哪個更相似。例如 S S I M M ( I B , I F ∣ W ) > S S I M M ( I A , I F ∣ W ) SSIM_M(I_B,I_F|W)>SSIM_M(I_A,I_F|W) SSIMM(IB,IF∣W)>SSIMM(IA,IF∣W)則 I F I_F IF與 I B I_B IB在視窗 W W W中更相似, I F I_F IF在視窗 W W W保留更多紅外的資訊。這樣就能按以下公式自适應學習深度特征:
E ( I ∣ W ) = 1 m × n ∑ i = 1 m × n P i E(I | W)=\frac{1}{m \times n} \sum_{i=1}^{m \times n} P_{i} E(I∣W)=m×n1i=1∑m×nPi
Score ( I A , I B , I F ∣ W ) = { SSIM M ( I A , I F ∣ W ) if E ( I A ∣ W ) > E ( I B ∣ W ) SSIM M ( I B , I F ∣ W ) if E ( I A ∣ W ) ≤ E ( I B ∣ W ) \text { Score }\left(I_{A}, I_{B}, I_{F} | W\right)=\left\{\begin{array}{l} \operatorname{SSIM}_{M}\left(I_{A}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right)>E\left(I_{B} | W\right) \\ \operatorname{SSIM}_{M}\left(I_{B}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right) \leq E\left(I_{B} | W\right) \end{array}\right. Score (IA,IB,IF∣W)={SSIMM(IA,IF∣W) if E(IA∣W)>E(IB∣W)SSIMM(IB,IF∣W) if E(IA∣W)≤E(IB∣W)
L S S I M = 1 − 1 N ∑ W = 1 N Score ( I A , I B , I F ∣ W ) L_{S S IM}=1-\frac{1}{N} \sum_{W=1}^{N} \operatorname{Score}\left(I_{A}, I_{B}, I_{F} | W\right) LSSIM=1−N1W=1∑NScore(IA,IB,IF∣W)
上面第一個公式是計算視窗内的平均值,之後計算SSIM如果包含更多 A A A的資訊,那麼将 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM(IA,IF∣W)作為得分;如果包含更多 B B B的資訊,那麼将 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM(IB,IF∣W)作為得分。第三個公式給出了 L S S I M L_{SSIM} LSSIM的計算方法, N N N為滑窗的總個數,将其取平均值後與1相減作為損失函數。
[TV]
TV全稱是Total Variation譯為總體變化,是一種衡量圖檔噪聲的名額,傳統的TV計算的公式為:
R V β ( x ) = ∑ i , j ( ( x i , j + 1 − x i j ) 2 + ( x i + 1 , j − x i j ) 2 ) β 2 \mathcal{R}_{V^{\beta}}(\mathbf{x})=\sum_{i, j}\left(\left(x_{i, j+1}-x_{i j}\right)^{2}+\left(x_{i+1, j}-x_{i j}\right)^{2}\right)^\frac{β}{2} RVβ(x)=i,j∑((xi,j+1−xij)2+(xi+1,j−xij)2)2β
其中, x i x_i xi代表一個像素,将其與水準方向+1的像素做差的平方,和垂直方向+1的像素做差的平方,兩者之和開 β 2 \frac{β}{2} 2β次方,對每個像素求和(除最後一行和列像素),這樣就計算出TV。是以如果他有噪聲的話,TV會明顯變大,因為像素之間的變化會很大。然而,TV很小的話,圖像會很模糊,因為相近的像素相等TV最小。作者運用以下公式求取 L T V L_{TV} LTV。
R ( i , j ) = I A ( i , j ) − I F ( i , j ) L T V = ∑ i , j ( ∥ R ( i , j + 1 ) − R ( i , j ) ∥ 2 + ∥ R ( i + 1 , j ) − R ( i , j ) ∥ 2 ) \begin{array}{c} R(i, j)=I_{A}(i, j)-I_{F}(i, j) \\ L_{T V}=\sum_{i, j}\left(\|R(i, j+1)-R(i, j)\|_{2}+\|R(i+1, j)-R(i, j)\|_{2}\right) \end{array} R(i,j)=IA(i,j)−IF(i,j)LTV=∑i,j(∥R(i,j+1)−R(i,j)∥2+∥R(i+1,j)−R(i,j)∥2)
首先對 I A I_A IA和 I F I_F IF對應像素相減,得到 R ( i , j ) R(i,j) R(i,j),對 R ( i , j ) R(i,j) R(i,j)求TV,作者取 β = 2 β=2 β=2。接下來作者提到, L S S I M L_{SSIM} LSSIM和 L T V L_{TV} LTV不在統一數量級, L S S I M L_{SSIM} LSSIM會比 L T V L_{TV} LTV低 1 0 2 − 1 0 3 10^2-10^3 102−103。是以,這會導緻網絡更偏重于TV,使得圖像分辨率,對比度較低,這也符合TV過低的情況。作者于是引入平衡參數 λ λ λ使兩種損失函數在同一水準上。
L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV
[VIF-Net的訓練]
作者從公開可用的TNO圖像資料集和INO視訊資料集中收集了25對覆寫不同場景的可見和紅外圖像。 由于此資料集太小而無法滿足訓練要求,是以裁剪了約25000個尺寸為64×64的更新檔,以擴充訓練資料集而沒有任何人工标簽; 資料集的樣本如下圖所示。此外,作者将網絡訓練了50個epoch,使用Adam優化器以 1 0 − 4 10^{-4} 10−4的學習率将損失。 作者的網絡是在TensorFlow上實作的,并在配備Intel E5 2670 2.6 GHz CPU,16 GB RAM和NVIDIA GTX1080Ti GPU的PC上進行了訓練。
[結果分析]
[評價名額]
為了防止主觀視覺的人為因素,作者使用物種可靠的量化名額:互資訊/mutual information/ M I MI MI、邊緣保持/edge retentiveness/ Q A B / F Q^{AB/F} QAB/F、相位一緻性/phase congruency/ P C PC PC、非線性相關資訊熵/nonlinear correlation information entropy/ Q N C I E Q^{NCIE} QNCIE、通用圖像品質指數/universal image quality index/ U I Q I UIQI UIQI。
[ M I MI MI]
M I MI MI分數越高,表示從源圖像獲得的資訊越豐富。公式如下: M I = ∑ i A ∈ I A F ∑ i ∈ I F p ( i A , i F ) log 2 p ( i A , i F ) p ( i A ) p ( i F ) + ∑ i B ∈ I B ∑ i F ∈ I F p ( i B , i F ) log 2 p ( i B , i F ) p ( i B ) p ( i F ) M I=\sum_{i_{A} \in I_{A_{F}}} \sum_{i \in I_{F}} p\left(i_{A}, i_{F}\right) \log _{2} \frac{p\left(i_{A}, i_{F}\right)}{p\left(i_{A}\right) p\left(i_{F}\right)}+\sum_{i_{B} \in I_{B}} \sum_{i_{F} \in I_{F}} p\left(i_{B}, i_{F}\right) \log _{2} \frac{p\left(i_{B}, i_{F}\right)}{p\left(i_{B}\right) p\left(i_{F}\right)} MI=iA∈IAF∑i∈IF∑p(iA,iF)log2p(iA)p(iF)p(iA,iF)+iB∈IB∑iF∈IF∑p(iB,iF)log2p(iB)p(iF)p(iB,iF)
其中 p ( i A , i F ) p(i_A,i_F) p(iA,iF)為 i A i_A iA與 i F i_F iF的聯合機率分布, p ( i A ) p(i_A) p(iA)為 i A i_A iA的邊緣機率分布。
[ Q A B / F Q^{AB/F} QAB/F]
Q A B / F Q^{AB/F} QAB/F測量了從原圖像到融合圖像轉移的圖像邊緣數量。公式如下:
Q A B / F = ∑ i = 1 N ∑ j = 1 M ( Q A F ( i , j ) w A ( i , j ) + Q B F ( i , j ) w B ( i , j ) ) ∑ i N ∑ j M ( w A ( i , j ) + w B ( i , j ) ) Q^{AB/F}=\frac{\sum_{i=1}^{N} \sum_{j=1}^{M}\left(Q^{A F}(i, j) w^{A}(i, j)+Q^{B F}(i, j) w^{B}(i, j)\right)}{\sum_{i}^{N} \sum_{j}^{M}\left(w^{A}(i, j)+w^{B}(i, j)\right)} QAB/F=∑iN∑jM(wA(i,j)+wB(i,j))∑i=1N∑j=1M(QAF(i,j)wA(i,j)+QBF(i,j)wB(i,j))
這裡比較難了解計算,簡單來說,會通過邊緣檢測算法(Sobel邊緣檢測算法)計算出輸入圖像和融合圖像的邊緣資訊,在通過上式得出名額,名額越高越好。具體的過程可以通路[多聚焦圖像像素級融合方法研究-總第27頁-論文頁碼第14頁-⑥]
[ P C PC PC]
PC表示融合圖像的結構,定義如下:
P C = ( P p ) α ( P M ) β ( P m ) γ PC=(P_p)^α(P_M)^β(P_m)^γ PC=(Pp)α(PM)β(Pm)γ
其中 p p p, M M M和 m m m分别是相位,最大力矩和最小力矩,且 α = β = γ = 1 α=β=γ=1 α=β=γ=1。
[ Q N C I E Q^{NCIE} QNCIE]
Q N C I E Q^{NCIE} QNCIE度量源圖像和融合圖像之間的非線性相關熵,定義如下:
Q N C I E = 1 + ∑ i = 1 3 λ i 3 log 256 ( λ i 3 ) Q^{N C I E}=1+\sum_{i=1}^{3} \frac{\lambda_{i}}{3} \log _{256}\left(\frac{\lambda_{i}}{3}\right) QNCIE=1+i=1∑33λilog256(3λi)
其中 λ i \lambda_{i} λi是非線性相關矩陣的特征值。
[ U I Q I UIQI UIQI]
另外, U I Q I UIQI UIQI是一種從相關損失,亮度和對比度三個方面來測量圖像品質的評估名額。 定義如下:
U I Q I = [ 4 σ I , I F μ I μ I F ( σ I A 2 + σ I F 2 ) ( μ I A 2 + μ I F 2 ) + 4 σ I B I F μ I B μ I F ( σ I B 2 + σ I F 2 ) ( μ I B 2 + μ I F 2 ) ] 2 U I Q I=\frac{\left[\frac{4 \sigma_{I, I_{F}} \mu_{I} \mu_{I_{F}}}{\left(\sigma_{I_{A}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{A}}^{2}+\mu_{I_{F}}^{2}\right)}+\frac{4 \sigma_{I_{B} I_{F}} \mu_{I_{B}} \mu_{I_{F}}}{\left(\sigma_{I_{B}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{B}}^{2}+\mu_{I_{F}}^{2}\right)}\right]}{2} UIQI=2[(σIA2+σIF2)(μIA2+μIF2)4σI,IFμIμIF+(σIB2+σIF2)(μIB2+μIF2)4σIBIFμIBμIF]
其中 μ μ μ和 σ σ σ分别表示平均值和标準偏差, σ I A I F σ_{I_AI_F} σIAIF是 I A I_A IA和 I F I_F IF之間的互相關。
[不同方法之間的對比實驗]
下面三個表格展示了三種圖像(“Human”、“Street”、“Kaptein”)的測試結果。可以看出VIF-Net取得不錯的性能。
其中作者對損失函數的超參數的取值進行對比,Proposed-500/800/1000分别對應 λ = 500 / 800 / 1000 \lambda =500/800/1000 λ=500/800/1000也就是下式:
L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV
下圖是三種圖像的展示(自上向下是“Human”、“Street”、“Kaptein”),紅色框是一些關鍵特征,可以看出效果很好:
從上圖中可以看到,由于大量的人工噪聲,RP和CBF的結果具有較差的視覺效果。 此外,DLF,ADF,CVT,DTCWT,ASR,FPDE的結果看起來非常相似,并且會産生僞像,目标尚不清楚。 此外,GFCE和GTF包含明亮而顯眼的目标,但是基于GFCE的融合圖像的背景由于細節和亮度的增強而失真。 由于GTF可以平滑紋理,是以可見的細節和邊緣會在一定程度上丢失。作者的方法會突出顯示紅外目标并保留紋理細節,進而在這些方法中提供最佳的融合性能。
上圖示出了“Street”的融合結果。 主要目标是将行人和路燈之類的資訊融合到單個圖像中,并盡可能保留車輛等環境資訊。 更具體地說,作者所提出的方法的結果完全保留了信号燈,闆上的字母和行人資訊。 相反,GTF的結果會丢失大部分可見的細節,如标記區域所示。 DLF,ADF和FPDE的結果分辨率低,CVT,DTCWT和ASR将僞邊緣引入融合圖像,并且由于GFCE過度增強,融合結果中出現了僞影和失真。
上圖中顯示的結果與上述兩組相似,并且在作者的結果中保留了突出特征,例如天空,雨傘,帳篷,尤其是行人特征。 總而言之,GTF的結果會平滑可見的細節和邊緣,GFCE會導緻圖像失真,CBF和RP引入噪聲,而基于DLF,ADF,CVT,DTCWT,ASR和FPDE的方法會導緻對比度和分辨率低。 相反,作者的方法産生最佳的視覺效果。 此外,在作者的方法中基于不同參數的結果非常相似,在視覺評估水準上的差異可以忽略不計。
通常,由于單個度量無法客觀地測量融合品質,是以作者選擇這五個可靠的度量來評估不同的方法。 所提出的方法在 M I MI MI, Q A B / F Q^{AB / F} QAB/F, P C PC PC, Q N C I E Q^{NCIE} QNCIE和 U I Q I UIQI UIQI方面達到了最新的性能。 特别是, M I MI MI名額表明,VIF-Net在保留顯着特征和紋理細節方面沒有明顯的僞像和失真,具有很高的能力。
其他資料上的結果如下圖所示:
其他資料上的結果在定量上的對比如下圖所示, M I MI MI名額比其他比較方法的 M I MI MI名額高得多,而其餘的名額通常要好于其他比較方法:
[不同λ之間的對比實驗]
首先作者選取 λ = 50 / 500 / 5000 \lambda =50/500/5000 λ=50/500/5000得到下圖結果:
從實驗結果來看,當 λ = 500 λ= 500 λ=500和 λ = 5000 λ= 5000 λ=5000時,融合結果差異不大,但後者丢失了一些紋理細節。 直覺地,為了進一步突出紅外目标,作者假設最佳 λ λ λ将略大于500。為估計VIF-Net的性能,将 λ λ λ的平均得分參數 λ λ λ設定為100、300、500、800和1,000。 提議的方法列于下表。
通過進一步分析,使用"Kaptein"對典型圖像來證明VIF-Net的通用适應性,如下圖所示。以"Kaptein"圖中的結果為例,執行減法運算以友善觀察差異。如下圖所示,在視覺評估水準上的差異可以忽略不計。
作者認為可以在λ= 1000時獲得最佳融合結果,以下結果均是采用此參數。
[推理時間對比]
其他方法(包括DLF,CBF,GTF,GFCE,CVT,DTCWT和FPDE)包含優化算法或複雜的比例轉換,并且需要大量疊代,是以平均運作時間較長。 相比之下,由于降維算法和結構簡單,ADF和RP的計算複雜度較低。 總體而言,由于VIF-Net具有簡單的網絡結構和較高的運作效率,是以在實時視訊融合中也很有效,下表展示運作一次所用的平均時間:
[擴充實驗-視訊融合]
作者選取兩組視訊進行試驗,選擇計算複雜度較低的ADF和DTCWT和作者提出的方法:
① “ ParkingSnow”,共有2941幀,大小為448×324。
第一行是ADF方法,第二行是DTCWT方法,第三行是VIF-Net,最後一行是标定的移動物體。
②“ TreesAndRunner”,共有558幀,大小為328×254。
第一行是ADF方法,第二行是DTCWT方法,第三行是VIF-Net,最後一行是标定的移動物體。
在綠色标記區域中,作者發現行人特征丢失,并且融合幀的對比度在ADF和DTCWT的結果中較弱。此外,DTCWT的結果導緻目标邊界周圍出現重影僞影。但是,VIF-Net克服了這些缺點。表VII中列出了視訊融合的平均客觀評價名額。 VIF-Net在視訊融合方面也表現出色。VIF-Net每幀的平均運作時間為0.22s和0.15s,基本可以滿足實時融合應用的要求。
下面是融合後的名額對比,前三行是第一組視訊,後三行是第二組視訊。
作者認為視訊中移動的物體都是在紅外圖像比較明顯的物體。将融合後的圖像與紅外圖像中的移動物體摳出來,利用每一幀的Groundtruth,摳出來的圖像互相做差,取絕對值。內插補點越小說明融合圖融合紅外圖像效果更好。下圖展示了三種方法在第一組視訊(左)和第二組視訊(右)上的內插補點對比。
[實踐結果]
🚪傳送門
◉ 🎨RGB💥🔥紅外
📦資料集
[TNO-RGB紅外圖像]
[FLIR-RGB紅外圖像]
[Multispectral Image Recognition-RGB紅外目标檢測]
[Multispectral Image Recognition-RGB紅外語義分割]
[INO-RGB紅外視訊]
[SYSU-MM01行人重識别可見光紅外資料]
📚論文
[VIF-Net:RGB和紅外圖像融合的無監督架構]
[SiamFT:通過完全卷積孿生網絡進行的RGB紅外融合跟蹤方法]
[TU-Net/TDeepLab:基于RGB和紅外的地形分類]
[RTFNet:用于城市場景語義分割的RGB和紅外融合網絡]
[DenseFuse:紅外和可見圖像的融合方法]
[MAPAN:基于自适應行人對準的可見紅外跨模态行人重識别網絡]
◉ 🌆多光譜💥🌁高光譜
📦資料集
[高光譜圖像資料]
📚論文
[Deep Attention Network:基于深層注意力網絡的高光譜與多光譜圖像融合]
◉ 🎨RGB💥🥓SAR
📦資料集
[待更新]
📚論文
[待更新]
◉ 🎨RGB💥🔥紅外💥🥓SAR
📦資料集
[待更新]
📚論文
[待更新]
💕
大家有資料融合方向的優秀論文可以在評論分享一下,感謝。
🤘