📝論文下載下傳位址
🔨代碼下載下傳位址
👨‍🎓論文作者
📦模型講解
- [背景介紹]
- [論文解讀]
- - - [VIF-Net網絡結構]
    - [M-SSIM+TV損失]
    - - [SSIM]
        
        [TV]
    - [VIF-Net的訓練]
- [結果分析]
- - - [評價名額]
    - - [ M I MI MI]
        
        [ Q A B / F Q^{AB/F} QAB/F]
        
        [ P C PC PC]
        
        [ Q N C I E Q^{NCIE} QNCIE]
        
        [ U I Q I UIQI UIQI]
    - [不同方法之間的對比實驗]
    - [不同λ之間的對比實驗]
    - [推理時間對比]
    - [擴充實驗-視訊融合]
- [實踐結果]
🚪傳送門

📝論文下載下傳位址

[論文位址]

🔨代碼下載下傳位址

[代碼位址-unofficial]

👨‍🎓論文作者

Ruichao Hou, Dongming Zhou, Rencan Nie, Dong Liu, Lei Xiong, Yanbu Guo, and Chuanbo Yu

📦模型講解

[背景介紹]

圖像融合時資訊融合的一種，本質就是增強技術，運用多傳感器獲得的不同資料來提高網絡性能。相對于單傳感器的資料局限于一種資料的特性，多傳感器能同時利用多中資料的特性，在視訊監控、衛星成像、軍事上都有很好的發展前景。對于本文來說，可見圖像提供了豐富的紋理細節和環境資訊，而紅外圖像則受益于夜間可見性和對高動态區域的抑制。如下圖所示，左邊時紅外圖像，右邊是可見光圖像。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

圖像融合最關鍵的技術是怎麼樣能融合利用多種資料的優勢。往往引入多種資料是雙面性的，是以要抑制資料的不同帶來的幹擾。例如做變化檢測的時候，往往因為成像不同而網絡會錯誤地檢測為變化。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

上圖展示了圖像融合的基本操作，将可見光和紅外圖像同時輸入網絡中，進行特征提取，之後進行特征融合，最後特征重建，生成融合圖像。中間網絡的部分也就是作者提出的VIF-Net。

[論文解讀]

作者主要針對其他融合方法有計算成本的局限性，而且需要手動設計融合規則。由此，作者提出了自适應的端到端深度融合架構VIF-Net，旨在生成資訊更豐富的圖像，包含大量的熱資訊和紋理細節。

[VIF-Net網絡結構]

VIF-Net的全稱為Visible and Infrared image Fusion Network就是可見光和紅外圖像融合網絡。VIF-Net體系結構如下圖所示，它由三個主要元件組成：特征提取，融合和重建。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

可見圖像和紅外圖像分别表示為 I A I_A IA和 I B I_B IB，它們輸入到雙通道中。通道 A A A由 C 11 C11 C11和包含 D 11 D11 D11、 D 21 D21 D21和 D 31 D31 D31的block組成。通道 B B B由 C 12 C12 C12和一個包含 D 12 D12 D12， D 22 D22 D22和 D 32 D32 D32的block組成。第一層( C 11 C11 C11和 C 12 C12 C12)包含3×3的卷積以提取底層特征，每個 D D D中的三個卷積層也都是3×3的卷積。由于這兩個通道共享相同的權重以提取相同類型的深度特征，是以此結構在降低計算複雜度方面也具有優勢。在特征融合部分，作者嘗試直接連接配接深層特征，也就是通道進行疊加。最後，特征融合層的結果通過另外五個卷積層( C 2 C2 C2， C 3 C3 C3， C 4 C4 C4， C 5 C5 C5和 C 6 C6 C6）來從融合特征中重建融合結果。下表概述了網絡的更詳細的體系結構：

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

從表格的結構可以看出，假設輸出都是單通道的圖像，經過前面的特征提取層，每一層的輸出都會與後面所有層的輸出直接相連，這裡是通道疊加。這樣，可見光通道會輸出 16 + 16 + 16 + 16 = 64 16+16+16+16=64 16+16+16+16=64通道的特征圖，兩個網絡通道會生成 128 128 128通道，在特征融合層進行通道疊加，輸入特征重建的就是 128 128 128通道的特征圖。

[M-SSIM+TV損失]

從上面的結構圖可以看到，損失函數主要分為兩部分 L S S I M L_{SSIM} LSSIM和 L T V L_{TV} LTV，作者設計的損失函數為：

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV

[SSIM]

SSIM是一種衡量圖像結構相似性的算法，結合了圖像的亮度，對比度和結構三方面對圖像品質進行測量。原本的SSIM公式為：

S S I M ( x , y ) = [ l ( x , y ) ] α × [ c ( x , y ) ] β × [ s ( x , y ) ] γ SSIM(x,y)=[l(x,y)]^α×[c(x,y)]^β×[s(x,y)]^γ SSIM(x,y)=[l(x,y)]α×[c(x,y)]β×[s(x,y)]γ

其中 l ( x , y ) l(x,y) l(x,y)為亮度部分：

l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 l(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1} l(x,y)=μx2+μy2+C12μxμy+C1

其中 c ( x , y ) c(x,y) c(x,y)為對比度部分：

c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 c(x,y)=\frac{2σ_xσ_y+C_2}{σ_x^2+σ_y^2+C_2} c(x,y)=σx2+σy2+C22σxσy+C2

其中 s ( x , y ) s(x,y) s(x,y)為結構部分：

s ( x , y ) = σ x y + C 3 σ x σ y + C 3 s(x,y)=\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} s(x,y)=σxσy+C3σxy+C3

其中 μ x μ_x μx與 μ y μ_y μy是圖像的像素平均值， σ x σ_x σx和 σ y σ_y σy為像素的标準差， σ x y σ_{xy} σxy為 x y xy xy的協方差， C 1 C_1 C1、 C 2 C_2 C2和 C 3 C_3 C3是常數，防止分母為0。一般情況下， α = β = γ = 1 、 C 2 = 2 × C 3 α=β=γ=1、C_2=2×C_3 α=β=γ=1、C2=2×C3則：

S S I M ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x σ y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 × σ x y + C 3 σ x σ y + C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + C 2 σ x 2 + σ y 2 + C 2 SSIM(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_xσ_y+2C_3}{σ_x^2+σ_y^2+2C_3}×\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} \\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+2C_3}{σ_x^2+σ_y^2+2C_3}\\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+C_2}{σ_x^2+σ_y^2+C_2} SSIM(x,y)=μx2+μy2+C12μxμy+C1×σx2+σy2+2C32σxσy+2C3×σxσy+C3σxy+C3=μx2+μy2+C12μxμy+C1×σx2+σy2+2C32σxy+2C3=μx2+μy2+C12μxμy+C1×σx2+σy2+C22σxy+C2

作者認為圖像分辨率很低亮度就不是很重要，是以去除了亮度，重寫公式：

S S I M M ( x , y ∣ W ) = 2 σ x y + C σ x 2 + σ y 2 + C SSIM_M(x,y|W)=\frac{2σ_{xy}+C}{σ_x^2+σ_y^2+C} SSIMM(x,y∣W)=σx2+σy2+C2σxy+C

根據以上公式可以計算 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM(IA,IF∣W)和 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM(IB,IF∣W)，其中 W W W代表一個滑動視窗，大小為 m × n m×n m×n，作者設定視窗為 11 × 11 11×11 11×11、 C = 9 × 1 0 − 4 C=9×10^{-4} C=9×10−4，利用這個公式來衡量 I F I_F IF與 I A I_A IA或者 I B I_B IB哪個更相似。例如 S S I M M ( I B , I F ∣ W ) > S S I M M ( I A , I F ∣ W ) SSIM_M(I_B,I_F|W)>SSIM_M(I_A,I_F|W) SSIMM(IB,IF∣W)>SSIMM(IA,IF∣W)則 I F I_F IF與 I B I_B IB在視窗 W W W中更相似， I F I_F IF在視窗 W W W保留更多紅外的資訊。這樣就能按以下公式自适應學習深度特征：

E ( I ∣ W ) = 1 m × n ∑ i = 1 m × n P i E(I | W)=\frac{1}{m \times n} \sum_{i=1}^{m \times n} P_{i} E(I∣W)=m×n1i=1∑m×nPi

Score ( I A , I B , I F ∣ W ) = { SSIM ⁡ M ( I A , I F ∣ W ) if E ( I A ∣ W ) > E ( I B ∣ W ) SSIM ⁡ M ( I B , I F ∣ W ) if E ( I A ∣ W ) ≤ E ( I B ∣ W ) \text { Score }\left(I_{A}, I_{B}, I_{F} | W\right)=\left\{\begin{array}{l} \operatorname{SSIM}_{M}\left(I_{A}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right)>E\left(I_{B} | W\right) \\ \operatorname{SSIM}_{M}\left(I_{B}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right) \leq E\left(I_{B} | W\right) \end{array}\right. Score (IA,IB,IF∣W)={SSIMM(IA,IF∣W) if E(IA∣W)>E(IB∣W)SSIMM(IB,IF∣W) if E(IA∣W)≤E(IB∣W)

L S S I M = 1 − 1 N ∑ W = 1 N Score ⁡ ( I A , I B , I F ∣ W ) L_{S S IM}=1-\frac{1}{N} \sum_{W=1}^{N} \operatorname{Score}\left(I_{A}, I_{B}, I_{F} | W\right) LSSIM=1−N1W=1∑NScore(IA,IB,IF∣W)

上面第一個公式是計算視窗内的平均值，之後計算SSIM如果包含更多 A A A的資訊，那麼将 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM(IA,IF∣W)作為得分；如果包含更多 B B B的資訊，那麼将 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM(IB,IF∣W)作為得分。第三個公式給出了 L S S I M L_{SSIM} LSSIM的計算方法， N N N為滑窗的總個數，将其取平均值後與1相減作為損失函數。

[TV]

TV全稱是Total Variation譯為總體變化，是一種衡量圖檔噪聲的名額，傳統的TV計算的公式為：

R V β ( x ) = ∑ i , j ( ( x i , j + 1 − x i j ) 2 + ( x i + 1 , j − x i j ) 2 ) β 2 \mathcal{R}_{V^{\beta}}(\mathbf{x})=\sum_{i, j}\left(\left(x_{i, j+1}-x_{i j}\right)^{2}+\left(x_{i+1, j}-x_{i j}\right)^{2}\right)^\frac{β}{2} RVβ(x)=i,j∑((xi,j+1−xij)2+(xi+1,j−xij)2)2β

其中， x i x_i xi代表一個像素，将其與水準方向+1的像素做差的平方，和垂直方向+1的像素做差的平方，兩者之和開 β 2 \frac{β}{2} 2β次方，對每個像素求和(除最後一行和列像素)，這樣就計算出TV。是以如果他有噪聲的話，TV會明顯變大，因為像素之間的變化會很大。然而，TV很小的話，圖像會很模糊，因為相近的像素相等TV最小。作者運用以下公式求取 L T V L_{TV} LTV。

R ( i , j ) = I A ( i , j ) − I F ( i , j ) L T V = ∑ i , j ( ∥ R ( i , j + 1 ) − R ( i , j ) ∥ 2 + ∥ R ( i + 1 , j ) − R ( i , j ) ∥ 2 ) \begin{array}{c} R(i, j)=I_{A}(i, j)-I_{F}(i, j) \\ L_{T V}=\sum_{i, j}\left(\|R(i, j+1)-R(i, j)\|_{2}+\|R(i+1, j)-R(i, j)\|_{2}\right) \end{array} R(i,j)=IA(i,j)−IF(i,j)LTV=∑i,j(∥R(i,j+1)−R(i,j)∥2+∥R(i+1,j)−R(i,j)∥2)

首先對 I A I_A IA和 I F I_F IF對應像素相減，得到 R ( i , j ) R(i,j) R(i,j)，對 R ( i , j ) R(i,j) R(i,j)求TV，作者取 β = 2 β=2 β=2。接下來作者提到， L S S I M L_{SSIM} LSSIM和 L T V L_{TV} LTV不在統一數量級， L S S I M L_{SSIM} LSSIM會比 L T V L_{TV} LTV低 1 0 2 − 1 0 3 10^2-10^3 102−103。是以，這會導緻網絡更偏重于TV，使得圖像分辨率，對比度較低，這也符合TV過低的情況。作者于是引入平衡參數 λ λ λ使兩種損失函數在同一水準上。

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV

[VIF-Net的訓練]

作者從公開可用的TNO圖像資料集和INO視訊資料集中收集了25對覆寫不同場景的可見和紅外圖像。由于此資料集太小而無法滿足訓練要求，是以裁剪了約25000個尺寸為64×64的更新檔，以擴充訓練資料集而沒有任何人工标簽；資料集的樣本如下圖所示。此外，作者将網絡訓練了50個epoch，使用Adam優化器以 1 0 − 4 10^{-4} 10−4的學習率将損失。作者的網絡是在TensorFlow上實作的，并在配備Intel E5 2670 2.6 GHz CPU，16 GB RAM和NVIDIA GTX1080Ti GPU的PC上進行了訓練。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[結果分析]

[評價名額]

為了防止主觀視覺的人為因素，作者使用物種可靠的量化名額：互資訊/mutual information/ M I MI MI、邊緣保持/edge retentiveness/ Q A B / F Q^{AB/F} QAB/F、相位一緻性/phase congruency/ P C PC PC、非線性相關資訊熵/nonlinear correlation information entropy/ Q N C I E Q^{NCIE} QNCIE、通用圖像品質指數/universal image quality index/ U I Q I UIQI UIQI。

[ M I MI MI]

M I MI MI分數越高，表示從源圖像獲得的資訊越豐富。公式如下： M I = ∑ i A ∈ I A F ∑ i ∈ I F p ( i A , i F ) log ⁡ 2 p ( i A , i F ) p ( i A ) p ( i F ) + ∑ i B ∈ I B ∑ i F ∈ I F p ( i B , i F ) log ⁡ 2 p ( i B , i F ) p ( i B ) p ( i F ) M I=\sum_{i_{A} \in I_{A_{F}}} \sum_{i \in I_{F}} p\left(i_{A}, i_{F}\right) \log _{2} \frac{p\left(i_{A}, i_{F}\right)}{p\left(i_{A}\right) p\left(i_{F}\right)}+\sum_{i_{B} \in I_{B}} \sum_{i_{F} \in I_{F}} p\left(i_{B}, i_{F}\right) \log _{2} \frac{p\left(i_{B}, i_{F}\right)}{p\left(i_{B}\right) p\left(i_{F}\right)} MI=iA∈IAF∑i∈IF∑p(iA,iF)log2p(iA)p(iF)p(iA,iF)+iB∈IB∑iF∈IF∑p(iB,iF)log2p(iB)p(iF)p(iB,iF)

其中 p ( i A , i F ) p(i_A,i_F) p(iA,iF)為 i A i_A iA與 i F i_F iF的聯合機率分布， p ( i A ) p(i_A) p(iA)為 i A i_A iA的邊緣機率分布。

[ Q A B / F Q^{AB/F} QAB/F]

Q A B / F Q^{AB/F} QAB/F測量了從原圖像到融合圖像轉移的圖像邊緣數量。公式如下：

Q A B / F = ∑ i = 1 N ∑ j = 1 M ( Q A F ( i , j ) w A ( i , j ) + Q B F ( i , j ) w B ( i , j ) ) ∑ i N ∑ j M ( w A ( i , j ) + w B ( i , j ) ) Q^{AB/F}=\frac{\sum_{i=1}^{N} \sum_{j=1}^{M}\left(Q^{A F}(i, j) w^{A}(i, j)+Q^{B F}(i, j) w^{B}(i, j)\right)}{\sum_{i}^{N} \sum_{j}^{M}\left(w^{A}(i, j)+w^{B}(i, j)\right)} QAB/F=∑iN∑jM(wA(i,j)+wB(i,j))∑i=1N∑j=1M(QAF(i,j)wA(i,j)+QBF(i,j)wB(i,j))

這裡比較難了解計算，簡單來說，會通過邊緣檢測算法（Sobel邊緣檢測算法）計算出輸入圖像和融合圖像的邊緣資訊，在通過上式得出名額，名額越高越好。具體的過程可以通路[多聚焦圖像像素級融合方法研究-總第27頁-論文頁碼第14頁-⑥]

[ P C PC PC]

PC表示融合圖像的結構，定義如下:

P C = ( P p ) α ( P M ) β ( P m ) γ PC=(P_p)^α(P_M)^β(P_m)^γ PC=(Pp)α(PM)β(Pm)γ

其中 p p p， M M M和 m m m分别是相位，最大力矩和最小力矩，且 α = β = γ = 1 α=β=γ=1 α=β=γ=1。

[ Q N C I E Q^{NCIE} QNCIE]

Q N C I E Q^{NCIE} QNCIE度量源圖像和融合圖像之間的非線性相關熵，定義如下：

Q N C I E = 1 + ∑ i = 1 3 λ i 3 log ⁡ 256 ( λ i 3 ) Q^{N C I E}=1+\sum_{i=1}^{3} \frac{\lambda_{i}}{3} \log _{256}\left(\frac{\lambda_{i}}{3}\right) QNCIE=1+i=1∑33λilog256(3λi)

其中 λ i \lambda_{i} λi是非線性相關矩陣的特征值。

[ U I Q I UIQI UIQI]

另外， U I Q I UIQI UIQI是一種從相關損失，亮度和對比度三個方面來測量圖像品質的評估名額。定義如下：

U I Q I = [ 4 σ I , I F μ I μ I F ( σ I A 2 + σ I F 2 ) ( μ I A 2 + μ I F 2 ) + 4 σ I B I F μ I B μ I F ( σ I B 2 + σ I F 2 ) ( μ I B 2 + μ I F 2 ) ] 2 U I Q I=\frac{\left[\frac{4 \sigma_{I, I_{F}} \mu_{I} \mu_{I_{F}}}{\left(\sigma_{I_{A}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{A}}^{2}+\mu_{I_{F}}^{2}\right)}+\frac{4 \sigma_{I_{B} I_{F}} \mu_{I_{B}} \mu_{I_{F}}}{\left(\sigma_{I_{B}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{B}}^{2}+\mu_{I_{F}}^{2}\right)}\right]}{2} UIQI=2[(σIA2+σIF2)(μIA2+μIF2)4σI,IFμIμIF+(σIB2+σIF2)(μIB2+μIF2)4σIBIFμIBμIF]

其中 μ μ μ和 σ σ σ分别表示平均值和标準偏差， σ I A I F σ_{I_AI_F} σIAIF是 I A I_A IA和 I F I_F IF之間的互相關。

[不同方法之間的對比實驗]

下面三個表格展示了三種圖像（“Human”、“Street”、“Kaptein”）的測試結果。可以看出VIF-Net取得不錯的性能。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

其中作者對損失函數的超參數的取值進行對比，Proposed-500/800/1000分别對應 λ = 500 / 800 / 1000 \lambda =500/800/1000 λ=500/800/1000也就是下式：

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV

下圖是三種圖像的展示（自上向下是“Human”、“Street”、“Kaptein”），紅色框是一些關鍵特征，可以看出效果很好：

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

從上圖中可以看到，由于大量的人工噪聲，RP和CBF的結果具有較差的視覺效果。此外，DLF，ADF，CVT，DTCWT，ASR，FPDE的結果看起來非常相似，并且會産生僞像，目标尚不清楚。此外，GFCE和GTF包含明亮而顯眼的目标，但是基于GFCE的融合圖像的背景由于細節和亮度的增強而失真。由于GTF可以平滑紋理，是以可見的細節和邊緣會在一定程度上丢失。作者的方法會突出顯示紅外目标并保留紋理細節，進而在這些方法中提供最佳的融合性能。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

上圖示出了“Street”的融合結果。主要目标是将行人和路燈之類的資訊融合到單個圖像中，并盡可能保留車輛等環境資訊。更具體地說，作者所提出的方法的結果完全保留了信号燈，闆上的字母和行人資訊。相反，GTF的結果會丢失大部分可見的細節，如标記區域所示。 DLF，ADF和FPDE的結果分辨率低，CVT，DTCWT和ASR将僞邊緣引入融合圖像，并且由于GFCE過度增強，融合結果中出現了僞影和失真。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

上圖中顯示的結果與上述兩組相似，并且在作者的結果中保留了突出特征，例如天空，雨傘，帳篷，尤其是行人特征。總而言之，GTF的結果會平滑可見的細節和邊緣，GFCE會導緻圖像失真，CBF和RP引入噪聲，而基于DLF，ADF，CVT，DTCWT，ASR和FPDE的方法會導緻對比度和分辨率低。相反，作者的方法産生最佳的視覺效果。此外，在作者的方法中基于不同參數的結果非常相似，在視覺評估水準上的差異可以忽略不計。

通常，由于單個度量無法客觀地測量融合品質，是以作者選擇這五個可靠的度量來評估不同的方法。所提出的方法在 M I MI MI， Q A B / F Q^{AB / F} QAB/F， P C PC PC， Q N C I E Q^{NCIE} QNCIE和 U I Q I UIQI UIQI方面達到了最新的性能。特别是， M I MI MI名額表明，VIF-Net在保留顯着特征和紋理細節方面沒有明顯的僞像和失真，具有很高的能力。

其他資料上的結果如下圖所示：

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

其他資料上的結果在定量上的對比如下圖所示， M I MI MI名額比其他比較方法的 M I MI MI名額高得多，而其餘的名額通常要好于其他比較方法：

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[不同λ之間的對比實驗]

首先作者選取 λ = 50 / 500 / 5000 \lambda =50/500/5000 λ=50/500/5000得到下圖結果：

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

從實驗結果來看，當 λ = 500 λ= 500 λ=500和 λ = 5000 λ= 5000 λ=5000時，融合結果差異不大，但後者丢失了一些紋理細節。直覺地，為了進一步突出紅外目标，作者假設最佳 λ λ λ将略大于500。為估計VIF-Net的性能，将 λ λ λ的平均得分參數 λ λ λ設定為100、300、500、800和1,000。提議的方法列于下表。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

通過進一步分析，使用"Kaptein"對典型圖像來證明VIF-Net的通用适應性，如下圖所示。以"Kaptein"圖中的結果為例，執行減法運算以友善觀察差異。如下圖所示，在視覺評估水準上的差異可以忽略不計。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

作者認為可以在λ= 1000時獲得最佳融合結果，以下結果均是采用此參數。

[推理時間對比]

其他方法（包括DLF，CBF，GTF，GFCE，CVT，DTCWT和FPDE）包含優化算法或複雜的比例轉換，并且需要大量疊代，是以平均運作時間較長。相比之下，由于降維算法和結構簡單，ADF和RP的計算複雜度較低。總體而言，由于VIF-Net具有簡單的網絡結構和較高的運作效率，是以在實時視訊融合中也很有效，下表展示運作一次所用的平均時間：

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[擴充實驗-視訊融合]

作者選取兩組視訊進行試驗，選擇計算複雜度較低的ADF和DTCWT和作者提出的方法：

① “ ParkingSnow”，共有2941幀，大小為448×324。

第一行是ADF方法，第二行是DTCWT方法，第三行是VIF-Net，最後一行是标定的移動物體。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

②“ TreesAndRunner”，共有558幀，大小為328×254。

第一行是ADF方法，第二行是DTCWT方法，第三行是VIF-Net，最後一行是标定的移動物體。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

在綠色标記區域中，作者發現行人特征丢失，并且融合幀的對比度在ADF和DTCWT的結果中較弱。此外，DTCWT的結果導緻目标邊界周圍出現重影僞影。但是，VIF-Net克服了這些缺點。表VII中列出了視訊融合的平均客觀評價名額。 VIF-Net在視訊融合方面也表現出色。VIF-Net每幀的平均運作時間為0.22s和0.15s，基本可以滿足實時融合應用的要求。

下面是融合後的名額對比，前三行是第一組視訊，後三行是第二組視訊。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

作者認為視訊中移動的物體都是在紅外圖像比較明顯的物體。将融合後的圖像與紅外圖像中的移動物體摳出來，利用每一幀的Groundtruth，摳出來的圖像互相做差，取絕對值。內插補點越小說明融合圖融合紅外圖像效果更好。下圖展示了三種方法在第一組視訊（左）和第二組視訊（右）上的內插補點對比。

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[實踐結果]

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

🚪傳送門

◉ 🎨RGB💥🔥紅外

📦資料集

[TNO-RGB紅外圖像]

[FLIR-RGB紅外圖像]

[Multispectral Image Recognition-RGB紅外目标檢測]

[Multispectral Image Recognition-RGB紅外語義分割]

[INO-RGB紅外視訊]

[SYSU-MM01行人重識别可見光紅外資料]

📚論文

[VIF-Net：RGB和紅外圖像融合的無監督架構]

[SiamFT：通過完全卷積孿生網絡進行的RGB紅外融合跟蹤方法]

[TU-Net/TDeepLab：基于RGB和紅外的地形分類]

[RTFNet：用于城市場景語義分割的RGB和紅外融合網絡]

[DenseFuse：紅外和可見圖像的融合方法]

[MAPAN：基于自适應行人對準的可見紅外跨模态行人重識别網絡]

◉ 🌆多光譜💥🌁高光譜

📦資料集

[高光譜圖像資料]

📚論文

[Deep Attention Network：基于深層注意力網絡的高光譜與多光譜圖像融合]

◉ 🎨RGB💥🥓SAR

📦資料集

[待更新]

📚論文

[待更新]

◉ 🎨RGB💥🔥紅外💥🥓SAR

📦資料集

[待更新]

📚論文

[待更新]

💕

大家有資料融合方向的優秀論文可以在評論分享一下，感謝。

🤘

VIF-Net：RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

目錄

📝論文下載下傳位址

🔨代碼下載下傳位址

👨‍🎓論文作者

📦模型講解

[背景介紹]

[論文解讀]

[VIF-Net網絡結構]

[M-SSIM+TV損失]

[VIF-Net的訓練]

[結果分析]

[評價名額]

[不同方法之間的對比實驗]

[不同λ之間的對比實驗]

[推理時間對比]

[擴充實驗-視訊融合]

[實踐結果]

🚪傳送門

繼續閱讀

TestLink導出用例轉換工具(XML2Excel)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入