天天看點

ATMFN論文閱讀筆記

題目:ATMFN: Adaptive-threshold-based Multi-modelFusion Network for Compressed Face Hallucination

中文:用于壓縮幻覺的基于自适應門檻值的多模型融合網絡

ATMFN論文閱讀筆記

摘要

  • 盡管最近在幻覺方面取得了長足的進步,【缺點】但

    基于單一深度學習架構的現有方法很難在複雜退化的情況下從小臉部令人滿意地提供面部特征

    。本文提出了一種用于壓縮人臉幻覺的基于自适應門檻值的多模型融合網絡(ATMFN),該網絡

    融合了不同的深度學習模型,以充分利用其各自的學習優勢

    。首先,我們構造基于CNN,GAN和RNN的基礎超級分解程式,以産生候選SR結果。此外,提出了關注子網絡以學習捕獲候選SR臉部最具資訊分量的單個融合權重矩陣。特别是,融合矩陣和基礎網絡的超參數以端到端的方式一起優化,以驅動它們進行協作學習。最後,采用基于門檻值的融合和重模組化塊來開發候選人的互補性,進而生成高品質的人臉圖像。在基準面部資料集和真實世界樣本上進行的大量實驗表明,在定量名額和視覺效果方面,我們的模型優于最新的SR方法。代碼和配置在https://github.com/kuihua/ATMFN上釋出。
  • 索引術語-基于門檻值的融合網絡,注意力機制,整體學習,面部壓縮幻覺

背景:基于單一深度學習架構的現有方法在複雜情況下不适用。

方法:基于自适應門檻值的多模型融合網絡(ATMFN)**,該網絡

融合了不同的深度學習模型,以充分利用其各自的學習優勢

結論:在定量名額和視覺效果方面,我們的模型優于最新的SR方法

引言

  • 幻覺[1],作為特定領域的圖像SR,在過去的十年中引起了廣泛的關注。為了模組化低分辨率(LR)和高分辨率(HR)臉部圖像之間的映射關系,傳統方法都嘗試利用具有子空間限制的全局先驗[2],[3],[4],[5]或具有局部先驗條件的局部先驗。稀疏性[6],協作[7]和局部性[8],[9]限制。但是,

    這些方法的表示能力不足,導緻在遠距離成像和壓縮等複合降解條件下進行大規模SR任務時性能較差

    。受到深度學習在其他領域成功的啟發,最近已經提出了用于圖像恢複任務的各種算法。但是,可以通過單個SR模型(即卷積神經網絡(CNN)[12],生成對抗網絡(GAN)[13]或遞歸神經網絡[RNN] [14])可靠地推斷和估計有限的資訊。更準确地說,【CNN網絡導緻模糊,平滑】

    基于CNN的模型[15],[16],[17]易于完成訓練和收斂,但是使用的全局優化政策傾向于模糊視覺效果(

    請參考圖1中的“ CNN”結果) )。作為典型的基于CNN的SR方法,SRCNN [12]和VDSR [18]可以生成高峰值信噪比(PSNR),

    但結果卻過于平滑

    。相比之下,基于GAN的方法[19],[20]引入了對抗訓練和知覺損失[21],以驅動網絡以高保真度和真實性構成逼真的結果。【基于GAN網絡的方法會導緻僞影】

    盡管在視覺效果上似乎更合理,但由于圖像内容對噪聲敏感,是以通常會受到僞影的污染。

    特别是對于重建微小且壓縮的面部圖像,基于GAN的模型[19],[20]可能會産生與圖像無關的其他高頻資訊。【RNN網絡可以挖掘全局紋理的互相依賴關系】

    基于RNN的方法[22]可以利用強大的循環處理曆史資訊的能力來挖掘和利用全局紋理的互相依賴關系,并表現出極大的優越性

    (參見圖1中的“ GAN”的結果)。順序任務[14]。對于低級計算機視覺任務,例如人臉重建,循環結構可以通過對上下文紋理的資訊流進行模組化,進而在挖掘跨空間區域的互相依賴性方面提供積極的好處。盡管以上這些方法在産生特定圖像細節方面均具有各自的優勢,【單一模型效果不能保證保真度和清晰度,而且單一模型不可靠,是以考慮結合這些模型】

    但是單一的深度學習模型(無論是CNN,GAN還是RNN)都無法同時保證幻覺面孔的保真度和清晰度

    。另外,單一SR模型不能可靠地推斷和評估足夠的資訊,是以,一個自然的問題是是否有可能将其優勢整合到統一模型中,并通過自動可控的融合機制進行自适應監督以應對具有挑戰性的低風險。品質面對SR任務。
  • 能不能提出一個網絡,結合CNN和GAN。不要RNN網絡。
  • 神經網絡內建是一種學習範式,其中

    許多神經網絡共同用于解決問題

    [23],[24],已廣泛應用于資料挖掘和模式識别等許多領域,進而可以作為神經網絡的理論指導。解決上述問題。就SR任務而言,內建模型可以從其所有超級分解器中受益。但是,如何整合由集合超分解器生成的一組候選成員的優勢來産生更好的結果呢?常用的方法是**【如何結合多個網絡呢】

    将所有候選結果直接以像素為機關累加或與預設權重融合

    。盡管這些方案可以集中所有超級解析器的優點,但我們無法滿足的缺點也被組合在一起。【融合之後雖然優點結合,但是缺點也結合齊起來了】**特别是,Zhouet等人[24]事實證明,結合學習者的部分特征而不是全部特征可能會更好。是以,有效的融合機制值得追求。在[25]中,作者提出了一種将視訊SR重建任務分為兩個階段的方法。然後,他們使用深層神經網絡從多集合筏中選擇了最優的。然而,由于僅選擇最佳樣本進行後續重建,是以無法充分利用內建學習的優勢。此外,Wanget等[26]。組裝了多個整體成員,并有效地提高了重建品質。他們基于基于稀疏編碼的網絡(SCN)[27],通過将具有不同初始化的多個SR模型內建在一起,建構了基于整體的稀疏編碼網絡(ESCN)。盡管ESCN與原始SCN相比取得了明顯的改進,但是他們僅通過一種深度學習方法建構候選超級分解器的方式極大地限制了內建模型的表示潛力。此外,在內建模型中整個區域共享統一的權重參數的方式忽略了局部圖像内容的個别屬性,進而進一步犧牲了重建性能。
  • 在本文中,我們

    建構了一個簡單但有效的基于自适應門檻值的多模型融合網絡(ATMFN),以對微小和壓縮的人臉圖像進行超分辨

    。與先前學習一種統計模型或所需HR圖像參數的先驗知識的方法不同,ATMFN使用多個候選深度學習網絡(CNN,GAN和RNN)來發揮整體學習優勢。大緻分為三個部分:候選者生成,整體權重學習以及基于自适應門檻值的融合和重構。第一部分由底層超級分解器産生多個初步的SR結果,作為整體候選者。第二部分,我們借助注意力機制學習特定權重矩陣來指導網絡去專注于每個候選超分辨人臉圖像的注意力區域。通過将矩陣施加到SR候選上,我們可以擷取整體分量,然後将它們內建到基于門檻值的融合和重模組化塊中,以

    在第三部分中生成整體SR人臉圖像

    。為了估計和學習最佳的集合矩陣,我們提出的ATMFN方法特别考慮了注意重點和集合成分,并将它們重新組合為基于自适應門檻值的多模型融合網絡。
  • 據我們所知,這是第一次利用注意力機制通過學習自适應融合門檻值來利用不同深度學習架構進行圖像重建的優勢。是以,我們提出了一種基于自适應門檻值融合方法的小而壓縮人臉圖像SR ATMFN。盡管已有許多先前的工作提出使用注意力機制(包括通道注意[19],[28]和像素注意[29])在單個模型中産生不同候選通道或圖像區域上的權重矩陣,但我們提出的方法是單獨學習的每個候選超級分解器的注意力矩陣都可以擷取資訊量最大的元件(在模型優勢方面),有利于子序列特征融合和SR重建。實驗結果證明,我們提出的ATMFN模型優于針對面部幻覺的最新SR方法。此外,該範式可以很容易地推廣到其他任務,以提高深度學習的性能。本文的主要貢獻如下:
    • 1)我們是第一個通過

      結合CNN,GAN和RNN提倡基于整體學習的SR架構的工具

      ,進而使我們能夠

      充分利用不同底層深度學習模型的各自優勢

      。所提出的SR架構可以提供精細和真實的通過利用與特定圖像分量相對應的候選超級分解器的互補學習優勢,在紋理細節上消除人造假象。
    • 2)為了利用候選超級分解器的資訊量最大的元件來實作合理融合,我們

      設計了基于自适應門檻值的融合子網絡,其中融合矩陣是通過注意力政策學習的

      。特别是,融合矩陣與基礎網絡的超參數以端到端的方式進行了優化,進而在準确性和收斂性方面獲得了最佳權重。
  • 本文的提醒如下組織。在第二部分中,我們概述了以前的工作,例如面部SR和注意力機制。第三節詳細介紹了我們提出的基于自适應門檻值的多模型融合SRframework及其優化方法。我們還分别介紹了內建超級分解器以及基于門檻值的融合和重構子產品的設計細節。實驗結果和讨論見第四節。最後,我們在第五節中總結了本文。

結論

  • 在本文中,我們提出了一種新穎的基于自适應門檻值的多模型融合網絡(ATMFN),用于以整體學習的方式進行微小的壓縮面部幻覺,進而使我們能夠

    利用多種候選超級分解器的優勢

    。通過學習對應于特定圖像區域的像素方式的最佳注意矩陣,網絡趨向于将可用的處理資源偏向資訊量最大的元件,進而享受不同底層超級解析器的互補優勢。在實驗上,我們的整體架構以可信的面部輪廓以及清晰的内容生成最終結果。與最新技術相比,基準人臉資料集上的大量結果顯示出顯着的優勢和泛化能力。
    ATMFN論文閱讀筆記
圖1.不同深度學習SR模型對重建結果的調查。 “ CNN”,“ GAN”和“ RNN”是指單個SR模型生成的超分辨結果,它們在視覺上的優缺點方面表現出一定程度的協作。 “集合SR”表示通過我們建議的基于自适應門檻值的融合機制,通過複合模型(CNN,GAN和RNN)的超分辨人臉
ATMFN論文閱讀筆記
圖2.提出的基于自适應門檻值的多模型融合網絡(ATMFN)的概述。紅色框中的元件表示具有不同深度學習模型的整體超級分解器。綠框由多個注意力子網組成。 “ C”和⊗分别表示串聯和乘法
ATMFN論文閱讀筆記
圖3.梯度的流程圖和反向傳播。wni和bnia表示候選超級分解器的模型參數和偏倚(0)。Wni和Bni表示該注意子網學習最優融合權重Wi(i∈N)的權重和偏倚(0)。
ATMFN論文閱讀筆記
圖4.建議的基于CNN的超級解析器的概述
ATMFN論文閱讀筆記
圖5.提議的基于GAN的超級分解器的概述
ATMFN論文閱讀筆記
圖6.提出的基于RNN的超級解析器的概述
ATMFN論文閱讀筆記
圖7.提出的基于自适應門檻值的融合和重構子產品的概述
ATMFN論文閱讀筆記
圖8.超級分解器組合方式的消融研究。
ATMFN論文閱讀筆記
圖9. CelebA的重構結果的比例為8,品質比為30。我們選擇了幾個不同但代表性的樣本進行示範

繼續閱讀