論文位址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_A_Late_Fusion_CNN_for_Digital_Matting_CVPR_2019_paper.pdf
發表于:CVPR’19
Abstract
本文研究了一個深度卷積神經網絡的結構,通過将單張RGB圖像作為輸入來預測前景alpha matte。我們的網絡是完全卷積的,有兩個解碼器分支分别用于前景和背景分類。然後,一個融合分支被用來整合這兩個分類結果,産生alpha值作為軟分割結果。這種設計提供了比單一解碼器分支更多的自由度,使網絡在訓練過程中獲得更好的alpha值。該網絡可以在沒有使用者互動的情況下隐式地生成trimap,這對于沒有數字摳圖專業知識的新手來說是很容易使用的。實驗結果表明,我們的網絡可以為各種類型的物體實作高品質的alpha matte,并在人類圖像摳圖任務上優于最先進的基于CNN的圖像摳圖方法。
I. Motivation
首先自然是Auto Image Matting的通用motivation:之前的大多數方法都需要一個trimap,不友善。
然後則是網絡設計上的一些問題;這個網絡最大的特點就是有兩個decoder,文中指出,其中的"分類分支"能比較好的去生成"硬分割"結果,但是硬分割結果隻能指出某一像素屬于前景還是背景,而不能分析其透明度,是以就需要一個輔助的分支來完成該任務。
II. Network Architecture

嚴格來講,這個網絡不是直接生成alpha matte,而是先生成三個東西:前景機率圖、背景機率圖、混合權重圖,也就是算個這個東西: α p = β p F ‾ p + ( 1 − β p ) ( 1 − B ‾ p ) \alpha_{p}=\beta_{p} \overline{\mathbf{F}}_{p}+\left(1-\beta_{p}\right)\left(1-\overline{\mathbf{B}}_{p}\right) αp=βpFp+(1−βp)(1−Bp) F ‾ p \overline{\mathbf{F}}_{p} Fp表示前景機率, B ‾ p \overline{\mathbf{B}}_{p} Bp表示背景機率, β p \beta_{p} βp表示混合權重。當然,這個東西其實和alpha matte的計算公式是一個意思: I p = α p F p + ( 1 − α p ) B p \mathbf{I}_{p}=\alpha_{p} \mathbf{F}_{p}+\left(1-\alpha_{p}\right) \mathbf{B}_{p} Ip=αpFp+(1−αp)Bp 接下來,我們将對分割網絡與融合網絡分别進行介紹。
III. Segmentation Network
分割網絡包含一個Encoder和兩個Decoder,Encoder backbone用的是DenseNet-201。Decoder設計沒有特别的地方,依然用的是經典的金字塔結構與skip connection設計。這個網絡(或者整個網絡)的重點在loss函數的設計上。
IV. Fusion Network
融合網絡算的就是 β p \beta_{p} βp,用來将前景機率圖與背景機率圖給融合成alpha matte。網絡結構其實就是幾個堆疊的卷積…重點還是在loss。