論文位址：https://arxiv.org/abs/2012.07810

代碼位址：https://github.com/PeterL1n/BackgroundMattingV2

論文小結

本文的方法名為

BGMv2

，其前身為

Background Matting: The World Is Your Green Screen

（512*512分辨率下達到8fps）是一個不需要Trimap的Matting方法。本系列的方法，需要提供一個背景圖檔，但不需要完全精确對齊的背景。前文提供了一個效果較好的提升模型，本文進一步将方法改善成了可以實時運作的模型（在2080Ti的GPU上，4K分辨率可達到30fps，HD分辨率可達到60fps）。

從效果上看，相對于其他的方法，本文的Matting方法提取出來的前景效果很好，精度達到了頭發級别，如下圖所示，效果還是很好的。對于一些動作幅度較小的對象，實踐效果是完全沒問題的。但需要注意的是，該方法可能對陰影（含背影、肢體的影子）等現象還有進一步的空間。在實踐中發現，對于綠幕視訊，長頭發随意波動，也會帶有綠幕的綠色“蒙霧”。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

從方法上看，

BGMv2是一個兩階段的方法，如下圖所示，一個基礎網絡用以生成低分辨率的結果，然後第二個網絡用以在選中的patch上生成高分辨率的結果

。BGMv2的輸入包括一個源圖（含前景）和背景圖，最終輸出（Refiner的輸出）為Alpha和前景殘差，中間階段輸出Alpha_sm，FgR_sm，Error_Map和Hidden_sm。模型輸出的前景殘差是沒有前景主體的，但其在forward的時候會加上源圖得到一個fgr，該fgr是有主體的部分的，其表現為擁有主體，但背景部分雜亂無章。

Alpha就是融合圖像所需要的alpha 通道，旨在區分前後景以及細化邊緣部位；前景殘差，不知道設定的目的是什麼，因為有了Matting通道就可以從原圖中得到需要的主題部分了，這可能是為了更容易讓模拟拟合以及優化效果的，反正也不需要額外制作标簽。這個前景殘差的概念是個人猜想，可能是知識儲備量任然不足的原因，之後有待回顧。Error_Map，就相當于以前三元圖的Trimap部分，是還需要細緻優化的部分，而Hidden純粹是作為中間特征提供給Refiner的。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

論文簡介

很多産品，在邊界處會産生人造痕迹，尤其是頭發和眼鏡處，如下圖所示。使用傳統的方法，可以産生更高品質的結果，但不能在高分辨率上實時。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

本文的方法依賴于輸入額外的背景圖像來計算alpha matte和前景層，這種方法被稱為background matting。

在

訓練

時，先在VideoMatte240K和PhotoMatte13K/85上學習不同姿态的魯棒性，再在公開資料集上學習細粒度細節。在

制作私有資料集

時，使用chromeKey來提取alpha matte和前景層。

為了達到實時的目标，作者發現需要進行細粒度細化的區域是相對較少的

。是以，作者引入一個基礎網絡來預測低分辨率的alpha matte和前景層，以及一個指定可能需要高分辨率細化的區域的error map。Refinement network将低分辨率的結果和原始圖像結合，隻在標明區域上生成高分辨率的輸出。

資料集

公開資料集

。

Adobe Image Matting（AIM）

資料集提供了269個人類的訓練樣本和11個測試樣本，分辨率都在 1000 ∗ 1000 1000*1000 1000∗1000左右。同時，作者使用了

僅限人類的區分子集（Attention-guided hierarchical structure aggregation for image matting.）

，其有362個訓練樣本，11個測試樣本，分辨率在 1700 ∗ 2000 1700*2000 1700∗2000左右。

這些mattes都是人工制作的，是以是高品質的

。但是631張訓練圖像是不足以在高分辨率下學習人體姿态的巨大變化和更精細的細節，是以作者使用了兩個額外的資料集。

VideoMatte240K

。作者收集了484個高分辨率的綠屏視訊，産生了 240709 240709 240709張單獨的圖檔幀，并使用Adobe After Effects的chroma-key軟體生成alpha mattes和前景。這些視訊可以作為庫存素材購買，也可以在網上找到免稅版的資料片。其中384個視訊是4K分辨率的，100個是高清的。作者将視訊按照 479 : 5 479:5 479:5的比例分成訓練和驗證集。資料集包括大量的人體試驗對象、服裝和姿勢，這些有助于訓練健壯的模型。

作者将把提取的alpha mattes和前景作為資料集釋出給公衆。

本資料集比現有的所有公開的摳圖資料集都要大，并且是第一個

包含連續幀序列

而不是靜态圖像的公開視訊摳圖資料集，可以用于未來的研究中開發包含運動資訊的模型。

PhotoMatte13K/85

。作者收集了 13665 13665 13665張圖檔，在綠幕面前

使用工作室品質的照明和錄影機拍攝，以及通過chroma-key算法、手動調整和錯誤修複提取的mattes

。作者以 13165 : 500 13165:500 13165:500的比例形成訓練集和驗證集。這些mattes包含一個較為狹窄的姿态範圍，但是

mattes是高分辨率的，平均在 2000 ∗ 2500 2000*2500 2000∗2500，其包括如每根頭發的細節

。這個資料集被作者稱為PhotoMatte13K。由于隐私和許可問題，

作者不會分享這個資料集

。是以作者額外收集了85個品質類似的mattes作為測試集，命名為

PhotoMatte85

公布出來。

作者在Flickr和谷歌上抓取了8861張高分辨率背景圖像，并将它們以 8636 : 200 : 25 8636:200:25 8636:200:25的比例構造訓練集、驗證集和測試集。

下圖展示了本文提出的兩個資料集的一些例子。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

方法

本文的方法，輸入圖檔 I I I，背景圖檔 B B B，預測alpha matte α \alpha α和前景 F F F，這輸出允許與任意背景進行合成 I ′ = α F + ( 1 + α ) B ′ I'=\alpha F+(1+\alpha)B' I′=αF+(1+α)B′，其中 B ′ B' B′是新背景。此外，作者

預測前景殘差 F R = F − I F^R=F-I FR=F−I

，而不是直接預測前景。然後 F R F^R FR可以與輸入圖檔 I I I進行簡單相加 F = max ⁡ ( min ⁡ ( F R + I , 1 ) , 0 ) F=\max(\min(F^R+I, 1), 0) F=max(min(FR+I,1),0)，得到恢複後的前景圖。

作者發現這個殘差公式提高了學習能力，并允許我們通過上采樣将低分辨率前景殘差應用到高分辨率輸入圖像上。

高分辨率的matting是具有挑戰性的，因為應用深度網絡回直接導緻不切實際的計算和記憶體消耗。如下圖所示，

人類的mattes通常是非常稀疏的，大面積的像素屬于背景（ α = 0 \alpha=0 α=0）或者屬于前景（ α = 1 \alpha=1 α=1），隻有少數區域涉及更精細的細節，如頭發周圍、眼睛和人的輪廓等

。是以，作者沒有設計一個在高分辨率圖像上運作的網絡，而是引入兩個網絡：一個在較低分辨率下運作，另一個隻在基于先前網絡預測的原始分辨率上運作標明的更新檔（patches）。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

網絡架構由基礎網絡 G b a s e G_{base} Gbase和校正網絡 G r e f i n e G_{refine} Grefine組成。給定原圖 I I I和背景 B B B，先由下采樣因子 c c c下采樣到 I c I_c Ic和 B c B_c Bc。基礎網絡 B b a s e B_{base} Bbase以 I c I_c Ic和 B c B_c Bc作為輸入，預測粗粒度的alpha matte α c \alpha_c αc，前景殘差 F c R F_c^R FcR，錯誤預測圖 E c E_c Ec，隐藏層 H c H_c Hc。然後使用校正網絡 G r e f i n e G_{refine} Grefine以 H c H_c Hc， I I I，和 B B B作為輸入，将錯誤圖 E c E_c Ec中較大值的位置進行 α c \alpha_c αc和 F c R F_c^R FcR的校正，生成的alpha α \alpha α和前景殘差是在原圖分辨率的。本文的網絡是全卷機神經網絡，在仍以大小和長寬比下進行訓練的。

G b a s e G_{base} Gbase受DeepLabV3和DeepLabV3+架構的啟發，這兩個架構達到了2017和2018年語義分割任務的最先進性能。基礎網絡由三個子產品組成：Backbone，ASPP和Decoder。本文的 G b a s e G_{base} Gbase采用ResNet-50作為encoder的backbone，這也可以使用ResNet-101和MobileNetV2進行替換，以達到速度和品質的權衡。如DeepLabV3一樣，使用ASPP（atrous Spatial Pyramid Pooling）子產品(平行空洞卷積，空洞率為3,6,9)整合backbone的輸出。在Decoder網絡上的每一步上都采用雙線性插值上采樣，并與backbone的對應部分進行skip connect，再接上一個 3 ∗ 3 3*3 3∗3 Conv，BN和ReLU(除了最後一層)。Decoder網絡輸出粗粒度的alpha matte α c \alpha_c αc，前景殘差 F c R F_c^R FcR，誤差預測圖 E c E_c Ec和

一個32 channel的隐藏層特征 H c H_c Hc

。

隐藏的特征 H c H_c Hc包含全局上下文，這對細化網絡很有用。

G r e f i n e G_{refine} Grefine的目标是減少備援計算和恢複高分辨率的matting細節，其隻在Error map E c E_c Ec的選取塊上進行預測。本文執行了一個兩階段的細化，第一次在原始分辨率的 1 / 2 1/2 1/2上進行，第二次在全分辨率上。在推理時，進行 k k k個patches的校正。這個 k k k要不就是預先設定的，要不就是通過門檻值計算出來的。

給定粗粒度的錯誤預測圖 E c E_c Ec，其分辨率為原始分辨率的 1 / c 1/c 1/c大小。首先我們将其重采樣到原始分辨率的 1 / 4 1/4 1/4，标為 E 4 E_4 E4，使得每一個像素都對應原始分辨率的一個 4 ∗ 4 4*4 4∗4的patch。然後從 E 4 E_4 E4中選取topK，從原圖中選取對應的k個patches給 G r e f i n e G_refine Grefine進行細節校正。該步驟校正的像素有 16 k 16k 16k個。

兩階段校正流程

：首先，将粗粒度的輸出都雙線性上采樣到原分辨率的 1 / 2 1/2 1/2大小，比如alpha matte α c \alpha_c αc，前景殘差 F c R F_c^R FcR和隐藏層 H c H_c Hc，都concat到一起作為特征；然後從 E 4 E_4 E4選出的錯誤位置處crop出 8 ∗ 8 8*8 8∗8的patches，然後經過 valid padding 的 3 ∗ 3 3*3 3∗3 Conv，BN，ReLU，将patch的大小降到 4 ∗ 4 4*4 4∗4。然後，這些中間特征再上采樣到 8 ∗ 8 8*8 8∗8，與原圖分辨率輸入 I I I和背景 B B B對應位置中提取出的 8 ∗ 8 8*8 8∗8patches進行concat後，應用兩層valid padding的 3 ∗ 3 3*3 3∗3Conv，BN和ReLU（除了最後一層）以獲得 4 ∗ 4 4*4 4∗4的alpha matte和前景殘差結果。最後，将粗粒度alpha matte α c \alpha_c αc和前景殘差 F c R F_c^R FcR上采樣到原始分辨率，并和最終的alpha matta α \alpha α和前景殘差 F R F^R FR進行對應的 4 ∗ 4 4*4 4∗4 patches的交換。整個架構如下圖所示。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

論文實驗

本文的訓練細節和參數的設定，還是能帶來不少啟發性的。但由于沒想進行實驗，先不浪費時間進行記錄了。

實驗結果如下面的圖檔所示。

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

【論文閱讀筆記】Real-Time High-Resolution Background Matting論文小結論文簡介論文實驗

論文小結

論文簡介

資料集

方法

論文實驗

繼續閱讀

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡