天天看點

論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

A CNN Cascade for Landmark Guided Semantic Part Segmentation 

ECCV 2016

  摘要:本文提出了一種 CNN cascade (CNN 級聯)結構,根據一系列的定位(landmarks or keypoints),得到特定的 pose 資訊,進行 語義 part 分割。前人有許多單獨的工作,但是,貌似沒有将這兩個工作結合到一起,互相作用的 multi-task 的工作。本文就彌補這個缺口,提出一種 CNN cascade 的 tasks,首先進行 landmark的定位,然後将這個資訊作為輸入,用于指導 semantic part segmentation。作者将這個結構用于 facial part segmentation,取得了顯著的效果。代碼将會很快放出,候選連接配接如下:http://www.cs.nott.ac.uk/~psxasj/ 

    引言:就像摘要裡提到的差不多,就是這個意思。不廢話了。看看效果圖,然後看看别人怎麼做的。。。

論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

    本文的創新點寫的很有特色,說解決了下面的兩個問題:

  1. Is a CNN for facial part segmentation needed at all ?

  2. Can facial landmarks be used for guiding facial part segmentation, thus reversing the result metioned above ? 

   我們賣個關子(其實,我是想說,先裝個逼,但是,。。。,忽略這句話吧,God),先不解釋,希望看完後,讀者能自己領悟到答案。 

  

論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation
論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation
論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

    The Proposed Method : 

  本文提出的 CNN 級聯網絡結構,如上圖 4 所示,是一個 landmark localisation 網絡,緊跟着是一個 facial part segmentation 網絡結構。這個級聯網絡是基于 VGG-FCN 的,基于 CAFFE ,主要由兩個部分構成:

  1. 利用交叉熵損失函數(Sigmoid Cross Entropy Loss)進行 facial landmarks 的檢測,這是一個 FCN 網絡;

  2. 第二,是受到 human pose estimation method 【1】 的激發,檢測到的 68 個定位點,編碼成 68 個單獨的 channels,這個 channels 在其對應的 landmark 位置有一個 2D Gaussian 。這 68 個channels 堆積在一起,和原始圖像一起傳送給 segmentation network。然後用标準的 Softmax loss 進行分割。

  這裡的【1】是:Human pose estimation with iterative error feedback. CVPR 2016 

  接下來,詳細的介紹這兩個網絡架構:

  Facial Landmark Detection:

  對于 landmark detection 的訓練過程類似于訓練一個 FCN 用于 part segmentation。将 Landmarks 編碼成位于提供的 landmarks' location 的 2D Gaussian。每一個 landmark 配置設定其單獨的 channel 來阻止與其他 landmark 的重合,允許每一個 point 更加容易互相區分。與 part segmentation 主要的不同在于 其 loss function。Sigmoid Cross Entropy Loss 被用來回歸一個像素點包含一個 point 的可能性。More concretely,給定我們的 gt Gaussians P 和 預測的 Gaussians p, 每一個相同次元是 N*W*H, 定義的損失函數為:

論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

   Guided Facial Part Segmentation:

   采用和 FCN 類似的配置方法進行分割,利用 softmax loss 作為最後的損失函數。如果 N 是輸出的個數,$p_{i, j}$ 是像素點$(i, j)$的預測輸出,n 是 gt label,那麼 softmax loss l 就可以表達為:

論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

    下面的表格展示了所用的 VGG-FCN 網絡結構的具體參數設定:

論文筆記之:A CNN Cascade for Landmark Guided Semantic Part Segmentation

  總結:  

  總體而言,本文是利用 landmark 的引導去做 face part 的分割。是以,網絡的設計上就是由兩個網絡架構來實作的,首先是 landmark detection,然後将該網絡的輸出,輸入到後面的 semantic part segmentation。看到摘要中,有這麼一段話:this is the first time in literature that the interplay between pose estimation and semantic part segmentation is investigated. 為什麼感覺将其用到 face 的part 分割,并不能充分的說明 pose estimation ? 因為就僅僅是一個人臉的 landmark 而已,哪有 pose 這一說??若是将其應用到 human parsing 上,結合 pose estimation 和 segmentation 還差不多。說實話,感覺有點挂羊頭賣狗肉。。。

  Reference Paper:

  1. Human pose estimation with iterative error feedback. CVPR 2016 

  2. A CNN Cascade for Landmark Guided Semantic Part Segmentation 

繼續閱讀