論文筆記之：A CNN Cascade for Landmark Guided Semantic Part Segmentation

A CNN Cascade for Landmark Guided Semantic Part Segmentation

ECCV 2016

　　摘要：本文提出了一種 CNN cascade （CNN 級聯）結構，根據一系列的定位（landmarks or keypoints），得到特定的 pose 資訊，進行語義 part 分割。前人有許多單獨的工作，但是，貌似沒有将這兩個工作結合到一起，互相作用的 multi-task 的工作。本文就彌補這個缺口，提出一種 CNN cascade 的 tasks，首先進行 landmark的定位，然後将這個資訊作為輸入，用于指導 semantic part segmentation。作者将這個結構用于 facial part segmentation，取得了顯著的效果。代碼将會很快放出，候選連接配接如下：http://www.cs.nott.ac.uk/~psxasj/

　　引言：就像摘要裡提到的差不多，就是這個意思。不廢話了。看看效果圖，然後看看别人怎麼做的。。。

論文筆記之：A CNN Cascade for Landmark Guided Semantic Part Segmentation

　　本文的創新點寫的很有特色，說解決了下面的兩個問題：

　　1. Is a CNN for facial part segmentation needed at all ?

　　2. Can facial landmarks be used for guiding facial part segmentation, thus reversing the result metioned above ?

　　我們賣個關子（其實，我是想說，先裝個逼，但是，。。。，忽略這句話吧，God），先不解釋，希望看完後，讀者能自己領悟到答案。

　　 The Proposed Method :

　　本文提出的 CNN 級聯網絡結構，如上圖 4 所示，是一個 landmark localisation 網絡，緊跟着是一個 facial part segmentation 網絡結構。這個級聯網絡是基于 VGG-FCN 的，基于 CAFFE ，主要由兩個部分構成：

　　1. 利用交叉熵損失函數（Sigmoid Cross Entropy Loss）進行 facial landmarks 的檢測，這是一個 FCN 網絡；

　　2. 第二，是受到 human pose estimation method 【1】的激發，檢測到的 68 個定位點，編碼成 68 個單獨的 channels，這個 channels 在其對應的 landmark 位置有一個 2D Gaussian 。這 68 個channels 堆積在一起，和原始圖像一起傳送給 segmentation network。然後用标準的 Softmax loss 進行分割。

　　這裡的【1】是：Human pose estimation with iterative error feedback. CVPR 2016

　　接下來，詳細的介紹這兩個網絡架構：

　　Facial Landmark Detection：

　　對于 landmark detection 的訓練過程類似于訓練一個 FCN 用于 part segmentation。将 Landmarks 編碼成位于提供的 landmarks' location 的 2D Gaussian。每一個 landmark 配置設定其單獨的 channel 來阻止與其他 landmark 的重合，允許每一個 point 更加容易互相區分。與 part segmentation 主要的不同在于其 loss function。Sigmoid Cross Entropy Loss 被用來回歸一個像素點包含一個 point 的可能性。More concretely，給定我們的 gt Gaussians P 和預測的 Gaussians p, 每一個相同次元是 N*W*H, 定義的損失函數為：

　　Guided Facial Part Segmentation：

　　采用和 FCN 類似的配置方法進行分割，利用 softmax loss 作為最後的損失函數。如果 N 是輸出的個數，$p_{i, j}$ 是像素點$（i, j）$的預測輸出，n 是 gt label，那麼 softmax loss l 就可以表達為：

　　下面的表格展示了所用的 VGG-FCN 網絡結構的具體參數設定：

　　總結：　　

　　總體而言，本文是利用 landmark 的引導去做 face part 的分割。是以，網絡的設計上就是由兩個網絡架構來實作的，首先是 landmark detection，然後将該網絡的輸出，輸入到後面的 semantic part segmentation。看到摘要中，有這麼一段話：this is the first time in literature that the interplay between pose estimation and semantic part segmentation is investigated. 為什麼感覺将其用到 face 的part 分割，并不能充分的說明 pose estimation ？因為就僅僅是一個人臉的 landmark 而已，哪有 pose 這一說？？若是将其應用到 human parsing 上，結合 pose estimation 和 segmentation 還差不多。說實話，感覺有點挂羊頭賣狗肉。。。

　　Reference Paper：

　　1. Human pose estimation with iterative error feedback. CVPR 2016

　　2. A CNN Cascade for Landmark Guided Semantic Part Segmentation

論文筆記之：A CNN Cascade for Landmark Guided Semantic Part Segmentation

繼續閱讀

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

Ubuntu16.04下Caffe環境搭建：cuda8.0 + opencv2.4.13

自監督｜「CoCLR」視訊自監督對比學習筆記

Ubuntu14.04+cuda8.0+caffe+MATLAB

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

K-近鄰算法以及圖像分類應用

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡