本文作者:Alexander Toshev, Christian Szegedy
CVPR2014
摘要
本文提出了一種基于DNN的人體姿勢估計方法。姿勢估計的問題可以看成是基于DNN的關節回歸問題。本文提出了一種級聯的DNN回歸模型,用于高精度地預測姿态。這種方法的優點是利用了全局的資訊。
1、介紹
人體姿态估計的主要挑戰有——strong articulations, small and barely visible joints, occlusions and the need to capture the context。
目前的主要研究的方法是Part-based models。這類的方法efficient,但表達能力有限,隻使用了局部的特征。全局的方法也有被提出,但在實際問題中,取得的效果有限。
本文把姿态估計構造成一個關節回歸的問題,并用DNN來實作。以整個圖像為輸入,用一個7層的卷積神經網絡。有兩個優點,一、使用了全局資訊;二、這種方法比人工設計特征簡單。本文還使用了串聯網絡的方法來提高精度。
2、相關工作
3、深度學習模型

為pose vector,其中每一個元素代表一個坐标。一個标注圖像用(x,y)表示,x代表圖像資料,y為标簽。
關節坐标是在絕對圖像坐标系下的,需要歸一化。Bounding Box
,分别代表中心坐标(二維)、box寬和box高。
歸一化公式:
。
進而,
。
3.1、DNN-based 回歸
y*在絕對圖像坐标系。ψ代表了卷積神經網絡。本文采用了Alex-Net的架構。
輸入圖像大小為220X220(文章寫的是220x220,但Alex-Net一文中寫的為224x224),C(11,11,96,4)-LRN-P-C(5,5,256)-LRN-P-C(3,3,384)-C(3,3,384)-C(3,3,384)-P-F(4096)-F(4096)。(C(卷積核寬,長,數量,步長預設值為1))
訓練:
Ground Truth pose vector 是定義在絕對圖像坐标系的,訓練集D需要先進行歸一化:
代價函數為L2範數,優化網絡目标為
It should be noted, that the above objective can be used even if for some images not all joints are labeled. In this case, the corresponding terms in the sum would be omitted.(即使沒有标注出所有的關節也可以,在這種情況下,該項應該被忽略)
用Bp算法優化,batch size為128,學習率設為0.0005。用crop(section3.2),左右翻轉做資料增強,全連接配接層做DropOut:0.6。
3.2 串聯回歸
由于輸入圖像大小固定,不能看到細節,直接增加輸入圖像大小會增加已經很大的參數數量。是以采用級聯方式。在第一階段,估計一個大緻的作為初始。在随後階段,用新的結果取代之前的。對所有階段采用相同的網絡結構。
對第一階段,b0包括整個圖像,
對s>=2的階段,
bi由上一層的yi為中心決定,diam(y)由人體軀幹上相反的關節距離決定,例如左肩膀和右臀部。
對Stage1的參數,按照 sec. 3.1, Eq(4)中訓練。在接下來的階段中,訓練方法有一點重要的不同。對訓練集(x,y)中的每一個節點i用一個不同的bounding box
歸一化。這個bounding box以上一階段的預測為中心,是以我們跟着前一階段的模型來限制這一階段的訓練。
由于深度學習方法有很強的能力,我們通過對每一個圖像、結點多重歸一化進行資料增強。我們産生模仿的假設而不是隻采用上一層的預測。通過一個2D-正态分布序列
随機移動節點i的ground truth,正态分布
的均值和方差由觀察所有的
得到。這些充分增強的訓練資料可以被定義為一次抽取一個來自統一的初始資料的例子和節點,然後産生一個基于正态分布抽取的位移的模拟預測:
參數代價函數:
4.實際評估
4.1 計劃
資料集:
1、Frames Labeled In Cinema(FLIC);2、Leeds Sports Dataset
定義the diameter of a pose y 為肩膀到相反方向的臀部距離。
Metrics:
2個廣泛被接受的評估metrics。1、Percentage of Correct Parts (PCP)2、Percent of Detected Joints (PDJ)
實驗細節
。。。
4.2 實驗結果。。。
相關博文:
(http://blog.csdn.net/sheng_ai/article/details/38925561)