摘要

一種新型的網絡結構，主要用在人體姿态識别中。在FLIC和MPII上面實作了state of the art

背景介紹

從2014年Toshev等為人體姿态識别算法引入“DeepPose”以來，有很多人都将神經網絡這一個特征提取方式帶入進來産生了各種各樣的算法。

如Tompson用神經網絡産生heatmap，并且為了獲得更好的joints之間的位置關系，使用graphical model來拟合關節之間的位置關系。如Deepcut。

模型overview（請參考圖例）

論文綜述“Stacked Hourglass Networks for Human Pose Estimation”摘要背景介紹算法詳解

算法特點

Hourglass Module

為了盡可能地捕捉各個尺度的特征，并且将他們合并在一起并産生pixel-wise prediction

Convolution Layer and Max pooling Layer 用來将feature縮減到小尺寸
在Max Pooling Layer，在輸入會被分支出去，并加上更多的Conv，同樣的輸入會經過Pooling 操作
在達到最低的Resolution時候，開始top down部分。
為了将bottom up和top down的部分能夠合并起來，對于兩部分的features進行elementwise addition。并且不使用unpooling 和deconv操作，而代以nearest neighbor upsampling
在網絡的結尾，添加兩層kernel大小為1*1的卷積層。
網絡的輸出是一個heatmaps，一個heatmap預測了每個關鍵點在每個像素出現的機率（是否需要添加激活層？）

Residual Module

這個就是之前overview中的每個小盒子

論文綜述“Stacked Hourglass Networks for Human Pose Estimation”摘要背景介紹算法詳解

關于網絡和輸入

Data Augmentation

Training Configuration

trick

run prediciton on original input and a flipped version of the image, then average the heatmaps

Evalutaiton result

請參見論文描述