天天看點

論文閱讀:《Structured Feature Learning for Pose Estimation》CVPR 2016

概述

本文仍然是使用CNN,其創新點在于如何對關節之間的依賴進行模組化,解決方法是在卷積層使用幾何變換核。此外還提出了雙向的樹結構模型,這樣每個關節的特征通道都可以接受其他關節點資訊。

網絡架構/算法流程

論文閱讀:《Structured Feature Learning for Pose Estimation》CVPR 2016

輸入是一張RGB靜态圖檔。經過CNN(論文中采用的CNN是VGG Net),得到和關節個數數量相同的heatmap,然後這些heamap通過資訊傳遞進行refined。資訊傳遞的方式是使用雙向樹結構,按照圖(2,a)的方式進行bottom-up的卷積,此外還按照圖(2,b)的方式進行top-down的卷積。最終得到預測的結果。

創新點

1,幾何變換核

論文閱讀:《Structured Feature Learning for Pose Estimation》CVPR 2016

圖中a-c表明,對于一個高斯分布的圖像,使用不同的幾何變換核,是可以得到不同的分布的,說明幾何變換核可以改變高斯分布,包括位置和強度。對于右邊的d圖,e和f分别是它的elbow和arm,可以看到arm的定位比較準确,但是elbow的定位較差,是以作者想到使用幾何變換核将arm的位置移動到elbow的位置,以此來學習這種相對位置的變換。将g與e疊加,獲得最大的峰值(相當于一個門檻值的控制),就有效的去除了多峰值的問題。

2,雙向樹模型

所謂樹模型就是将人體的關節看作是一個樹狀的模型,在網絡結構中采用自下而上和自上而下兩種方式進行卷積,采用這種相反方向的傳播是為了互相補充。樹狀圖中每個節點具體的計算方式也在網絡架構中提出了,帶有撇的就是經過處理的。基本也是按照卷積,融合和激活的計算方式。最終的結果就是這樣的Ak, Bk的heatmap經過連接配接,就可以預測第k個關節的heatmap。

2,後處理

之前看的論文都是單人姿态估計,如果圖像中出現了多個清晰的人物,也應該對其關節點做一個估計。論文中的具體做法是關節點i和關節點j的位置分别是(xi,yi),(xj,yj),那麼xr = (xi+xj)/2,yr = (yi+yj)/2。那麼dx = xi-xj-xr, dy = yi-yj-yr。[dx^2, dy^2]就是距離描述子,它的權重是[0.01,0.01]。

總結

論文最大的貢獻就是提出了一個關節點之間依賴的幾何變換核,另一個就是提出的樹結構能夠解決多人姿态估計。本篇論文值得一提主要是因為他在MPII競賽中曾經排名榜首,不過作者提出的方法在理論上不是那麼完善,可能更多的是依靠工程化的方法将成績刷的較高。不過這種對于人體關節的結構化資訊的關注也在CVPR 2017論文《Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》中使用到。

論文閱讀:《Structured Feature Learning for Pose Estimation》CVPR 2016

繼續閱讀