天天看點

【SSN】:Spatial Shortcut Network for Human Pose Estimation

1.概述

現有的基于姿态估計的方式,是通過逐像素分類實作的,這種方式是考慮不到大範圍的空間資訊的。舉例來說:在左圖中,由于肘關節的外觀與膝關節非常相似,對于一個感受野僅能覆寫肘關節本身的小特征提取器,很難将兩者區分開來。但如果感受野能同時看到附近的手腕或肩膀,那麼将其歸類為肘部就容易得多。同樣,在中間的圖像中,要确定身體的某個部位是左還是右,人的頭部和手的方向是重要的資訊,但這需要較大的感受野。在涉及單人姿态估計的方法中,需要抑制非主要人體部位的檢測。如右圖所示,利用周圍人和圖像邊界的資訊,特征提取器可以抑制非主要人體部位的肩膀檢測,同樣的較大的感受野是必須的。

【SSN】:Spatial Shortcut Network for Human Pose Estimation

對卷積網絡而言,隻要将網絡變的更深,或者增大卷積核,就能夠促進空間資訊流動,我們就可以增加最終特征的感受野。感受野增加了,上述提到的三種情況都能夠被較好的解決。然後不論是大卷積核還是深網絡,這對計算和訓練都帶來了較大的挑戰。

為了空間資訊能夠低成本的流動,本文提出了一種針對于姿态估計任務的空間連接配接網絡,使資訊在空間上的流動更容易。本文提出的網絡為spatial shortcut network (SSN)。該網絡将特征映射移動和注意機制結合在一個稱為特征移動子產品feature shifting module(FSM)中。

本文的主要貢獻有:

1.提出了一種基于特征變換的空間通道快速移動模型(FSM)。通過對其特征映射移位、信道解耦和注意機制的研究,提出了一種視窗優化、高效靈活的卷積層結構。

2.對上述提到 的FSM子產品進行了詳細的分析。證明了該算法在空間依賴關系模組化、關鍵點檢測與偏移量關系模組化等方面的能力。

3.結果表明,該模型能夠在較小的結構下取得較好的甚至更好的效果。本文還提出了一種具有競争性能的輕量級網絡,允許在資源有限的裝置上應用。

Deformable CNN用分數值對每個通道和每個空間位置的卷積核偏移量進行回歸。Active CNN使用可優化的核偏移量而不進行回歸,偏移量值在空間位置上是一緻的。本文提出的方法也可以看作是學習核偏移量,但是它比可變形卷積和主動卷積更有效,我們将在3.1節中介紹。雖然也有人使用分數可學習偏移量來移動每個通道,但在本文的方法中,通道的解耦和注意力機制的引入使的學習的偏移量能夠更專注于模組化空間長期依賴關系。

2.feature shifting module(FSM)

本文最核心的部分是特征轉移子產品(FSM)。該子產品在參數數量和計算成本上都與普通卷積層一樣輕量,并可以插入到網絡的任何部分來補充空間資訊。該子產品主要分為兩個部分,如下圖所示,主子產品(main)和注意力機制子產品(correlation attention)。

【SSN】:Spatial Shortcut Network for Human Pose Estimation

一.main子產品

該子產品輸入為C個通道的特征P,首先通過1*1的卷積變換為K個通道的特征。然後對K個通道的特征,作逐通道的shift操作,該過程中需要 K對偏置參數。shift操作後的特征和CA子產品的輸出,作逐元素相乘。再利用1*1的卷積将通道數變換為C個。最後在和子產品的輸入特征P做短連接配接逐元素相加,經過BN和Relu後輸出。整個過程中,最重要的shift操作如下。

【SSN】:Spatial Shortcut Network for Human Pose Estimation

如上圖所示,若K通道的特征中,K等于3,則對每個通道而言都會有一對可學習的參數(x,y)。該參數對用于作對應通道的特征偏移。為了訓練的便利,該可學習參數為實數值,而且在偏移前對特征圖作了雙線性內插補點。

【SSN】:Spatial Shortcut Network for Human Pose Estimation

上述公式展示了shift過程的計算,星号表示對原始的輸入C通道特征圖作線性內插補點,第二個公式表示對K通道特征圖進行可學習偏移。是以,整個FSM子產品的公式如下:

【SSN】:Spatial Shortcut Network for Human Pose Estimation

二.CA子產品(Correlation attention)

文章引入相關注意子產品(CA),根據輸入資料來調節FSM在何處以及如何有效。如果沒有它,FSM将在每個空間位置上不加差別地進行卷積,在沒有空間依賴性的位置上産生噪聲,或者可能發生過拟合現象。CA子產品會在每個空間位置預測空間依賴是否存在,或者說移位特征是否與局部特征相關。為了預測相關置信度,理想情況下,我們應該同時使用移位前和移位後的特征作為輸入源,但是實驗表明,這與僅使用移位前的特征具有類似的性能,是以本文中僅使用移位前的特征作為CA子產品的輸入。具體公式如下:

【SSN】:Spatial Shortcut Network for Human Pose Estimation

三.視窗定義

本文中接下來要講的視窗不是傳統的網格形狀,例如3 *3卷積中的3* 3個網格,而是由所有K個偏移量進行偏移後定義的形狀。在這個卷積視圖下,我們将輸入映射中的卷積位置稱為視窗位置,如下圖中的橙色/藍色/綠色點所示。

【SSN】:Spatial Shortcut Network for Human Pose Estimation

四.通道解耦

3.骨幹網絡和早期預測器
4.結論

繼續閱讀