Facebook實時人體姿态估計：Dense Pose及其應用展望

Facebook 和 Inria France 的研究人員分别在 CVPR 2018 和 ECCV 2018 相繼發表了兩篇有關「人體姿态估計」(human pose estimation) 的文章 [1] [2]，用于介紹他們提出的 Dense Pose 系統以及一個應用場景「密集姿态轉移」（dense pose transfer）。

本文将簡要介紹（1）利用 Dense Pose 實作單張 2D 人體圖像到 3D 表面模型的原理；（2）如何将 Dense Pose 系統應用在「姿态轉移」（pose transfer）這一問題上；（3）粗略展望 Dense Pose 的一些潛在應用。

Dense Pose 的更多資訊以及視訊 demos：

點選檢視原視訊

1. 什麼是密集姿态估計（dense pose estimation）?

密集姿态估計 (dense pose estimation) 将單張 2D 圖檔中所有描述人體的像素（human pixels），映射到一個 3D 的人體表面模型。如圖 1 所示，Facebook 釋出了一個名為 DensePose COCO 的大型資料集，包含了預先手工标注的 5 萬張各種人類動作的圖檔。

圖 1：密集姿态估計的目标是将 2D 圖檔中描述人體的像素，映射到一個 3D 表面模型。左：輸入的原始圖像，以及利用 [1] 中提出的 Dense Pose-RCNN，獲得人體各區域的 UV 坐标。UV 坐标又稱紋理坐标 (texture coordinates), 用于控制 3D 表面的紋理映射；中：DensePose COCO 資料集中的原始标注；右：人體表面的分割以及 UV 參數化示意圖。

2. 如何進行密集姿态估計？

密集姿态估計的核心任務是，訓練一個深度網絡，用于預測 2D 圖檔像素 (image pixels）與 3D 表面模型點 (surface points) 之間的密集聯系 (dense correspondences)。這個任務最近已經通過基于全連接配接卷積網絡 [4] 的 Dense Regression (DenseReg) 系統 [3] 得到了解決。而 Dense Pose-RCNN 系統 [1]，正是結合了 DenseReg 系統以及 Mask-RCNN 架構 [5]。

圖 2 展示了 Dense Pose-RCNN 的級連 (cascade) 架構：這是一個全卷積網絡 (fully-convolutional network)，并連接配接着 ROIAlign 池化層 (ROIAlign pooling)，用于處理兩個核心任務，分别是：（1）分類。判斷圖檔的某一像素來自于「背景」，還是「人體部位」；（2）回歸。預測該像素在「人體部位」的具體坐标。

圖 2：Dense Pose-RCNN 的架構。

圖 2 中的 ResNet50 FPN (feature pyramid networks) 将輸出 feature map，然後通過 ROIAlign 子產品對每一個 ROI 生成固定尺寸的 feature map。圖 3 展示了 ROIAlign 子產品的「跨級連」(cross-cascading) 結構，這種結構利用兩個輔助任務 (keypoint estimation & mask) 提供的資訊，幫助提高 Dense Pose 系統的姿态估計效果。作為 Dense Pose-RCNN 基礎之一的 Mask-RCNN [5] 結構，正是借助兩個相關任務（即 keypoint estimation 和 instance segmentation）提供的資訊，用于提高分割效果。

圖 3：Dense Pose-RCNN[1] 中的 ROIAlign 子產品采用了「跨級連」(cross-cascading) 架構。

3. 主幹 (backbone) 網絡對于 Dense Pose 系統的影響？

研究人員在 [1] 中對于兩種主幹網絡，ResNet-50 和 ResNet-101，對于 Dense Pose 任務的表現進行了比較。如表 1 所示，在 AP 和 AR 這兩個評估名額上，ResNet-101 的表現稍優于 ResNet-50，但由于大型網絡較為「笨重」，并不适用于移動應用。是以，[1] 中的其餘實驗均使用了 ResNet-50 作為主幹網絡。

表 1: 當 Dense Pose-RCNN 使用兩個不同的主幹網絡時，在 COCO Minval 資料集上取得的實驗結果。[1]

4. 從 Dense Pose 到 Dense Pose Transfer

除了介紹 Dense Pose 系統的架構和工作流程，研究人員還在 [1] 中展示了一個 Dense Pose 的應用，「紋理轉移」(texture transfer)。如圖 4 所示，紋理轉移這一任務的目标是，将圖像中所有人的身體表面紋理，轉換為預先提供的目标紋理。

圖 4：Dense Pose 紋理轉換 (texture transfer) 的實驗結果。該任務的目标是，将輸入的視訊圖像中所有人的身體表面紋理，轉換成目标紋理。圖中第 1 行為目标紋理 1 和紋理 2。第 2、3 行從左至右依次為，輸入圖像，轉換為紋理 1 的圖像，以及轉換為紋理 2 的圖像。

在 ECCV 2018 上，論文 [1] 的三名作者發表了 Dense Pose 的一個後續應用，即「密集姿态轉移」(dense pose transfer，以下簡稱為 DPT) [2]。與紋理轉換不同的是，DPT 這一任務的目标是，根據輸入的 2D 人體圖像和目标姿态 (target dense pose)，将輸入圖像中的人體姿态轉換成目标姿态，并且不改變人體表面紋理。

如圖 5 所示，DPT 系統以 Dense Pose[1] 為基礎，并且由兩個互補的子產品組成，分别是（1）推測子產品 (predictive module)，用于根據輸入圖像，預測出具有目标姿态的人體圖像；（2）變形子產品 (warping module)，負責從輸入圖像中提取紋理，并「補全」(inpainting) 具有目标姿态的人體表面紋理。此外，系統中還有一個合成子產品 (blending module)，通過端對端、可訓練的單一架構，将推測和變形子產品的輸出進行合成，并産生最終的圖像。

圖 5：密集姿态轉移（DPT) 系統的流程圖。該系統包括推測子產品、變形子產品，以及合成子產品。

圖 6 展示了在 DeepFashion 資料集 [6] 上取得的 12 組姿态估計結果。每組姿态結果從左至右依次為：輸入圖像、正确的目标圖像、Deformable GANs (DSC) [7] 獲得的轉移結果，以及 DPT 系統 [2] 獲得的轉移結果。由于 DSC 是目前解決「多視角圖像合成」(multi-view synthesis) 這一問題中效果最佳的方法，是以 [2] 的作者将這一方法與 DPT 系統進行比較。

從圖 6 可以粗略觀察到 DPT 系統在紋理轉移上還不是特别完善。例如，一些女士上衣的花紋沒有被保留，并成功轉移到輸出圖像中；此外，人物的面部特征也在轉移中出現一些偏差：身着黃色上衣的男士圖像（見圖 6 右側第 3 行），經過姿态轉後，人物面部更為「女性化」。論文 [2] 的作者指出，要取得更好的姿态轉換結果，可能還需要預先獲得一些額外的資訊，比如面部特征、性别以及膚色。

圖 6：密集姿态轉換（dense pose transfer）的實驗結果。左右兩組結果分别包含了輸入圖像、正确的目标圖像、Deformable GANs (DSC) [7] 得到的轉移結果，以及 DPT 系統 [2] 得到的轉移結果。

5. Dense Pose 的應用展望

Dense Pose 為人體姿态估計提供了一種新的解決方法，研究人員也在 demos 中展示了 Dense Pose 能夠實時完成紋理轉移等任務。盡管 Dense Pose 還有許多需要完善的地方，它的應用前景還是相當樂觀的。筆者認為 Dense Pose 未來可以在以下兩個方面進行應用：

一個應用方向是，利用單一圖檔進行服裝的虛拟試穿。顧客可以上傳一張自己的全身正面照，并從系統中選擇一套需要試穿的服裝，以及一個目标姿态。Dense Pose 系統則可以根據顧客提供的這些資訊，産生出一張合成的圖檔，顯示顧客「試穿」服裝後的姿态。

另一個應用方向則是，遠端視訊診斷背部痛疾。就診者按照醫生的要求，穿戴一套專用的傳感器，并依次完成一系列動作（如上身向前傾若幹度、蹲下、站直向左扭頭等等）。就診者的這一系列動作将由攝像頭拍攝，并生成視訊實時傳輸給醫生。一個設想是，醫生可以借助 Dense Pose 系統，根據就診者的動作視訊圖像，生成就診者的 3D 人體模型，并與背部無疾患的人體模型進行對比，進而初步判斷患者是否患有背部疾病。

參考文獻：

[1] Alp Güler, Rıza, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[2] Neverova, Natalia, Riza Alp Guler, and Iasonas Kokkinos. "Dense pose transfer." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[3] Alp Guler, Riza, et al. "Densereg: Fully convolutional dense shape regression in-the-wild." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[4] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[5] He, Kaiming, et al. "Mask r-cnn." Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017.

[6] Liu, Ziwei, et al. "Deepfashion: Powering robust clothes recognition and retrieval with rich annotations." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[7] Siarohin, Aliaksandr, et al. "Deformable gans for pose-based human image generation." CVPR 2018-Computer Vision and Pattern Recognition. 2018.

技術分析師的個人簡介

Olli Huang 是澳門科技大學的一名博士研究所學生，她的研究方向是大規模圖像檢索 (large-scale image retrieval) 和圖像的地理位置估計 (visual-based image geolocalization)。Olli 于 2017 年加入了機器之心的全球團隊，并以自由撰稿人的身份，發表了多篇計算機視覺應用的英文技術評論。

Olli 的機器之心首頁：
https://www.jiqizhixin.com/users/84204384-374e-4de0-bfc5-79eee677a8ec
。

Olli 的 LinkedIn 首頁：
https://www.linkedin.com/in/ollihuang

本文為機器之心原創，轉載請聯系本公衆号獲得授權。

Facebook實時人體姿态估計：Dense Pose及其應用展望

繼續閱讀

Android-opencv之CVCamera

基于ORB特征點比對的對極幾何限制實作（源碼+講解）

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

2021-08-20前言一、FDC2214基本資訊二、讀寫時序圖三、寄存器資訊四、配置步驟五、資料讀取六、部分代碼總結

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡