【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

2023-04-28 22:00:11

論文位址：https://arxiv.org/abs/1808.09316

論文總結

本文主要在生成遮擋政策的方向上進行實驗，得到實驗結果和對比。但由于當時的精度不是特别高，是以其中的一些結論現如今不一定完全适用。

實驗了幾種政策，單個矩形框、多個矩形框、多個條狀、多個圓形、VOC對象嵌入等方式，如下圖所示。

【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

論文的結論是，VOC的嵌入式遮擋政策，對于多重遮擋情況的泛化能力較好。

【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

論文介紹

本文自己實作了一個全卷積網絡，預測3D的heatmap，目标是圖檔空間的x,y以及相對根節點的z。遮擋的政策，是在單張RGB圖像上進行的。單張RGB圖像也就是網絡的輸入。在該網絡上，使用遮擋資料增強訓練的結果，不僅對受遮擋對象的魯棒性增強了，也對沒有遮擋的對象有所提升。作者認為這是由于遮擋所帶來的的正則化的表現結果。

文中使用L1損失訓練3D的網絡。

實驗設定

由于網絡是單張圖檔輸入的，是以需要進行去取備援的操作：視訊序列中，隻有與上一個持有幀距離30mm以上的才會加入訓練集；

輸入圖檔需要将人物居中，放大到 256 ∗ 256 256*256 256∗256。将人體邊界框較長的部分縮放到圖檔長度的80%。

進行遮擋的資料增強，使用黑色塊或者從VoC 2012中提取分割對象進行遮擋資料的生成。遮擋程度在 0 % ∼ 70 % 0\%\sim70\% 0%∼70%之間。訓練的VoC對象和測試的VoC對象進行嚴格的分離，使用的random erasing為RE-0 variant。遮擋的政策都是單獨進行的，用以進行對比，遮擋的機率為50%。

骨幹網絡為ResNet-50v1，使用Adam優化器，mini-batch為64，訓練40個epoch。

實驗結果

進行對比的論文是《Coarse-to-fine volumetric prediction for single-image 3d human pose》，其MPJPE為64.8。本文自己實作的網絡MPJPE為63.3。

各遮擋資料增強實驗的結果如下：

【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

結論如下：

測試時，圓形遮擋導緻的誤差最大，原因不明
測試時，其餘的遮擋政策中，矩陣是問題最小的遮擋方式；
訓練時，單個矩形資料增強的情況，隻能适用于單個或多個矩形的遮擋，對其他的遮擋類型泛化不行，尤其是圓形表現的最糟糕；
訓練時，多個矩形資料增強的情況，比單個矩形資料增強的情況要好一些，但也難以泛化；
訓練時，圓形遮擋資料增強的情況，可以泛化到簡單的幾何遮擋，但對相對真實的VoC對象遮擋沒有幫助；
訓練時，VoC對象資料增強的情況，可以泛化到簡單的幾何遮擋和其他的VoC對象（訓練的VoC對象和測試的VoC對象是嚴格分開的）

姿态檢測論文讀書筆記

上一篇: 大單元主題視角下的作業設計是指在大單元整體目标的導向下，将知識分析、整合、重組，并以一個完整的主題進行作業設計。在設計出

下一篇: Hessian Matrix 海森矩陣

繼續閱讀