天天看點

ICCV 2021 |首屆 SoMoF 人體序列預測比賽冠軍方案分享

ICCV 2021 |首屆 SoMoF 人體序列預測比賽冠軍方案分享

近日阿裡巴巴淘系技術多媒體算法團隊的同學,以大幅領先第二名的成績獲得了在 ICCV2021 上舉辦的第一屆室外場景下的人體軌迹預測比賽( SoMoF

Challenge )的冠軍,同時比賽論文被該 Workshop 接收。

作為計算機視覺領域的三大頂級會議之一, ICCV 是每年學界的重要事件。ICCV 全稱為 International Conference on Computer Vision ,中文為國際計算機視覺大會。這個會議是由 IEEE 主辦的全球最進階别學術會議,每兩年在世界範圍内召開一次,在業内具有極高的評價。而由斯坦福大學主辦的第一屆 SoMoF Challenge 以人體軌迹預測這一既有廣闊應用前景又極具挑戰的任務為主題,吸引了來自衆多高校和工業界的參賽者。

本次Challenge中我們通過改進圖卷積網絡,應用軌迹資訊作為輸入,通過設計新穎的訓練和資料處理政策,獲得了2D資料集PoseTrack和3D資料集3DPW兩個子任務上的冠軍,并且在兩個資料集上分别領先第二名5%和13%。

比賽位址:

https://somof.stanford.edu/workshops/iccv21

論文位址:

https://openaccess.thecvf.com/content/ICCV2021W/SoMoF/papers/Wang_Simple_Baseline_for_Single_Human_Motion_Forecasting_ICCVW_2021_paper.pdf

背景

随着計算機視覺研究的不斷深入,許多識别類任務,如動作認别,姿态識别取得了重大的進展。為了進一步拓寬計算機視覺的應用場景,越來越多的研究者将注意力從“識别”類任務轉移到“預測”類任務上。人體動作序列預測就是其中一個頗受關注的方向。

概括來說,動作序列預測要做的是,根據給定圖像序列中的人體關節點的2D或3D坐标,預測接下來若幹幀圖像序列中的關節點的位置。值得一提的是,接下來若幹幀的圖像資訊是不可見的。

ICCV 2021 |首屆 SoMoF 人體序列預測比賽冠軍方案分享

動作序列預測是一個很有應用前景,也極具挑戰的研究方向。它的應用場景廣泛,包括自動駕駛,人機互動,安防,AI健身教練等。舉個例子,如果一輛行進中的自動駕駛汽車,通過觀察斑馬線上路人過馬路時的畫面,能夠預測接下來他們的行動軌迹,那就能及時停車或者前進,減小交通事故發生的機率。

ICCV 2021 |首屆 SoMoF 人體序列預測比賽冠軍方案分享

同時這還是一個很有挑戰的方向。由于室外場景的複雜性,人們自身行動的随意性,周圍人和物的多變性,以及預測類任務本身自帶的不确定性,都會增加未來時刻動作序列預測的難度。

本次比賽中,我們通過采用在解決手淘場景下的人體/人手姿态估計時提煉出的技術積累,結合動作序列任務本身的特性,設計了新的網絡結構,采用了新穎的訓練和資料處理政策,在此次比賽中獲得了第一名的結果,具體方法将在下文介紹。

網絡結構

我們的網絡輸入隻有關節點的坐标序列。對于實驗所用到的兩個資料集來說,在PoseTrack上,使用的是14個關節點的2D圖像坐标,在3DPW資料集上,使用的是24個關節點的3D世界坐标。

實驗中我們嘗試增加了圖像資訊,效果都有所下降,原因可能是關節點本身已經是圖像資訊對關節點預測最有效最精簡的資訊,額外的圖像資訊分散了網絡的關注點,反倒不利于網絡的學習。

網絡結構我們采用的是GCN結構。在輸入的關節點序列進網絡前,先經過一個DCT變換,将時域資訊轉換到頻域。在GCN的最後,經過iDCT變換,将頻域資訊轉換回到時域中,即為預測的結果。

GCN相比RNN/LSTM的優勢是,所有幀的預測結果可以一次預測出來,不需要一幀一幀的連續多幀預測。

ICCV 2021 |首屆 SoMoF 人體序列預測比賽冠軍方案分享

繼續閱讀