天天看點

文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

文獻

Sun L , Yan Z , Mellado S M , et al. 3DOF Pedestrian Trajectory Prediction Learned from Long-Term Autonomous Mobile Robot Deployment Data[J]. 2017.

文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

概覽

文章所提出的模型基于LSTM架構,旨在預測行人的姿态資訊(位置坐标和朝向)。就模型本身而言,其結構基本與Vanilla LSTM保持一緻,不具有共享LSTMs資訊的池化層結構,但資料有所改變:資料為3DOF行人姿态的稱作Pose-LSTM,資料為3DOF行人姿态+Time的稱作T-Pose-LSTM,與此同時,文章在資料、訓練等又有新的創新點。

創新點

  1. 自動标注:受益于當今更加先進的2D laser and RGB-D sensors 和 3D LiDAR,使得移動機器人準确測量成為可能,文章模型評估時所使用的資料正是由上述兩種sensors感應和自動标注完成的。
  2. 新增行人姿态和時間日期資訊:模型的輸入和輸出在原有世界坐标系下二維坐标的基礎上,增加轉向角(yaw)方向坐标,形成了3DOF資料,評價名額在ADE基礎上增加AEDE(平均歐拉角度誤差);并且輸入了兼顧長時間和短時間的日-小時-分-秒資訊,使模型關注長時間下環境的變化。
  3. 長時常資料和動态訓練長度:文章評估模型時所使用資料庫之一的STANDS具有約3192h的資訊記錄,相比UCY、ETH等小于1小時的資料庫時間跨度大幅提升,更符合移動機器人實際環境下的應用;同時,在訓練時模型并不指定統一的

    seq_length

    ,長度根據軌迹原有長度自動調整,隻需定義最大長度并結合真值mask即可統計每條軌迹輸出中的有效部分。

Future Work

  1. 擴充L-CAS資料庫(現時長小于1h)至數周時長。
  2. 調研Pose-LSTM在真實環境下動态學習訓練的可能性。

模型概述

T-Pose-LSTM和Pose-LSTM僅在輸入資料上有日期時間的差異,在介紹時以T-Pose-LSTM為中心。下圖中我們可以看到T-Pose-LSTM的基本結構,其與軌迹預測的Vanilla LSTM基本模型是基本一緻的:

  1. 預設具有三層的LSTM結構,但每層的LSTM Cell均共享一個權重系數以免增權重重。
  2. 場景中出現的每一條軌迹對應一個LSTM序列,但序列之間是完全獨立的,沒有池化層等資訊交流的途徑。
文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

資料規範

給定已知随時間變化(間隔為\(\Delta t\))的軌迹資訊\(O:\{o_t, ...,o_{t+n+1}\}\),模型實質為\(\{o_t, ..., o_{t+n}\}\)與\(\{o_{t+1},...,{o_{t+n+1}}\}\)之間的encoder-decoder。對于原始的\(o_t\)資料應為6DOF——六自由度資料:

\[o_t = \{x,y,z,q_x,q_y,q_z,q_w\}

\]

但基于行人的水準面高度是固定的,隻具有偏航(yaw)的角度自由度,是以\(o_t\)可以被簡化為:

\[o_t = \{x,y,z,q_z,q_w\}

資料規範中的一個重點是6DOF格式資料,其是用于衡量剛體的姿态資訊的資料規格,包括三個空間坐标和三個沿軸旋轉的角度。對于三維空間中的角度變換,文章中的資料并沒有熟悉的三維角度坐标\((\alpha,\beta,\gamma)\)表示,而是使用了**漢密爾頓四元數\((q_x,q_y,q_z,q_w)\) **,漢密爾頓四元數實際刻畫四維空間的旋轉,通常其用于表示特殊的旋轉(三維空間中繞軸旋轉):

  1. 給定三維軸向量\((x,y,z)\),對應四元數\(q=(cos({\theta\over2}),sin({\theta \over 2})*x,sin({ \theta \over 2})*y, sin({\theta \over 2}) * z)\)(其中\(\theta\)為旋轉繞軸旋轉角度)
  2. 四元數共轭為\(q^{-1}=(cos({\theta\over2}),-sin({\theta \over 2})*x,-sin({ \theta \over 2})*y, -sin({\theta \over 2}) * z)\)
  3. 對于三維坐标中的待旋轉點\((w_x,w_y,w_z)\),生成其純四元數\(q_w=(0,w_x,w_y,w_z)\),則其繞軸旋轉後的四元數(也就是坐标)為:

    \[(0,w_x',w_y',w_z') = q * q_w * q^{-1}

  4. 結論:根據四元數\(q\)的定義方式,我們就可以知道為什麼6DOF資料中\((q_x,q_y,q_z,q_w)\)在僅有偏航旋轉(繞z軸旋轉)的假設上變化為\((0,0,q_z,q_w)\)。

安利有關四元數的原理和應用的知乎回答,上文也摘編自其。

如何形象地了解四元數? - Yang Eninala的回答 - 知乎

https://www.zhihu.com/question/23005815/answer/33971127

模型公式

LSTM疊代公式:

\[h_{t+1} = LSTM(\phi(o_i,W_e),h_t;W_l)

模型預測輸出格式:\((\mu_x,\mu_y,\sigma_x,\sigma_y,\rho, q_p^z,q_p^w)\):

  1. \((\mu_x,\mu_y,\sigma_x,\sigma_y,\rho )\)用于基于二維高斯分布求解二維坐标。
  2. \((q_p^z,q_p^w)\)合成為\((0,0,q_p^z,q_p^w)\)四元數,用于計算方向姿态。

損失函數

\[loss = \Sigma^N_i \Sigma^n_j(-log(PDF((x_{gt},y_{gt})^{i,j},N^{i,j}(\mu,\sigma)))+||r_p^{i,j} - r_{gt}^{i,j}||^2 + \lambda ||W||_2)

模型的損失函數由三部分組成:第一部分是二維坐标損失,其計算基于輸出是二維高斯分布的假設,PDF-Gaussian Probabilistic-Density-Function 所求的其實就是\((x_{gt},y_{gt})\)在預測高斯分布下的機率密度;第二部分是角度偏向損失,使用歐拉角度距離;第三部分是L2正則化損失函數,防止神經網絡過拟合。

之前提到過模型訓練需支援動态序列長度,是以用于存儲序列資料的向量長度并未和序列真實長度一緻,是以需要使用mask去除無關的loss,\(1[.,.]\)是真值函數:

\[loss_{batch} = 1_i[row_i,col_j] \odot [loss_i]

實驗

資料集

文章所用的均是新資料集-STRANDS、L-CAS,分别由裝載在可移動機器人上的2D with depth sensor和3D LiDAR采集,并都将坐标轉換到了世界坐标系下。

STRANDS

  1. 場景:關護中心的服務機器人,曆時19周,行走距離87km。
  2. 技術:自動标注,對于行人檢測,使用kinect檢測上肢,2D-laser檢測下肢,二者合成卡爾曼濾波追蹤架構。
  3. 資料:共采集17609個軌迹,平均時長22.6s。

L-CAS

  1. 場景:林肯大學的大型室内空間-餐廳、咖啡店和休息區,包含挑戰性軌迹如團隊、小孩、手推車等。曆時19分鐘。
  2. 技術:Velodyne VLP-16 3D LiDAR
  3. 資料:共采集925個軌迹,平均時長13.5s。
文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

評價

  1. 對比模型:Social LSTM、Pose-LSTM、T-Pose-LSTM
  2. ADE - Average Distance Error
  3. AEDE - Average Eulerian angle Difference Error \({1 \over {N*n}}\Sigma^N_i \Sigma^n_j min (|r_p^{i,j} - r_{gt}^{i,j}|,2\pi-|r_p^{i,j} - r_{gt}^{i,j}|)\)
  4. STRANDS:\(\Delta t =1s\),輸入5s,預測後續的1-9秒。三分之二訓練,其餘預測。
  5. L-CAS:\(\Delta t = 0.4\),輸入3.2秒,預測後續4.8秒。三分之二訓練,其餘預測。

High Lights

  1. STRANDS測試中,預測時間小于5秒時三種方法性能相近,5S後T-Pose-LSTM表現顯著提升。
  2. STRANDS測試中,Pose-LSTM和Social-LSTM對比發現縱使沒有提供時間資訊,姿态資訊也有助于提升位置判斷的準确性。
文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction
  1. L-CAS測試中,Pose-LSTM的AEDE誤差高達\(35^o\) ,這是因為使用貝葉斯追蹤器自動标準靜态人并不準确。
文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

繼續閱讀