文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

文獻

Sun L , Yan Z , Mellado S M , et al. 3DOF Pedestrian Trajectory Prediction Learned from Long-Term Autonomous Mobile Robot Deployment Data[J]. 2017.

概覽

文章所提出的模型基于LSTM架構，旨在預測行人的姿态資訊（位置坐标和朝向）。就模型本身而言，其結構基本與Vanilla LSTM保持一緻，不具有共享LSTMs資訊的池化層結構，但資料有所改變：資料為3DOF行人姿态的稱作Pose-LSTM，資料為3DOF行人姿态+Time的稱作T-Pose-LSTM，與此同時，文章在資料、訓練等又有新的創新點。

創新點

自動标注：受益于當今更加先進的2D laser and RGB-D sensors 和 3D LiDAR，使得移動機器人準确測量成為可能，文章模型評估時所使用的資料正是由上述兩種sensors感應和自動标注完成的。
新增行人姿态和時間日期資訊：模型的輸入和輸出在原有世界坐标系下二維坐标的基礎上，增加轉向角(yaw)方向坐标，形成了3DOF資料，評價名額在ADE基礎上增加AEDE（平均歐拉角度誤差）；并且輸入了兼顧長時間和短時間的日-小時-分-秒資訊，使模型關注長時間下環境的變化。
長時常資料和動态訓練長度：文章評估模型時所使用資料庫之一的STANDS具有約3192h的資訊記錄，相比UCY、ETH等小于1小時的資料庫時間跨度大幅提升，更符合移動機器人實際環境下的應用；同時，在訓練時模型并不指定統一的 seq_length ，長度根據軌迹原有長度自動調整，隻需定義最大長度并結合真值mask即可統計每條軌迹輸出中的有效部分。

Future Work

擴充L-CAS資料庫（現時長小于1h）至數周時長。
調研Pose-LSTM在真實環境下動态學習訓練的可能性。

模型概述

T-Pose-LSTM和Pose-LSTM僅在輸入資料上有日期時間的差異，在介紹時以T-Pose-LSTM為中心。下圖中我們可以看到T-Pose-LSTM的基本結構，其與軌迹預測的Vanilla LSTM基本模型是基本一緻的：

預設具有三層的LSTM結構，但每層的LSTM Cell均共享一個權重系數以免增權重重。
場景中出現的每一條軌迹對應一個LSTM序列，但序列之間是完全獨立的，沒有池化層等資訊交流的途徑。

資料規範

給定已知随時間變化（間隔為\(\Delta t\)）的軌迹資訊\(O:\{o_t, ...,o_{t+n+1}\}\)，模型實質為\(\{o_t, ..., o_{t+n}\}\)與\(\{o_{t+1},...,{o_{t+n+1}}\}\)之間的encoder-decoder。對于原始的\(o_t\)資料應為6DOF——六自由度資料：

\[o_t = \{x,y,z,q_x,q_y,q_z,q_w\}

但基于行人的水準面高度是固定的，隻具有偏航(yaw)的角度自由度，是以\(o_t\)可以被簡化為：

\[o_t = \{x,y,z,q_z,q_w\}

資料規範中的一個重點是6DOF格式資料，其是用于衡量剛體的姿态資訊的資料規格，包括三個空間坐标和三個沿軸旋轉的角度。對于三維空間中的角度變換，文章中的資料并沒有熟悉的三維角度坐标\((\alpha,\beta,\gamma)\)表示，而是使用了**漢密爾頓四元數\((q_x,q_y,q_z,q_w)\) **，漢密爾頓四元數實際刻畫四維空間的旋轉，通常其用于表示特殊的旋轉（三維空間中繞軸旋轉）：

給定三維軸向量\((x,y,z)\)，對應四元數\(q=(cos({\theta\over2}),sin({\theta \over 2})*x,sin({ \theta \over 2})*y, sin({\theta \over 2}) * z)\)（其中\(\theta\)為旋轉繞軸旋轉角度）
四元數共轭為\(q^{-1}=(cos({\theta\over2}),-sin({\theta \over 2})*x,-sin({ \theta \over 2})*y, -sin({\theta \over 2}) * z)\)
對于三維坐标中的待旋轉點\((w_x,w_y,w_z)\)，生成其純四元數\(q_w=(0,w_x,w_y,w_z)\)，則其繞軸旋轉後的四元數（也就是坐标）為：

\[(0,w_x',w_y',w_z') = q * q_w * q^{-1}
結論：根據四元數\(q\)的定義方式，我們就可以知道為什麼6DOF資料中\((q_x,q_y,q_z,q_w)\)在僅有偏航旋轉（繞z軸旋轉）的假設上變化為\((0,0,q_z,q_w)\)。

安利有關四元數的原理和應用的知乎回答，上文也摘編自其。

如何形象地了解四元數？ - Yang Eninala的回答 - 知乎

https://www.zhihu.com/question/23005815/answer/33971127

模型公式

LSTM疊代公式：

\[h_{t+1} = LSTM(\phi(o_i,W_e),h_t;W_l)

模型預測輸出格式：\((\mu_x,\mu_y,\sigma_x,\sigma_y,\rho, q_p^z,q_p^w)\)：

\((\mu_x,\mu_y,\sigma_x,\sigma_y,\rho )\)用于基于二維高斯分布求解二維坐标。
\((q_p^z,q_p^w)\)合成為\((0,0,q_p^z,q_p^w)\)四元數，用于計算方向姿态。

損失函數

\[loss = \Sigma^N_i \Sigma^n_j(-log(PDF((x_{gt},y_{gt})^{i,j},N^{i,j}(\mu,\sigma)))+||r_p^{i,j} - r_{gt}^{i,j}||^2 + \lambda ||W||_2)

模型的損失函數由三部分組成：第一部分是二維坐标損失，其計算基于輸出是二維高斯分布的假設，PDF-Gaussian Probabilistic-Density-Function 所求的其實就是\((x_{gt},y_{gt})\)在預測高斯分布下的機率密度；第二部分是角度偏向損失，使用歐拉角度距離；第三部分是L2正則化損失函數，防止神經網絡過拟合。

之前提到過模型訓練需支援動态序列長度，是以用于存儲序列資料的向量長度并未和序列真實長度一緻，是以需要使用mask去除無關的loss，\(1[.,.]\)是真值函數：

\[loss_{batch} = 1_i[row_i,col_j] \odot [loss_i]

實驗

資料集

文章所用的均是新資料集-STRANDS、L-CAS，分别由裝載在可移動機器人上的2D with depth sensor和3D LiDAR采集，并都将坐标轉換到了世界坐标系下。

STRANDS

場景：關護中心的服務機器人，曆時19周，行走距離87km。
技術：自動标注，對于行人檢測，使用kinect檢測上肢，2D-laser檢測下肢，二者合成卡爾曼濾波追蹤架構。
資料：共采集17609個軌迹，平均時長22.6s。

L-CAS

場景：林肯大學的大型室内空間-餐廳、咖啡店和休息區，包含挑戰性軌迹如團隊、小孩、手推車等。曆時19分鐘。
技術：Velodyne VLP-16 3D LiDAR
資料：共采集925個軌迹，平均時長13.5s。

評價

對比模型：Social LSTM、Pose-LSTM、T-Pose-LSTM
ADE - Average Distance Error
AEDE - Average Eulerian angle Difference Error \({1 \over {N*n}}\Sigma^N_i \Sigma^n_j min (|r_p^{i,j} - r_{gt}^{i,j}|,2\pi-|r_p^{i,j} - r_{gt}^{i,j}|)\)
STRANDS：\(\Delta t =1s\)，輸入5s，預測後續的1-9秒。三分之二訓練，其餘預測。
L-CAS：\(\Delta t = 0.4\)，輸入3.2秒，預測後續4.8秒。三分之二訓練，其餘預測。

High Lights

STRANDS測試中，預測時間小于5秒時三種方法性能相近，5S後T-Pose-LSTM表現顯著提升。
STRANDS測試中，Pose-LSTM和Social-LSTM對比發現縱使沒有提供時間資訊，姿态資訊也有助于提升位置判斷的準确性。

L-CAS測試中，Pose-LSTM的AEDE誤差高達\(35^o\) ，這是因為使用貝葉斯追蹤器自動标準靜态人并不準确。

文獻閱讀報告 - 3DOF Pedestrian Trajectory Prediction

概覽

創新點

Future Work

模型概述

資料規範

模型公式

損失函數

實驗

資料集

評價

High Lights

繼續閱讀

Understanding Understanding LSTM NetworksUnderstanding Understanding LSTM Networks

LSTM的使用

【RNN詳解】SimpleRNN，LSTM，bi-LSTM的原理及Tensorflow實作1.摘要2.SimpleRNN3.LSTM4.LSTM改進—bi_LSTM5.總結

【Tensorflow】自主實作包含全節點Cell的LSTM層（Cell-Holding LSTM Layer）

【深度學習架構Keras】循環神經網絡(SimpleRNN與LSTM)

遭Llama 2诋毀，LSTM之父暴怒！Meta盜用32年前idea訓模型

【自然語言處理（NLP）】基于LSTM的謠言檢測

tensorflow2利用雙向LSTM實作imdb影評分類

MATLAB環境下基于雙向長短記憶網絡Bi-LSTM的合成資料生成方法

CNTK API文檔翻譯(11)——使用LSTM預測時間序列資料（物聯網資料）

如何訓練LSTM0. 承前啟後1. 定義LSTM的結構2. 正向計算3. 選擇優化器和損失函數4. 多次正向反向計算更新參數5. 将輸出output轉換為想要的形式

什麼是Encoder-Decoder、Seq2Seq、Attention？2 什麼是Seq2Seq3 什麼是Attention

RNN/LSTM學習資料總結

【論文分享】MAD-GAN ：基于生成對抗網絡的時間序列資料多元異常檢測

A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs)

詳細了解pytorch的lstm參數lstm(*input, **kwargs)