5 Experiment
5.1 Settings
資料集。有一些可用的步态識别資料集,例如,CASIAB [26]、OUMVLP [21]、Outdoor-Gait [20]、FVG [30]、GREW [32] 等。但是,并非所有資料集都是對于基于端到端的步态識别方法很有用。例如,提出的工作不能應用兩個世界上最大的步态資料集 OUMVLP [21] 和 GREW [32],因為它們都沒有提供 RGB 視訊。簡而言之,我們理想的步态資料集擁有幾個重要屬性:可用的 RGB 視訊、豐富的相機視角和多種步行條件。
CASIA-B [26] 似乎是一個不錯的選擇。盡管如此,仍然需要另一個類似的資料集來适應我們的跨域設定。是以,我們收集了一個名為萬步态 200 (TTG-200) 的私有資料集,并将其統計資料顯示在表 1 中。
表 1. 現有步态資料集和我們收集的 TTG-200 的統計資料

CASIA-B。 CASIA-B 中有 124 名受試者在室内行走。它可能是最流行的資料集,由 11 個視角 () 和三種步行條件組成,即正常步行 (NM#01-06)、背包步行 (BG#01-02) 和換衣行走 (CL#01-02)。我們嚴格遵循之前的研究,将前 74 名受試者分組到訓練集中,将其他受試者分組到測試集中。此外,對于測試階段,前4個序列(NM#01-04)被視為gallery集,而剩下的6個序列被分為3個probe集,即NM#05-06,BG#01-02 , CL#01-02。此外,由于CASIA-B的輪廓是通過過時的背景減法獲得的,是以存在很多由背景和衣服引起的噪聲。是以,我們重新注釋了 CASIA-B 的輪廓并将其表示為 CASIA-B*。我們所有的實驗都是在這個新注釋的實驗上進行的。
TTG-200。該資料集包含 200 個在野外行走的受試者,每個受試者需要在 6 種不同的條件下行走,即攜帶、衣服、接電話等。對于每個行走過程,受試者将被位于不同視角(未标記)周圍的 12 個攝像頭捕獲,這意味着每個受試者理想地擁有 6 × 12 = 72 個步态序列。在接下來的實驗中,我們将前 120 個受試者用于訓練,最後 80 個受試者進行測試。另外,第一個序列(#1)被認為是gallery集,剩下的5個序列(#2-6)被認為是probe集。
如圖 5 所示,與 CASIA-B 相比,TTG-200 主要有以下三個差別:(1)TTG-200 的背景更加複雜多樣(采集于多個不同的戶外場景中); (2)TTG-200資料多為鳥瞰圖,CASIA-B資料多為水準圖; (3) TTG200 具有更好的圖像品質。是以,我們可以将這兩個資料集視為不同的域。
圖 5. CASIA-B 和 TTG-200 示例。左側(CASIA-B)由一個序列的六個視角組成。右邊(TTG-200)由六個不同視角的受試者組成
實驗細節
資料預處理。我們首先使用 ByteTrack [27] 從 CASIA-B [26] 和 TTG-200 的原始 RGB 視訊中檢測和跟蹤行人,然後進行行人分割和輪廓對齊 [9] 以提取步态序列。獲得的輪廓被調整為 64 × 44,可以作為這些兩階段步态識别方法的輸入,也可以作為這些端到端方法中行人分割網絡的ground-truth。
行人分割。我們使用流行的 U-Net [18] 作為我們的分割網絡,由 Binary Cross-Entropy [10] loss
步态識别。我們使用最新的 GaitGL [16] 作為我們的識别網絡,并嚴格遵循原始論文的設定。
聯合訓練細節。在這一步中,訓練資料采樣器和批量大小與步态識别網絡相似。我們用聯合損失聯合微調分割和識别網絡,其中表示識别網絡的損失。表示分割網絡的損失權重,設定為 10。此外,為了使聯合訓練過程收斂更快,我們使用訓練好的分割和識别網絡參數來初始化端到端模型,并相應地,它們的初始學習率分别設定為和。此外,我們固定了分割網絡的前半部分,即 U-Net,以保持分割結果為人形。我們共同訓練端到端網絡總共 20,000 次疊代,并在第 10,000 次疊代時将學習率降低 1/10。
5.2 Performance Comparison
為了展示 GaitEdge 可靠的跨域能力,我們對 CASIA-B* 和 TTG-200 進行了單域和跨域評估,如表 2 所示。
表2. CASIA-B和TTG-200的rank-1準确性(%)。不包括CASIA-B中的相同視角的情況。粗體和(黑體)數字分别代表單域和跨域的兩個最高準确率
單域評價。從表2的對角線結果中,我們觀察到,傳統的兩步步态識别方法的性能遠遠不如兩個端到端的方法。例如,GaitGL-E2E在CASIA-B和TTG-200上分别超過GaitSet[4]11.66%和12.75%。另一方面,我們提出的GaitEdge的準确度略低于GaitGL-E2E,即對CASIA-B來說是-2.13%,對TTG-200來說是-1.71%。然而,我們認為GaitGL-E2E在步态不相關的噪聲中擁有較高的過拟合風險,因為它直接将分割網絡産生的浮動掩碼作為識别網絡的輸入。是以,我們進一步進行了跨域評估,以支援這一概念的實驗。
跨域評估。如果一些不相關的噪音主導了用于人體識别的步态表征,即紋理和顔色,那麼在跨域設定的情況下,識别精度會急劇下降,因為提取的特征無力地代表了相對穩健的步态模式。表2中的反對角線結果顯示,由于CASIA-B和TTG-200之間的明顯差異,所有這些方法與單域相比都有明顯的性能下降。我們注意到,盡管GaitGL-E2E在單域中具有最高的準确性,但它在從CASIA-B到TTG-200的跨域中取得了最差的性能。相比之下,我們的GaitEdge在跨域評估中達到了比其他公布的方法最好的性能,盡管它比GaitGL-E2E在單域中低2%左右。
是以,這一跨域評估不僅表明GaitEdge的魯棒性遠遠優于GaitGL-E2E,而且還表明GaitEdge是一個用于端到端步态識别任務的實用而先進的架構。
與其他端到端方法的比較。最後但并非最不重要的是,提出的GaitEdge與以前的三種端到端步态識别方法在CASIA-B*的不同視圖上進行了比較。表3顯示,GaitEdge在各種行走條件下幾乎達到了最高的準确率,尤其是CL(比MvModelGait+5.7%),這表明GaitEdge對顔色和紋理(大衣的變化)具有明顯的魯棒性。
表 3. CASIA-B* 在不同視圖上的 rank-1 準确度 (%),不包括相同視角的情況。評估時,将前 4 個序列(NM#01-04)視為gallery集,而将左側 6 個序列分為 3 個probe集,即 NM#05-06、BG#01-02、CL#01 -02。 Song GaitNet [20] 的原始論文沒有提到 BG 和 CL 的結果
5.3 Ablation Study
邊緣的影響。表 4 顯示了身體邊緣尺寸的影響。我們通過幾種尺寸的結構元素提取邊緣——結構元素越大,邊緣區域越大。根據表4的結果,随着結構元素尺寸的增加,單域的性能相應提高,但跨域的性能幾乎同時下降。該結果表明,占據中間合成輪廓的浮動蒙版區域與 GaitEdge 的跨域性能呈負相關。是以,我們可以說 GaitGLE2E 在跨域評估中失敗的原因是它在無限制結構元素的情況下等效于 GaitEdge。此外,輪廓的那些非邊緣區域,即人體和背景,不适用于端到端步态識别架構的浮點編碼。
表 4 結構元素尺寸的消融研究。較大的邊緣區域的尺寸越大。粗體和(粗體)數字分别表示單域和跨域的最高精度
GaitAlign 的影響。值得注意的是,我們觀察到自然場景中行人檢測(上遊任務)的結果通常比受控環境(即 CASIA-B* 和 TTG-200)差得多。為了模拟這種複雜情況,我們首先對 CASIA-B* 的視訊應用目标檢測,然後以 0.5 的機率執行随機像素偏移以及垂直和水準坐标。如圖6(a)所示,底部圖像受到幹擾,旨在模拟自然情況。圖 6 (b) 顯示對齊顯著提高了平均精度。此外,我們還注意到正常行走 (NM) 的準确率略有下降,即 -0.38%。但是,我們認為這是因為 NM 的準确度正在接近上限。
圖 6. (a) 原始圖像(上)與受幹擾的圖像(下)。我們對被幹擾的圖像進行随機像素偏移,包括垂直和水準方向。(b) GaitAlign 子產品的消融研究。幹擾後的結果在 CASIAB* 上報告
5.4 Visualization
為了更好地了解 GaitGL-E2E 的性能下降和 GaitEdge 的有效性,我們分别說明了 GaitGLE2E 和 GaitEdge 生成的中間結果以及同一幀對應的 ground truth,如圖 7 所示。具體來說,對于 GaitGL- E2E,(a)、(b)、(c)和(d)中的中間結果捕獲了更多的背景和紋理資訊,并且一些身體部位被消除了,例如(e)和(f)中的腿。而對于 GaitEdge,中間結果更加穩定和合理,使其更加穩健。