天天看點

(Applied Intelligence-2022)TransGait: 基于多模态的步态識别與集合Transformer

TransGait: 基于多模态的步态識别與集合Transformer

paper題目:TransGait: Multimodal-based gait recognition with set transformer

paper是甯波大學發表在Applied Intelligent 2022的工作

paper位址:​​連結​​

Abstract

作為一種可以從遠處識别的生物特征,步态在預防犯罪、司法鑒定和社會安全等方面有着廣泛的應用。然而,步态識别仍然是一項具有挑戰性的任務,在典型的步态識别方法中存在兩個問題。首先,現有的步态識别方法對行人的衣服和攜帶物的魯棒性很弱。第二,現有的步态識别的時間模組化方法不能充分地利用序列的時間關系,并要求步态序列保持不必要的順序限制。在本文中,我們提出了一個新的基于剪影和姿勢特征的多模态步态識别架構來克服這些問題。輪廓和姿勢的聯合特征對行人的衣服和攜帶物具有很高的可判别性和魯棒性。此外,我們提出了一個帶有時間聚合操作的集合transformer模型,以獲得集合級的空間-時間特征。這種時間模組化方法不受幀排列的影響,可以無縫整合在不同場景下獲得的不同視訊的幀,例如不同的觀看角度。在CASIA-B和GREW這兩個公共資料集上的實驗表明,所提出的方法提供了最先進的性能。在CASIA-B上穿着不同衣服行走這一最具挑戰性的條件下,所提出的方法達到了85.8%的rank-1準确率,比其他方法高出很多(>4%)。

1 Introduction

步态識别是一種基于人的行走模式的人體識别技術。與人體識别方法中使用的其他人體生物識别資訊,如指紋、虹膜和人臉相比,步态資訊易于獲得,難以僞造,并且适合于長距離的人體識别。由于這樣的優勢,它一直是生物識别和計算機視覺領域的一個活躍的研究課題,目标是在公共安全和犯罪調查中具有廣泛的應用前景。現有的步态識别方法大多是從人的輪廓中提取步态特征。特别是随着深度卷積網絡的發展,基于剪影序列的方法已被廣泛研究和使用。剪影序列的計算成本低,但可以有效地描述一個人的步态。然而,識别精度受各種外部因素的影響很大,如衣服和攜帶條件[1, 2]。例如,最近的一個最先進的方法MT3D[3],在CASIA-B步态資料集上,在不同的視角下,正常行走條件下的準确率達到了96.7%[4]。然而,在換衣服的情況下,準确率下降到81.5%。

為了減少服裝和攜帶條件對步态識别的影響,我們提出了一種結合剪影和姿勢熱圖的多模式步态識别方法。剪影和姿勢熱圖從不同角度描述行人。剪影序列描述了行人在步态周期中的外觀變化,包含豐富的行人資訊。是以,剪影的步态特征具有很強的可判别性。然而,剪影很容易受到行人衣服和物品的幹擾,大大影響步态識别的準确性。相比之下,姿勢序列描述了行人内部關節在步态周期中的變化。是以,它不包含行人的衣服和攜帶物的幹擾資訊,對衣服的變化和攜帶物具有魯棒性[5]。如圖1a所示,由于服裝資訊的存在,同一行人在不同服裝條件下的剪影有很大的不同,但不同服裝條件下的姿勢熱圖是相似的。然而,姿勢熱圖包含的資訊較少,不足以區分不同的行人。如圖1b所示,在相同的行走條件下,不同行人的姿态熱圖非常相似,但剪影卻有明顯的差異。這說明剪影和姿勢資訊是互補的,可以結合起來準确描述行人的步态。剪影具有豐富的外觀資訊,有助于區分不同的行人,進而提高類間的辨識度。姿勢熱圖對衣服和攜帶物的變化具有魯棒性。是以,在步态識别中,幹擾資訊的影響被降低,減少了類内差異。在CASIA-B資料集和GREW上的實驗表明,剪影和姿勢熱圖的結合可以提高步态識别的準确性,而多模态方法是必須的。

時間模組化是步态識别的關鍵任務之一,因為步态本身就是運動的。在現有的方法中,通常使用LSTM和3DCNN對步态進行時間上的模組化。LSTM可以對步态周期中的長期時間特征進行模組化。然而,LSTM不能進行并行訓練。另一方面,3DCNN通常需要大量的參數。Fan等人[6]選擇短期時間特征作為人類步态模組化的最有辨識度的特征。然而,隻有短期的時間資訊不足以提取人類步态的判别特征。盡管上述方法保留了更多的時間資訊,但不連續的輸入幀和不同的幀率可能會引起明顯的退化。這是因為這些方法保留了不必要的順序限制。是以,我們在步态識别架構中引入了集合transformer子產品(STM),對不同時間尺度的運動模式進行模組化。首先,STM對步态序列元素的順序沒有任何限制,以便能夠在不同的視角下對步态幀之間的互動進行模組化。其次,STM自适應地學習步态序列中包含的不同運動模式,包括步态周期的短期、中期和長期時間資訊。transformer中的每個多頭注意力運算器都集中在不同的運動模式上。我們的主要貢獻總結如下。

  • 我們将剪影和姿勢熱圖結合起來,挖掘出行人的穩健和可辨識的步态特征。我們建構了基于部位的多模态特征,這些特征是由來自剪影和姿勢熱圖的分割深度特征組合而成的。這些對應于特定部位的多模态特征描述了行走過程中的部位級運動特征。
  • 我們提出了STM,這是一個用于步态識别的新型時間模組化子產品。對應于一個部位的多模态特征序列被輸入到STM中,以提取多個運動特征用于步态識别。所提出的STM網絡融合了多模态視覺資訊、基于部件的細粒度特征和步态序列的時間相對性。與其他視覺任務中使用的transformer模型不同,STM由于其對幀排列的魯棒性而具有靈活性。
  • 所提出的方法在CASIA-B和GREW資料集中的表現優于最先進的步态識别方法。
(Applied Intelligence-2022)TransGait: 基于多模态的步态識别與集合Transformer
圖1 剪影(上)和姿勢(下)的例子。(a)不同服裝條件下的同一個行人:剪影是不同的,但姿勢熱圖是相似的。(b) 不同的行人:不同行人的姿勢熱圖是相似的,但剪影是不同的。

2 Related works

2.1 Body representation in gait recognition

就人體表征而言,步态識别可以分為基于剪影的方法[3, 6-13]和基于姿勢的方法[14-19]。剪影一直是文獻中最常用的人體表征。剪影可以有效地描述行人在步态期間的外觀變化,這是因為剪影中沒有描述與步态識别無關的資訊,如顔色[2]。然而,由于它描述的是行人的外觀,是以對服裝和攜帶物的變化非常敏感。基于姿勢的步态識别方法通常采用三維骨架作為人體表示,因為三維骨架不容易受到衣服和攜帶物的影響。然而,三維姿态估計方法存在兩個問題:i)基于三維骨架的方法嚴重依賴身體關節的精确檢測,對遮擋比較敏感;ii)三維骨架隻描述步态期間身體關節的變化,不能完全反映行人的步态。

近年來,随着深度學習的發展,二維姿态估計有了很大的進步。由于姿勢資訊在人類步态識别中非常重要,是以二維姿勢是比三維姿勢更可行、成本更低的技術方案。Feng等人[20]利用從RGB圖像中提取的人體關節熱圖來提取時間特征。然而,當完全忽略剪影時,隻使用姿勢的識别率并不令人滿意。Li等人[21]整合了人體的三維關節、二維關節和剪影。這種方法取得了最先進的結果,但相對複雜。Zhao等人[22]分别提取了剪影和姿勢的單模态步态特征,而不是将剪影和姿勢串聯起來作為多模态的身體表示來提取多模态步态特征。在這項工作中,我們的目标是解決步态識别對服裝和攜帶物的魯棒性問題。我們提出了一種使用剪影-姿勢身體表示的多模式步态識别方法。剪影-姿勢身體表示法在描述行人的步态變化方面更為全面。它對行人的服裝和攜帶物的變化也很穩健。在本文中,我們選擇2D姿勢熱圖來描述行人關節的變化。由于二維姿态熱圖是人體關節的機率圖,它比三維骨架對姿态估計誤差更穩健。

2.2 Temporal representation in gait recognition

步态識别中的時間表示可分為基于模闆的方法和基于序列的方法。基于模闆的方法使用統計函數将步态資訊聚合到一個圖像中,可分為兩個子類别:時間模闆和卷積模闆。時間模闆在輸入到網絡之前聚合了步态資訊,如步态能量圖像(GEI)[23]和步态熵圖像(GENI)[24]。卷積模闆在經過幾層卷積和池化操作後聚合了步态資訊,包括集合池化[9]和步态卷積能量圖(GCEM)[25]。基于序列的方法學習了步态序列中的時間關系,而不是将其彙總。基于序列的方法可以分為三個子類别。基于LSTM的方法[7, 25, 26],基于3DCNN的方法[3, 27]和基于微動作的方法[6]。Zhang等人[7]将人體分為幾個部分,每個部分使用LSTM時間注意模型提取步态的空間-時間特征。Lin等人[3]提出了一個多時間尺度的3DCNN(MT3D)模型,該模型改進了3D池化層來聚合每個局部時間片段的時間資訊。Fan等人[6]提出了一個微動捕獲子產品(MCM),它由一個微動模闆生成器和一個時間池化子產品組成。微動模闆生成器利用注意力機制和統計函數來聚合局部相鄰的幀,并獲得若幹局部微動模闆。然後,這些微動模闆被聚合起來,通過時間池化子產品獲得步态特征。這種方法證明了微動對步态識别是有效的。然而,該方法隻考慮了微動作模式而沒有考慮其他運動模式。例如,起始運動和未來落地運動之間的關系對步态識别是有益的。是以,我們使用集合transformer子產品來模拟輸入集合中各元素之間的互相作用,transformer中的多頭注意力中的每個頭都會學習步态序列中的不同運動模式,然後将這些運動模式特征聚合起來進行步态識别。

2.3 Transformer

Transformer在基于序列的任務,特别是在自然語言處理(NLP)任務中表現出了出色的性能[28, 29]。它最初是為了解決RNN不能并行訓練的問題而設計的[30]。該transformer由一個自注意力子產品和一個前饋神經網絡組成。自注意力子產品學習了注意力機制中任何兩個架構之間的關系,提供了更好的并行性。多頭注意力是由多個自注意力組成的。每個頭提取不同模式的序列特征,這有助于捕捉更豐富的序列資訊。transformer已被用于許多計算機視覺任務中,如動作識别[31, 32],和幀合成[33]。近年來,transformer也被用于圖像空間特征提取[34, 35]。Dosovitskiy等人[34]首次引入transformer代替CNN進行圖像空間模組化。Liu等人[35]提出了一種基于移位視窗方案的分層transformer結構,該結構可以靈活地在各種尺度上模組化,其計算複雜度與圖像大小呈線性關系。Yao等人[36]在步态識别中使用該transformer對行人關節的空間關系進行模組化。在本文中,我們将transformer用于步态識别的時間模組化。作為一個包絡不變的基于注意力的神經網絡子產品,STM被提出來學習和聚集步态周期中的不同運動模式。

3 Proposed method

圖2描述了提出的步态識别模型的整體結構。首先,從輸入的步态序列中獲得剪影和姿勢熱圖。然後,它們被送入相應的特征提取子產品,表示為和,以提取幀級特征。然後,剪影和姿勢特征圖被串聯起來,得到剪影-姿勢多模态架構級身體特征。多模态的架構級身體特征通過水準池化(HP)子產品被水準分割成部分級特征。對于每個部分,我們使用STM來提取步态序列中不同時間尺度的運動模式,并通過時間聚合獲得空間-時間的細粒度特征。最後,提取的集合級部分運動特征被用于識别人類步态。

(Applied Intelligence-2022)TransGait: 基于多模态的步态識别與集合Transformer
圖2 TransGait的整體架構。和分别代表剪影特征提取器和姿勢特征提取器,c表示連接配接操作。HP代表Horizontal Pooling,STM代表set transformer子產品。

3.1 Pipeline

讓我們将資料集中受試者的 RGB 圖像序清單示為,其中是序列中的幀數。背景減法和預訓練姿态估計網絡(CPM)[37]分别用于從RGB圖像序列中提取相應的輪廓序列和2D姿态熱圖序列,記為和。然後,我們通過和提取輪廓和 2D 姿勢熱圖序列的空間特征。

将輪廓特征圖和姿态特征圖拼接得到輪廓-姿态多模态特征圖,如下:

其中表示連接配接操作。以多模态特征作為身體表示特征,分别比輪廓特征和姿勢特征對行人的衣服和攜帶物具有更強的魯棒性和更強的判别力。

最近的行人重識别方法從局部部分生成深度表示,用于人的細粒度判别特征[38-40]。受這些工作的啟發,我們使用水準池化(HP)子產品來提取部分人體的判别性部分特征。如圖 3 所示,HP 子產品将多模态特征圖水準拆分為個部分(我們在實驗中選擇)。然後,HP 子產品通過全局平均和最大池化對的每個部分進行下采樣,以生成列特征向量。

其中.我們将多模态特征序列轉化為個部位級特征向量,得到多模态部位表示矩陣 。多模态部分表示矩陣的對應行向量記為 。然後,對于MP的部分,STM提取集合級時空特征。請注意,STM 不需要嚴格的順序輸入,即使輸入混亂也可以獲得相同的輸出。

最後,我們使用幾個獨立的 FC 層将從 STM 中提取的特征向量映射到度量空間以進行步态識别。

(Applied Intelligence-2022)TransGait: 基于多模态的步态識别與集合Transformer
圖3 HP的結構(以n = 4為例)

3.2 Multi-head attention

作為transformer的一個組成部分,self-attention 機制顯式地模拟了序列中所有實體之間的互動。自注意力是在接收元組輸入(查詢、鍵、值)時定義的,并将縮放的點積執行為

其中,表示輸入序列嵌入。

多頭注意力包括多個自注意力塊,其中每個自注意力頭在序列元素之間尋找不同的關系。多頭注意力子產品公式如下:

其中 Attention

3.3 Set transformer module (STM)

在本文中,我們提出了 STM,這是一個基于注意力的子產品,它擴充了标準transformer網絡 [28] 以學習步态集合中元素之間的互動。請注意,我們使用适合步态識别任務的時間池化(TP)來進行特征聚合,而不是其他transformer使用的 [cls] 标記。與原始transformer不同的是,位置嵌入沒有添加到輸入中。根據 Gaitset [9],步态序列中每個位置的輪廓和姿勢熱圖具有獨特的外觀,是以本身包含它們的位置資訊。

如圖 4 所示,STM 由三個子子產品組成:多頭注意力塊 (MAB)、前饋子產品和時間池化子產品。 MAB利用多頭注意力機制在時間尺度上尋找步态序列的不同運動模式,公式如下:

(Applied Intelligence-2022)TransGait: 基于多模态的步态識别與集合Transformer
圖 4 STM的框圖

前饋子產品包含一層 MLP 和 ReLU 激活函數。 temporal pooling 子產品提取序列中最具判别力的運動特征向量,其中用作 temporal pooling 的執行個體函數。集合transformer公式如下:

其中表示對應部分的前饋子產品,是參數。 是集合Transformer 中的層數。

3.4 Implementation details

網絡超參數。 和結構相同但參數不同,由三個卷積子產品組成。每個卷積子產品包括兩個卷積層、一個最大池化層 [41] 和一個 Leaky ReLU 激活。 HP子產品的part number 設定為16。STM中的層數設定為2,heads的數量設定為8。由于set transformer的優勢,STM可以在不進行深度堆疊的情況下提取有差別的時間特征可以在低層觀察整個序列。用于設定超參數的消融研究在第 4.4 節中讨論。

損失和采樣器。采用單獨的批量所有(BA+)三元組損失[42]來訓練網絡。不同樣本之間對應的列特征向量用于計算損失。批量大小設定為,其中表示人數,表示批次中每個人的樣本數。

測試。在測試階段,gallery和probe之間的距離被定義為相應特征向量的平均歐幾裡德距離。

參考文獻

繼續閱讀