天天看點

(BMVC-2021)GaitMask:基于掩碼的步态識别模型

GaitMask:基于掩碼的步态識别模型

paper題目:GaitMask: Mask-based Model for Gait Recognition

paper是北京交通大學發表在BMVC 2021的工作

paper位址:​​連結​​

Abstract

步态識别是一項重要的生物識别技術,它通過使用步行姿勢來識别一個人。最近,大多數步态識别方法要麼将人類步态作為一個整體來生成全局特征表示(GFR),要麼将人類步态等效地劃分為多個局部區域以建立局部特征表示(LFR)。然而,我們觀察到 LFR 或 GFR 并不能充分代表人類步态,因為 LFR 隻關注每個局部區域的詳細資訊,而 GFR 更關注全局上下文資訊。另一方面,局部區域的劃分方式是固定的,隻關注幾個特定區域的局部資訊。受此觀察的啟發,我們提出了一種新的基于掩碼的網絡,名為 GaitMask,用于步态識别。 GaitMask 基于 Maskbased Local Augmentation (MLA) 建構,用于學習更全面的特征表示。 MLA是一個雙分支結構,由一個作為backbone的GFR提取子產品和一個作為分支的基于掩碼的LFR提取子產品組成。具體來說,基于掩碼的 LFR 提取由一對互補掩碼組成,其中一個掩碼随機丢棄輸入特征圖的一個區域,另一個僅保留該區域。互補掩碼可用于生成更全面的 LFR,并增強backbone特征表示的魯棒性。對兩個流行資料集的實驗表明,我們的方法實作了最先進的結果。具體來說,所提出的方法顯著提高了複雜環境中的性能。

1 Introduction

與人臉、指紋和虹膜等傳統生物特征識别技術不同,步态識别技術可以在遠距離條件下使用,不需要目标之間的合作。是以,它被廣泛應用于監控系統和身份認證。然而,步态識别的性能受到許多複雜因素的影響,包括視角、攜帶和速度等。是以,步态識别仍然是一項具有挑戰性的任務。

最近,研究人員提出了不同的基于深度學習的方法來生成判别性特征表示,這些方法大緻可分為兩類。一種是全局特征表示(GFR),它将人類步态作為一個整體進行特征提取。另一種是局部特征表示(LFR),它從多個局部區域提取步态特征。

然而,我們觀察到LFR忽略了不同局部區域的相關性,而GFR沒有充分利用細節資訊。此外,如圖1(b)所示,局部區域以自上而下、大小相等的方式進行劃分,其僅關注少數特定局部區域的資訊。

(BMVC-2021)GaitMask:基于掩碼的步态識别模型
圖1:原始步态圖像、不同分區的局部步态圖像和基于掩碼的步态圖像的可視化。

為了解決上述問題,本文提出了一種基于掩碼的LFR提取器來産生更全面的LFR。具體地說,基于掩碼的LFR提取器是包括一對互補掩碼的雙分支結構。如圖1(c)所示,一個掩碼随機丢棄步态序列的局部區域,而另一個掩碼僅保留該區域。在訓練階段,通過使用互補模闆,該提取器随機生成一對互補特征映射,用于從任意局部區域提取局部步态特征。與其他隻能利用少數特定區域資訊的局部劃分模式相比,該抽取器充分利用了來自不同局部區域的資訊來訓練網絡。是以,在測試階段,該提取器可以産生更全面的LFR。在基于掩碼的LFR提取器的基礎上,我們提出了一種新的特征提取子產品,稱為基于掩碼的局部增強子產品(MLA),以生成更全面的特征表示。MLA包括一個GFR提取器和一個基于掩碼的LFR提取器。GFR提取器用作backbone,從整個特征映射生成GFR,而基于掩碼的LFR提取器生成LFR,以增強backbone的特征表示。

我們的方法的主要貢獻可以總結如下:

  • 我們提出了一種新的LFR提取器,它可以通過使用一對互補掩碼來産生更全面的LFR。與傳統的隻從幾個固定的局部區域提取特征的分割不同,所提出的LFR提取器有效地利用了來自不同局部區域的步态資訊。
  • 基于所提出的基于掩碼的LFR提取器,我們開發了一種新的基于掩碼的局部增強,由backbone和分支組成,以生成更具判别性的特征表示。Backbone關注全局上下文資訊,而分支更關注步态序列的詳細資訊。
  • 在兩個基準資料集上的實驗結果表明,該方法達到了最新水準(SOTA)。具體來說,我們的方法在背包和穿大衣的攜帶條件下分别比其他方法高出1.7%和5.5%。

2 Related Work

目前,大多數基于深度學習的步态識别方法都是以步态序列的輪廓作為輸入,利用二維或三維卷積神經網絡(CNN)提取步态特征。這些方法大緻可以分為兩類,即基于模闆的方法和基于序列的方法。

基于模闆的方法要麼将步态序列的時間資訊聚合為步态能量圖像(GEI),以提取步态特征,要麼提取每個步态圖像的特征,然後內建時間資訊。例如,Shiraga等人[16]提出了一個名為GEINet的基于模闆的網絡,以從GEI生成特征表示。具體來說,他們首先通過使用均值函數來聚合步态序列的所有時間資訊來生成GEI,然後使用2D CNN提取步态特征。然而,GEI的生成過程會導緻大量資訊的丢失。為了更好地利用步态序列的資訊,一些研究人員[3,5,27]首先使用2D CNN提取每個步态圖像的步态特征,然後聚合步态序列的時間資訊。例如,Chao等人[3]提出了一個名為GaitSet的新網絡來生成判别性特征表示。Gaitset首先提取每個步态圖像的步态特征,然後使用max函數聚合時間資訊。然而,它們不能充分利用步态序列的時間資訊。為了更好地利用這些資訊,一些研究人員[5,27]在空間特征提取後對時間關系進行模組化。例如,Fan等人[5]提出了一種微動捕捉子產品(MCM)來模拟短程時間相關性。Zhang等人[27]使用長-短期記憶(LSTM)單元來模拟時間關系。

基于序列的方法通常以步态序列為機關,利用3D CNN提取時空步态特征。例如,Wolf等人[20]開發了一個3D CNN,從固定長度的步态片段生成時空步态表示。Thapar等人[19]首先将步态序列劃分為多個固定長度的步态片段,然後使用3D CNN提取每個片段的步态特征。最後,他們使用LSTM子產品學習不同步态片段的時間關系。然而,這些工作是不靈活的,因為他們需要一個固定長度的步态剪輯作為輸入來訓練他們的網絡。為了充分利用3D CNN中的時間資訊,Lin等人[12]提出了一種幀池化操作來自适應地聚合整個步态序列的時間資訊,該操作充分利用了整個步态序列的時間資訊。

3 Proposed Method

在本節首先概述GaitMask方法的架構。然後,介紹了所提出的基于掩碼的局部增強(MLA)。最後,我們給出了訓練和測試階段的實作細節。

3.1 Overview

我們的GaitMask方法的概述如圖2所示。整個步态識别方法是通過3D卷積建立的,類似于[12]。給定步态序列,我們首先使用3D卷積來提取淺層特征。然後,使用時間卷積來聚合特征圖的局部時間資訊。接下來,提出了多個MLA子產品來學習更全面的步态特征。最後,我們引入時間池化和廣義平均池(GeM)來生成特征表示。在訓練階段,我們使用單獨的三元組損失來訓練提出的網絡。

(BMVC-2021)GaitMask:基于掩碼的步态識别模型
圖2:提出的GaitMask概覽。

3.2 Mask-based Local Augmentation

如圖3所示,MLA包括兩個分支:GFR提取和基于掩碼的LFR提取。GFR提取直接從輸入特征圖中提取步态特征,而基于掩碼的LFR提取首先生成一對互補的步态特征圖,然後從中提取局部步态特征。假設MLA的輸入特征圖為,其中是通道數,是特征圖的長度(時間次元),是每幀的圖像大小。GFR提取可定義為

其中,表示核大小為3的3D卷積。是GFR提取的輸出。

(BMVC-2021)GaitMask:基于掩碼的步态識别模型
圖3:提出的基于掩碼的局部增強概述。基于掩碼的局部增強包括兩個分支:GFR提取和基于掩碼的LFR提取。在GFR和LFR提取之後,我們提出了兩種不同的操作來融合這兩種特征表示,稱為MLA-A和MLA-B。MLA-A表示逐元素相加,而MLA-B表示水準級聯兩個特征圖。在訓練階段,基于掩碼的LFR提取的輸入是一對互補的基于掩碼的特征圖。在測試階段,基于掩碼的LFR提取的輸入是原始特征圖。

另一方面,基于掩碼的LFR提取首先生成兩個互補掩碼和,其中和的元素分别為0和1。然後,我們随機丢棄掩碼的一個連續的水準區域。同時,我們在掩碼中保留了相應的區域。具體來說,假設,其中是特征圖的第列。

,其中是特征圖的第列。我們首先随機選擇一個區間,其中表示丢棄率。然後,将掩碼中的的值設定為1,作為新的掩碼,而 的值設定為0,作為新的掩碼。基于掩碼的 LFR 提取可以表示為:

其中表示圖像次元中的元素乘積。 是基于掩碼的 LFR 提取的輸出。

本文提出了兩種方法來組合兩次提取的輸出。一種是逐元素加法(MLA-A),可以表示為

其中是組合特征圖。另一種是在水準軸上級聯特征圖,可以表示為

其中 concat 表示水準軸上的級聯操作。 是組合特征圖。

3.3 Feature Mapping

在特征提取之後,我們引入時間池化和空間池化來生成特征表示。時間池化旨在聚合步态序列的所有時間資訊。假設是最後一個 MLA 子產品的輸出,其中是通道數,是特征圖的長度(時間次元),是每一幀的圖像大小。時間池化可以定義為

其中表示最大池化操作。 是時間池化的輸出。

空間池化首先将特征圖劃分為多個水準條,然後使用廣義平均池化(GeM)在垂直軸上自适應地聚合每個條帶的資訊。最後,使用多個單獨的全連接配接層來進一步整合每個條帶的通道資訊。空間池化可以表示為

其中表示平均池化操作。 表示多個獨立的全連接配接(FC)層。它的大小為,其中是 FC 層數,和分别是每個 FC 層的輸入和輸出次元。 是空間池化的輸出。

3.4 Training Details and Test

訓練。在訓練階段,首先随機裁剪一個步态剪輯作為網絡的輸入。然後,将生成特征表示。最後,單獨的三元組損失用于獨立計算每個條帶的損失。三元組損失可以定義為:

其中和是來自同一類的樣本,而代表來自另一類的樣本。 是樣本和之間的歐幾裡得距離。margin是三元組損失的邊際。為了更好地訓練所提出的網絡,我們采用 Batch ALL (BA) 政策作為采樣政策。具體來說,每批次的樣本數設定為,其中是目标 ID 的數量,是每個目标 ID 的樣本數。由于記憶體大小和計算複雜度的限制,輸入步态剪輯的長度設定為幀。

測試。在測試階段,網絡不需要考慮記憶體大小的限制。是以,整個步态序列可以輸入到所提出的 GaitMask 中,以生成特征表示。然後,我們将特征表示展平為次元為的特征向量。為了評估我們方法的性能,采用gallery-probe 模式來計算 Rank-1 精度。

Result

(BMVC-2021)GaitMask:基于掩碼的步态識别模型
(BMVC-2021)GaitMask:基于掩碼的步态識别模型

參考文獻

[3] Hanqing Chao, Yiwei He, Junping Zhang, and Jianfeng Feng. Gaitset: Regarding gait as a set for cross-view gait recognition. In AAAI, volume 33, pages 8126–8133, 2019.

[5] Chao Fan, Y unjie Peng, Chunshui Cao, Xu Liu, Saihui Hou, Jiannan Chi, Y ongzhen Huang, Qing Li, and Zhiqiang He. Gaitpart: Temporal part-based model for gait recognition. In CVPR, pages 14225–14233, 2020.

[12] Beibei Lin, Shunli Zhang, and Feng Bao. Gait recognition with multiple-temporalscale 3d convolutional neural network. In ACM MM, pages 3054–3062, 2020.

[16] Kohei Shiraga, Y asushi Makihara, Daigo Muramatsu, Tomio Echigo, and Y asushi Y agi. Geinet: View-invariant gait recognition using a convolutional neural network. In ICB, pages 1–8. IEEE, 2016.

[19] Daksh Thapar, Gaurav Jaswal, Aditya Nigam, and Chetan Arora. Gait metric learning siamese network exploiting dual of spatio-temporal 3d-cnn intra and lstm based inter gait-cycle-segment features. Pattern Recognition Letters, 125:646–653, 2019.

繼續閱讀