天天看點

(ICCV-2021)通過有效的全局-局部特征表示和局部時間聚合進行步态識别(二)

3. Proposed Method

在本節中,首先概述了所提出方法的架構。然後描述了所提出方法的關鍵元件,包括局部時間聚合(LTA)、全局和局部特征提取器 (GLFE) 和廣義均值(GeM)池化層。最後,介紹了訓練和測試的細節。

3.1. Overview

所提出方法的概述如圖1所示,其目的是為步态識别提取更全面的特征表示,包括三個關鍵組成部分。首先,使用卷積從原始輸入序列中提取淺層特征。接下來,局部時間聚合(LTA)操作被設計用來聚合時間資訊,并保留更多的空間資訊進行權衡。之後,用全局和局部特征提取器(GLFE)來提取融合全局和局部資訊的組合特征。然後,利用時間池化和 GeM 池化層來實作特征映射。最後,選擇三元組損失和交叉熵損失來訓練所提出的模型。

(ICCV-2021)通過有效的全局-局部特征表示和局部時間聚合進行步态識别(二)

3.2. Local Temporal Aggregation

以前的工作使用特定模式“CL-SP-CL-SP-CL”來提取特征,其中 CL 表示卷積層,SP 表示空間池化層。然而,空間資訊可能會因 SP 下采樣操作而丢失。考慮到步态序列中的時間資訊是周期性的,提出了LTA操作來代替第一個空間池化層,它可以整合局部剪輯的時間資訊并保留更多的空間資訊。

假設是局部時間聚合的輸入,其是通道數,是步态序列的長度,是每幀的圖像大小。該過程可以表述如下:

其中表示核大小為和時間步長為的3D卷積操作。是LTA操作的輸出。

3.3. Global and Local Feature Extractor

除了全局步态特征,最近的一些研究人員提出了利用局部步态資訊的不同步态識别架構,如圖2(a)(b)所示。例如,Zhang等人提出 ACL 架構通過使用多個單獨的 2D CNN 來提取局部步态特征。Fan等人開發了一個焦點卷積層來提取局部特征,然後将它們組合起來。雖然它比全局步态特征包含更詳細的資訊,但​

​局部步态特征并不關注局部區域之間的關系​

​。是以,提出了一種新的GLFE子產品來提取特征,該子產品可以利用全局和局部資訊。GLFE 子產品由 GLConv 層實作,GLConv層包含全局和局部特征提取器。全局特征提取器可以提取整個步态資訊,而局部特征提取器用于從局部特征圖中提取更多細節。由于組合不同,GLConv有兩種不同的結構,例如GLConvA和GLConvB。如圖1所示,GLFE子產品包括四層,“GLConvA-SP-GLConvA-GLConvB”。

GLConv 層如圖 2© 所示。假設它的輸入是,其中是通道數,是特征圖的長度,是每幀的圖像大小。首先将全局特征圖劃分為 n 部分作為局部特征圖,其中n是劃分區域數。對應第 i 個局部步态部分。然後,使用3D卷積分别提取全局和局部步态特征。注意,所有局部特征圖共享相同的卷積權重。有兩種方法可以組合全局和局部特征圖,即通過逐元素加法(GLconvA) 或通過串聯 (GLconvB)。GLconvA 和 GLconvB 層可以表示為:

其中cat表示串聯操作。和可以表示為

其中和表示卷積核大小為3的3D卷積。

基于以上兩種形式的GLGonv層,可以建構GLFE子產品,在LTA操作後提取步态特征。在實驗中,GLConvA被用來實作前幾個GLGonv塊,GLConvB被用來實作GLFE子產品中的最後一個塊。

(ICCV-2021)通過有效的全局-局部特征表示和局部時間聚合進行步态識别(二)
圖 2. 不同步态特征提取器的架構。代表逐元素相加,Concat”是指将不同部分的特征圖水準串聯起來。“2DCNN”表示二維卷積神經網絡,“conv2d”表示2D卷積操作,“conv3d”表示3D卷積操作。

3.4. Feature Mapping

由于輸入步态序列的長度可能不同,引入了時間池化來聚合整個序列的時間資訊。假設GLFE子產品的輸出是,其中C3是輸入通道的數量,T2是特征圖的長度,是每幀中特征的空間大小。由于GLFE子產品中的空間池化層,空間大小變為,而特征圖的長度保持不變。時間池化可以通過以下方式實作

其中表示最大池化層。時間池化的輸出是

為了提高特征表示能力,研究者開發了權重求和的空間特征映射操作。在時間池化之後,步态特征圖被分成條帶,并使用兩個統計函數 max 和 average 來聚合每個條帶的資訊。空間特征映射可以表示為

其中是空間特征映射的輸出。然而,權重和政策不靈活,因為權衡參數是手動預定義的。

是以,引入了廣義平均池化(GeM)來自适應地整合空間資訊。GeM 池化層可以表示為

其中是 GeM 操作的輸出。是可以通過網絡訓練學習的參數。具體來說,如果,則等于,如果,則等于。然後,使用多個獨立的全連接配接層進一步聚合來自通道的資訊。特征映射可以定義為

是具有個水準特征的特征映射的輸出,每個特征有個通道。表示多個獨立的全連接配接層。

3.5. Loss Function

為了有效地訓練所提出的步态識别模型,同時使用了三元組損失和交叉熵損失。

三元組損失可以提高類間距離并減少類内距離,這有助于交叉熵損失來識别人類ID。在訓練階段, 的每個水準特征都被輸入到組合損失函數中,獨立計算損失。組合損失函數可以定義為

其中和分别表示三元組損失和交叉熵損失.可以被定義為

其中和是來自同一類A的樣本,而代表來自B類的樣本。表示所提出方法的特征提取和映射操作。是和之間的歐式距離。是三元組損失的margin。操作等于。

3.6. Training Details and Test

繼續閱讀