重新審視基于視訊的 Person ReID 的時間模組化
paper題目:Revisiting Temporal Modeling for Video-based Person ReID
paper是南加州大學發表在arxiv 2018的工作
paper連結:連結
Abstract
基于視訊的行人重識别是一項重要任務,由于監控和攝像頭網絡的需求不斷增加,近年來備受關注。一個典型的基于視訊的person reID系統由三部分組成:圖像級特征提取器(例如CNN)、聚合時間特征的時間模組化方法和損失函數。盡管已經提出了許多時間模組化方法,但很難直接比較這些方法,因為特征提取器和損失函數的選擇對最終性能也有很大影響。我們全面研究和比較了四種不同的時間模組化方法(時間池化、時間注意力、RNN 和 3D 卷積網絡),用于基于視訊的行人 reID。我們還提出了一種新的注意力生成網絡,它采用時間卷積來提取幀之間的時間資訊。評估是在 MARS 資料集上完成的,我們的方法大大優于最先進的方法。我們的源代碼釋出在 https://github.com/jiyanggao/Video-Person-ReID。
1 Introduction
行人重新識别(re-ID)解決了在不同的圖像或視訊中檢索特定人員(即查詢)的問題,這些圖像或視訊可能取自不同環境中的不同錄影機。近年來,由于公共安全需求的增加和監控攝像頭網絡的快速增長,它受到了越來越多的關注。具體來說,我們專注于基于視訊的行人重識别,即給定一個人的查詢視訊,系統嘗試在一組gallery視訊中識别此人。
最近現有的大多數基于視訊的person reID方法都是基于深度神經網絡[12,13,24]。通常,三個重要部分對基于視訊的行人 reID 系統有很大影響:圖像級特征提取器(通常是卷積神經網絡,CNN)、用于聚合圖像級特征的時間模組化子產品和用于訓練網絡。在測試期間,使用上述系統将probe視訊和gallery視訊編碼為特征向量,然後計算它們之間的差異(通常是 L2 距離)以檢索前 N 個結果。最近關于基于視訊的行人 reID 的工作 [12, 13, 24] 主要集中在時間模組化部分,即如何将一系列圖像級特征聚合成剪輯級特征。
以前關于基于視訊的行人 reID 的時間模組化方法的工作分為兩類:基于循環神經網絡 (RNN) 和基于時間注意力。在基于 RNN 的方法中,McLanghlin 等人[13] 提出使用 RNN 對幀之間的時間資訊進行模組化; Yan等人[20] 還使用 RNN 對序列特征進行編碼,其中最終隐藏狀态用作視訊表示。在基于時間注意力的方法中,Liu 等人[12] 設計了一個品質感覺網絡(QAN),它實際上是一個注意力權重平均值,用于聚合時間特征;Zhou等人[24] 提出使用時間 RNN 和注意力對視訊進行編碼。此外,Hermans等人[7] 采用了三元組損失函數和簡單的時間池化方法,并在 MARS [17] 資料集上實作了最先進的性能。
盡管已經報道了上述方法的大量實驗,但很難直接比較時間模組化方法的影響,因為它們使用不同的圖像級特征提取器和不同的損失函數,這些變化會顯著影響性能。例如,[13] 采用 3 層 CNN 對圖像進行編碼; [20] 使用了手工制作的特征; QAN [12] 提取 VGG [16] 特征作為圖像表示。
在本文中,我們通過固定圖像級特征提取器(ResNet-50 [6])和損失函數(triplet loss 和 softmax cross-entropy loss)來探索不同時間模組化方法對基于視訊的 person re-ID 的有效性) 相同。具體來說,我們測試了四種常用的時間模組化架構:時間池化、時間注意力 [12、24]、循環神經網絡 (RNN) [13、20] 和 3D 卷積神經網絡 [5]。 3D卷積神經網絡[5]直接将圖像序列編碼為特征向量;為了公平比較,我們保持網絡深度與 2D CNN 相同。我們還提出了一種新的注意力生成網絡,它采用時間卷積來提取時間資訊。我們在 MARS [17] 資料集上進行了實驗,這是迄今為止可用的最大的基于視訊的 person reID 資料集。實驗結果表明,我們的方法在很大程度上優于最先進的模型。
總之,我們的貢獻有兩個:首先,我們全面研究了 MARS 上基于視訊的人 reID 的四種常用時間模組化方法(時間池化、時間注意力、RNN 和 3D conv)。我們将釋出源代碼。其次,我們提出了一種新穎的基于 temporal-conv 的注意力生成網絡,它在所有時間模組化方法中實作了最佳性能;借助強大的特征提取器和有效的損失函數,我們的系統大大優于最先進的方法。
2 Related Work
在本節中,我們将讨論相關工作,包括基于視訊和基于圖像的行人識别和視訊時間分析。
基于視訊的人員重識别。以前關于基于視訊的行人reID 的時間模組化方法的工作分為兩類:基于循環神經網絡 (RNN) 和基于時間注意力。McLanghlin等人[13] 首次提出通過 RNN 對幀之間的時間資訊進行模組化,将 RNN 單元輸出的平均值用作剪輯級别表示。與 [13] 類似,Y an 等人[20]還使用RNN對序列特征進行編碼,最終的隐藏狀态用作視訊表示。Liu等人[12] 設計了一個品質感覺網絡(QAN),它本質上是一個注意力權重平均,用于聚合時間特征;注意分數是從幀級特征圖生成的。Zhou等人[24]和Xu等人[15] 提出使用時間 RNN 和注意力對視訊進行編碼。Zhong等人[1] 提出了一個對 RGB 圖像和光流進行模組化的雙流網絡,使用簡單的時間池化來聚合特征。最近,Zheng等人[17] 為基于視訊的行人 reID 建構了一個新的資料集 MARS,它成為該任務的标準基準。
基于圖像的人員重識别。最近關于基于圖像的人員 reID 的工作主要通過兩個方向提高了性能:圖像空間模組化和度量學習的損失函數。在空間特征模組化的方向,Su等人[18]和Zhao等人[21]使用人體關節來解析圖像并融合空間特征。Zhao等人[22] 提出了一種用于處理身體部位未對齊問題的部分對齊表示。至于損失函數,通常使用 Siamese 網絡中的鉸鍊損失和身份 softmax 交叉熵損失函數。為了學習有效的度量嵌入,Hermans 等人[7] 提出了一種改進的三元組損失函數,它為每個錨樣本選擇最難的正負樣本,并取得了最先進的性能。
視訊時間分析。除了 person reID 工作之外,其他領域的時間模組化方法,如視訊分類 [8]、時間動作檢測 [3, 14],也是相關的。Karpathy等人[8] 設計了一個 CNN 網絡來提取幀級特征,并使用時間池化方法來聚合特征。Tran等人[19] 提出了一個 3D CNN 網絡來從視訊剪輯中提取時空特征。Hara等人[5] 探索了具有 3D 卷積的 ResNet [6] 架構。Gao等人[2, 4] 提出了一個時間邊界回歸網絡來定位長視訊中的動作。
3 Methods
在本節中,我們将介紹整個系統管道和時間模組化方法的詳細配置。整個系統可以分為兩部分:從視訊剪輯中提取視覺表示的視訊編碼器,優化視訊編碼器的損失函數以及将probe視訊與gallery視訊比對的方法。視訊首先被切割成連續的非重疊剪輯,每個剪輯包含幀。剪輯編碼器将剪輯作為輸入,并為每個剪輯輸出一個維特征向量。視訊級特征是所有剪輯級特征的平均值。
3.1 Video Clip Encoder
3D CNN。對于 3D CNN,我們采用 3D ResNet [5] 模型,該模型采用具有 ResNet 架構的 3D 卷積核 [6],專為動作分類而設計。我們用行人的身份輸出替換最終的分類層,并使用預訓練的參數(在 Kinetics [9] 上)。該模型以個連續幀(即一個視訊片段)作為輸入,最終分類層之前的層被用作行人的表示。
對于 2D CNN,我們采用标準的 ResNet-50 [6] 模型作為圖像級特征提取器。給定一個圖像序列(即一個視訊片段),我們将每個圖像輸入到特征提取器中,并輸出一個圖像級特征序列,它是一個矩陣,是剪輯序列長度,是圖像級特征次元。然後我們應用時間聚合方法将特征聚合成單個剪輯級别的特征,這是一個 D 維向量。具體來說,我們測試了三種不同的時間模組化方法:(1)時間池化,(2)時間注意力,(3)RNN;這些方法的架構如圖 1 所示。

圖 1:基于圖像級特征提取器(通常是 2D CNN)的三種時間模組化架構(A:時間池化,B:RNN 和 C:時間注意力)。對于 RNN,最終隐藏狀态或單元輸出的平均值用作剪輯級表示;對于時間注意力,展示了兩種類型的注意力生成網絡:“空間卷積+FC [12]”和“空間卷積+時間卷積”。
時間池化。在時間池化模型中,我們考慮最大池化和平均池化。對于最大池化,;對于平均池化,。
時間注意力。在時間注意力模型中,我們對圖像特征序列應用注意力權重平均。鑒于剪輯的注意力是,那麼
Resnet-50中最後一個卷積層的張量大小為,和取決于輸入圖像大小。注意力生成網絡将一連串的圖像級特征作為輸入,并輸出個注意力分數。我們設計了兩種類型的注意力網絡。(1) “空間卷積+FC[12]”。我們在上述輸出張量上應用一個空間卷積層(核寬=w,核高=h,輸入通道數=2048,輸出通道數=,簡稱)和一個全連接配接(FC)層(輸入通道=,輸出通道=1);卷積層的輸出是一個标量向量,作為剪輯的幀的分數。(2) “空間+時間卷積”:首先應用形狀為的卷積層,然後我們得到剪輯的每一幀的維特征,我們在這些幀級特征上應用時間卷積層,生成時間注意力。這兩個網絡如圖1(C)所示。
一旦我們有了,有兩種方法可以計算出最終的注意力分數:(1)Softmax函數[24]。
和(2)Sigmoid函數+L1歸一化[12],
其中表示Sigmoid函數。
RNN。一個RNN單元在一個時間步驟對一個序列的圖像特征進行編碼,并将隐藏狀态傳遞到下一個時間步驟。我們考慮用兩種方法将一連串的圖像特征聚合成一個單一的片段特征。第一種方法直接取上一個時間步驟的隐藏狀态,,如圖1(B)所示。第二種方法計算RNN輸出的平均值,即。我們測試兩種類型的RNN單元。長短期記憶(LSTM)和門控循環單元(GRU)。