在身體和潛在部位學習深度上下文感覺特征以進行行人重識别
paper題目:Learning Deep Context-aware Features over Body and Latent Parts for Person Re-identification
paper是CRIPAC & NLPR, CASIA發表在CVPR 2017的工作
paper連結:位址
Abstract
行人重識别(ReID)是通過不同的攝像頭識别同一個人。由于人體姿勢、遮擋、背景雜亂等方面的巨大變化,這是一項具有挑戰性的任務。如何提取強大的特征是 ReID 中的一個基本問題,并且在今天仍然是一個懸而未決的問題。在本文中,我們設計了一個多尺度上下文感覺網絡(MSCAN)來學習全身和身體部位的強大特征,它可以通過在每一層中堆疊多尺度卷積來很好地捕捉局部上下文知識。此外,我們提出使用具有新穎空間限制的空間變換器網絡 (STN) 來學習和定位可變形的行人部件,而不是使用預定義的剛性部件。學習的身體部位可以緩解一些困難,例如在基于部分的表示中,姿勢變化和背景雜亂。最後,我們通過多類行人識别任務将全身和身體部位的表示學習過程整合到一個統一的行人 ReID 架構中。對目前具有挑戰性的大規模人 ReID 資料集的廣泛評估,包括基于圖像的 Market1501、CUHK03 和基于序列的 MARS 資料集,表明所提出的方法達到了最先進的結果。
1. Introduction
行人重識别旨在使用給定的探測圖像在不同的錄影機上搜尋同一個人。由于它在許多實際應用中的重要性,例如視訊監控和基于内容的圖像檢索,近年來引起了人們的廣泛關注。盡管經過多年的努力,它仍然面臨許多挑戰,例如人物姿勢、照明和背景雜亂的巨大變化。此外,不同人的衣服外觀相似,行人檢測結果不完善,進一步增加了其在實際應用中的難度。
大多數現有的 ReID 方法都專注于開發強大的表示來處理視角、身體姿勢、背景雜波等的變化。 [7, 10, 18, 19, 22, 27, 41–43, 50, 51] 或學習有效距離度量 [2, 16, 21, 22, 29, 47, 57]。一些現有的方法共同學習這兩種方法 [1, 20, 31, 44]。最近,基于深度特征學習的方法 [5, 6, 34, 35] 學習了全局行人特征并使用歐幾裡德度量來測量兩個樣本,獲得了最先進的結果。随着 ReID 資料集樣本量的增加,從多類人識别任務 [30、39、40、52、55] 中學習特征,稱為 ID 判别嵌入 (IDE) [55],在目前大規模的人 ReID 資料集,例如 MARS [52] 和 PRW [55],其中 IDE 特征取自深度卷積神經網絡 (DCNN) 的最後一個隐藏層。在本文中,我們旨在使用 DCNN 學習行人 ReID 的 IDE 特征。
用于行人 ReID 的現有 DCNN 模型通常學習輸入人物圖像的全局全身表示(圖 1 中的全身),或者學習預定義剛性部分(圖 1 中的剛體部分)的基于部分的表示,或者學習特征嵌入對于他們倆。盡管這些 DCNN 模型在現有的 ReID 資料集上取得了令人印象深刻的結果,但仍然存在兩個問題。首先,對于特征學習,目前流行的 DCNN 模型通常堆疊單尺度卷積和最大池化層來生成深度網絡。随着層數的增加,這些 DCNN 模型很容易漏掉一些小尺度的視覺線索,比如太陽鏡和鞋子。然而,這些細粒度的屬性對于區分具有小的類間變化的行人對非常有用。是以這些 DCNN 模型并不是行人特征學習的最佳選擇。其次,由于姿态變化和不完善的行人檢測器,行人圖像樣本可能會錯位。有時他們可能有一些背景或缺少某些部分,例如。腿。在這些情況下,對于基于部分的表示,預定義的剛性網格可能無法捕獲兩個行人圖像之間的正确對應關系。是以,剛性預定義網格對于有效的基于零件的特征學習來說遠非魯棒。

圖 1. 典型的深度學習特征學習架構示意圖。如黑色虛線框所示,目前的方法側重于全身或剛體部分進行特征學習。與它們不同的是,我們使用空間變換網絡來學習和定位行人部位,并使用多尺度上下文感覺卷積網絡來提取 ReID 的全身和身體部位表示。最好以彩色觀看。
在本文中,我們提出聯合學習全身和身體部位的特征。為了解決第一個問題,我們提出了多尺度上下文感覺網絡(MSCAN)。如圖1所示,對于MSCAN的每個卷積層,我們采用多個不同感受野的卷積核來獲得多個特征圖。來自不同卷積核的特征圖被連接配接為目前層的輸出。為了減少不同卷積核之間的相關性,使用了擴張卷積[45]而不是一般的卷積核。通過這種方式,在同一層獲得多尺度上下文知識。是以,用于細粒度區分的局部視覺線索得到了增強。此外,通過逐層嵌入上下文特征(跨層卷積操作),MSCAN 可以為輸入圖像獲得更多的上下文感覺表示。為了解決第二個問題,我們提出通過空間變換網絡(STN)[13]來定位潛在的行人部位,而不是使用剛體部分,該網絡最初是為了學習圖像變換而提出的。為了使其适應行人部分定位任務,我們對學習的變換參數提出了三個新的限制。有了這些限制,可以将更靈活的部分定位在資訊區域,進而減少背景内容的幹擾。
一般來說,全身和身體部位的特征是相輔相成的。全身特征更關注全局資訊,而身體部分特征更關注局部區域。為了更好地利用這兩種類型的表示,在本文中,将全身和身體部位的特征連接配接起來形成最終的行人表示。在測試階段,采用歐幾裡得度量來計算人 ReID 的兩個 L2 歸一化行人表示之間的距離。
本文的貢獻總結如下:(a)我們提出了一種多尺度上下文感覺網絡來增強視覺上下文資訊,進而更好地表示細粒度視覺線索的特征。 (b) 我們建議使用具有新的先驗空間限制的空間變換器網絡來學習和定位行人部件,而不是使用剛性部件。實驗結果表明,融合全局全身和局部身體部位表示極大地提高了行人 ReID 的性能。
2. Related Work
典型的person ReID方法集中在兩個關鍵點:開發一個強大的圖像表示特征和學習一個有效的度量來使同一個人靠近而不同的人遠離。最近,深度學習方法在人 ReID [34,39,48,52,54] 方面取得了最先進的結果。這裡我們主要回顧一下相關的深度學習方法。
行人 ReID 的深度學習方法傾向于聯合學習人物表示和相似度(距離)度量。給定一對人物圖像,以前的深度學習方法學習每個人的特征,然後從卷積特征 [1, 3, 4, 20] 或全連接配接 (FC) 特征 [31,37,44] 中學習深度比對函數。除了深度度量學習之外,一些工作直接通過成對對比損失或三重排序損失來學習圖像表示,并使用歐幾裡德度量進行比較[5,6,34,35]。
随着 ReID 資料集樣本量的增加,通過多類行人識别任務學習的 IDE 特征在目前的大規模行人 ReID 資料集上顯示出巨大的潛力。肖等人。 [39] 提出域引導 dropout 來同時學習多個資料集上的特征,同時進行身份分類損失。鄭等人。 [52] 學習基于視訊的人員重新識别的 IDE 功能。肖等人。 [40]和鄭等人。 [55] 學習 IDE 特征,共同解決行人檢測和行人 ReID 任務。舒曼等人。 [30] 學習域自适應人員 ReID 的 IDE 功能。類似的現象也在人臉識别中得到了驗證[33]。
衆所周知,以往的 DCNN 模型通常采用逐層單尺度卷積核來學習上下文資訊。一些 DCNN 模型 [5, 31, 44] 采用剛體部分來學習局部行人特征。與他們不同,我們通過兩種方式改進經典模型。首先,我們建議通過同一層的多尺度卷積來增強上下文知識。通過逐層嵌入特征圖(卷積或FC操作)來學習不同上下文知識之間的關系。其次,我們不是使用剛性部件,而是利用具有先驗限制的空間變換器網絡來學習和定位潛在的人體部件。
3. Proposed Method
這種方法的重點是學習強大的特征表示來描述行人。所提出方法的總體架構如圖 2 所示。在本節中,我們從四個方面介紹我們的模型:用于高效特征學習的多尺度上下文感覺網絡(第 3.1 節)、潛在部分學習和更好的局部部分的定位基于特征表示(第 3.2 節),行人 ReID 的全局全身和局部身體部分特征的融合(第 3.3 節),以及我們在第 3.4 節中的最終目标函數。
圖 2. 提出模型的總體架構。所提出的模型由三個部分組成:使用 MSCAN 的全局基于身體的特征學習、使用空間變換網絡和基于局部的特征嵌入的潛在行人部位定位、用于多類人識别任務的全身和身體部位的融合。
3.1. Multi-scale Context-aware Network
視覺上下文是輔助視覺相關任務的重要組成部分,例如目辨別别 [24] 和目标檢測 [46, 56]。典型的卷積神經網絡通過分層卷積和池化來模組化上下文資訊 [11, 17]。對于person ReID任務,最重要的視覺線索是視覺屬性知識,例如衣服顔色和類型。但是,它們在尺度、形狀和位置上的差異很大,例如局部尺度較小的帽子/眼鏡和較大尺度的布料顔色。直接使用自下而上的單尺度卷積和池化可能無法有效處理這些複雜的變化。特别是随着層數的增加,小的視覺區域,如帽子,在頂層很容易被遺漏。為了更好地學習這些不同的視覺線索,我們提出了多尺度上下文感覺網絡。
所提出的 MSCAN 的架構如表 1 所示。它有一個核心大小為的初始卷積層來捕獲低級視覺特征。然後我們使用四個多尺度卷積層來獲得複雜的圖像上下文資訊。在每個多尺度卷積層中,我們使用大小為的卷積核。為了獲得多尺度感受野,我們對卷積濾波器采用擴張卷積 [45]。我們使用三種不同的膨脹率,即 1,2 和 3,來捕捉不同尺度的上下文資訊。來自不同膨脹率的特征圖沿通道軸連接配接,形成目前卷積層的最終輸出。是以,視覺上下文資訊被顯式地增強。為了将不同的上下文資訊整合在一起,目前卷積層的特征圖通過逐層卷積或FC操作嵌入。結果,不同尺度的視覺線索以一種潛在的方式融合在一起。此外,我們在每個卷積層之後采用 Batch Normalization [12] 和 ReLU 神經激活單元。
在本文中,我們使用擴張比為 1、2 和 3 的擴張卷積代替核心大小為和的經典卷積濾波器。主要原因是核心大小為和的經典卷積濾波器在相同的輸出位置互相重疊并産生備援資訊。為了更清楚起見,我們在圖 3 中展示了擴張比為 1 到 3 的擴張卷積核(大小為)。對于相同的輸出位置(紅色圓圈所示),擴張比越大的卷積核越大感受野,而隻有中心位置與其他卷積核重疊。這可以減少具有不同感受野的過濾器之間的備援資訊。
圖 3. 相同輸入特征圖的擴張卷積示例。卷積核為,從左到右的膨脹比為 1、2、3。藍色框是紅色圓圈處卷積的有效位置。最好以彩色觀看。
總之,如圖 2 所示,我們使用 MSCAN 來學習全身和身體部位的多尺度上下文表示。此外,它還用于下面提到的空間變換器網絡中的特征學習。
3.2. Latent Part Localization
行人部分在行人 ReID 中很重要。一些現有的工作 [5, 10, 22, 44] 已經探索了剛體部件以開發穩健的特征。然而,由于行人檢測算法不盡如人意,姿态變化較大,使用剛體部位進行局部特征學習的方法并不是最優的解決方案。如圖 1 所示,當使用剛體部件時,頂部由大量背景組成。這促使我們自動學習和定位行人部分。
我們将 STN [13] 內建為我們提出的模型中的部分定位網絡。原始的 STN 被提出來顯式地學習圖像變換參數,例如平移和縮放。它有兩個主要優點:(1)它是完全可微分的,并且可以很容易地內建到現有的深度學習架構中,(2)它可以在沒有明确區域注釋的情況下學習平移、縮放、裁剪或扭曲感興趣的區域。這些事實使其非常适合行人部位定位。
STN 包括兩個元件,空間定位網絡用于學習變換參數,以及網格生成器用于使用圖像插值核心對輸入圖像進行采樣。關于 STN 的更多細節可以在 [13] 中看到。在我們的 STN 實作中,采用雙線性插值核心對輸入圖像進行采樣。并且使用了四個變換參數,其中和是水準和垂直尺度變換參數,和是水準和垂直平移參數。圖像的高度和寬度被歸一化為。隻學習尺度和平移參數,因為這兩種類型的變換足以有效地裁剪行人部分。該變換作為反向扭曲應用以生成輸出身體部位區域:
其中和是輸入圖像坐标,和是輸出部分圖像坐标,索引輸出身體部分圖像中的像素。
在本文中,我們期望 STN 學習對應于頭肩、上身和下身的三個部分。每個部分都是由一個獨立的 STN 從原始行人圖像中學習的。對于空間定位網絡,我們首先使用 MSCAN 提取全局圖像特征圖。然後我們通過 128 維 FC 層(圖 2 中的 FC_loc)學習進階抽象表示。最後,我們基于 FC_loc 使用 4 維 FC 層學習變換參數。 MSCAN 和 FC_loc 在三個空間定位網絡之間共享。網格生成器可以根據學習到的變換參數裁剪學習到的行人部分。在本文中,裁剪後的部分圖像的分辨率為。
對于局部定位網絡,很難學習三組用于局部定位的參數。存在三個問題。首先,來自 STN 的預測部分很容易落入同一區域,例如人的中心區域,并導緻備援。其次,尺度參數很容易變成負數,行人部分将變為垂直或水準或兩者鏡像。這不符合人類的普遍認知。因為在監控場景中很少有人會倒立。最後,裁剪的部分可能會從人物圖像中掉出來,是以網絡将難以收斂。為了解決上述問題,我們提出了零件定位網絡中變換參數的三個先驗限制。
第一個限制是針對預測零件的位置。我們期望預測的部分靠近先前的中心點,以便學習的部分互相補充。這被稱為中心限制,其形式化如下:
其中和是每個部分的先驗中心點。是控制估計中心點和先前中心點之間轉換的門檻值。在我們的實驗中,我們将每個部分的先驗中心點設定為,和。門檻值設定為 0.5。
第二個是預測尺度參數的值域限制。我們希望尺度為正,使預測的部分有一個合理的範圍。 scale 參數的取值範圍限制形式化如下:
其中為門檻值參數,本文設為。
最後一個是使定位網絡專注于圖像的内部區域。形式化如下:
其中是邊界參數。在我們的論文中,設定為 1.0,這意味着裁剪的部分應該在行人圖像内。
最後,局部定位網絡中變換參數的損失描述如下:
其中和是超參數。在我們的實驗中,超參數和都設定為 1.0。
3.3. Feature Extraction and Fusion
全身和身體部位的特征由單獨的網絡學習,然後融合在一個統一的架構中,用于多類人員識别任務。對于基于身體的表示,我們使用 MSCAN 提取全局特征圖,然後學習 128 維特征嵌入(在圖 2 中表示為 FC 身體)。對于基于部位的表示,首先,對于每個身體部位,我們使用 MSCAN 提取其特征圖并學習 64 維特征嵌入(表示為 FC part1、FC part2、FC part3)。然後,我們基于每個身體部位的特征學習一個 128 維特征嵌入(表示為 FC 部分)。在每個 FC 層之後采用 Dropout [32] 以防止過度拟合。最後,将全局全身和局部身體部位的特征連接配接成一個 256 維的特征作為最終的人表示。