天天看點

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

摘要:由于不同錄影機内部的重大變化,行人識别(re-id)仍然具有挑戰性。最近,人們越來越關注使用生成模型來增強訓練資料并增強輸入變化的不變性。然而,現有方法中的生成資料流程與辨識性re-id學習階段保持相對分離。是以,re-id模型通常以直接的方式利用生成的資料訓練。在本文中,我們通過更好地利用生成的資料來尋求改進學習的re-id特征。為此,我們提出了一個聯合學習架構,它将re-id學習和資料生成端到端地結合在一起。我們的模型涉及一個生成子產品,它将每個人分别編碼為特征代碼和結構代碼,以及一個與生成子產品共享外觀編碼器的判别子產品。通過切換特征或結構編碼,生成子產品能夠生成高品質的交叉ID組合圖像,這些圖像線上回報到特征編碼器并用于改進判别子產品。提出的聯合學習架構在不使用生成資料的情況下顯著改善了基準,進而在幾個基準資料集上實作了最先進的性能。

1 簡介

行人重識别(re-id)旨在建立不同錄影機之間的身份對應。 它通常被認為是度量學習問題[54],其中人們試圖從給定查詢圖像的非重疊相機中檢索包含感興趣的人的圖像。 這在某種意義上是具有挑戰性的,即由不同相機捕獲的圖像通常包含由背景,視角,人體姿勢等的變化引起的顯着的類内變化。是以,設計或學習對于類内變化具有魯棒性的特征,  一直是行人重識别的主要目标之一。

卷積神經網絡(CNNs)最近成為人們重要的選擇,因為它們具有強大的表現力和學習不變深度特征的能力。 目前最先進的re-id方法寬泛地将此項工作表達為深度度量學習問題[13,55],或者使用分類損失作為學習深度特征的代理目标[23,39,41,49,54,57]]。 進一步減少類内變化的影響,許多現有方法采用基于部分的比對或整體來明确地對齊和補償變化[35,37,47,52,57]。

增強針對輸入變化的魯棒性的另一種可能性是讓re-id模型在訓練期間潛在地“看到”這些變化(特别是類内變化)。随着生成對抗網絡(GANs)的最新進展[11],生成模型已成為免費引入額外增強資料的有吸引力的選擇[56]。盡管形式不同,但這些方法背後的一般考慮是“現實主義”:生成的圖像應具有良好的品質,以彌合合成場景與真實場景之間的領域差距;和“多樣性”:生成的圖像應包含足夠的多樣性,以充分覆寫看不見的變化。在此背景下,一些先前的作品已經探索了無條件的GAN和人類姿勢條件的GAN [10,17,27,31,56]來生成行人圖像以改善re-ID學習。這些方法背後的一個常見問題是它們的生成流程通常作為獨立模型呈現,它們與辨識的re-ID模型相對獨立。是以,生成子產品的優化目标可能與re-id任務不完全一緻,進而限制了生成資料的增益。

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

鑒于上述觀察,我們提出了一個學習架構,在一個稱為DG-Net的統一網絡中将辨識性和生成性學習聯合起來。我們實作這一目标的政策是引入一個生成子產品,編碼器将每個行人圖像分解為兩個潛在空間:一個外觀空間,主要編碼外觀和其他身份相關的語義;以及包含幾何和位置相關結構資訊以及其他附加變化的結構空間。我們将空間中的編碼特征稱為“編碼”。表1總結了由兩個潛在空間捕獲的屬性。外觀空間編碼器還與判别子產品共享,用作re-ID學習基礎網絡。這種設計造就了一個統一的架構,它包含了生成和判别子產品之間的這些互相作用:(1)生成子產品産生合成圖像,用于線上改進外觀編碼器; (2)編碼器,轉換,影響生成子產品,改進外觀編碼; (3)在共享外觀編碼器的情況下,兩個子產品共同優化。

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

我們将圖像生成表示為在兩個圖像之間切換外觀或結構編碼。 給定具有相同/不同身份的任何成對圖像,人們能夠通過操縱代碼來生成逼真且多樣的幀内/交叉ID組合圖像。 Market-1501 [53]上的這種組合圖像生成的一個例子如圖1所示。我們對生成流程的設計不僅導緻高保真度生成,而且鑒于現有身份的組合成分,也産生了實質性的多樣性。 與無條件GAN [17,56]不同,我們的方法允許更可控的生成好品質的圖像。 與姿勢引導的代[10,27,31]不同,我們的方法不需要任何額外的輔助資料,而是利用現有的資料集内姿勢變化以及除姿勢變化外的其他多樣性。

這種生成子產品設計專門用于我們的判别子產品,以更好地利用生成的資料。對于一個行人圖像,通過保持其外觀代碼并結合不同的結構代碼,我們可以生成多個圖像,這些圖像保持衣服和鞋子不變但改變姿勢,視角,背景等。如圖1的每一行所示,這些圖像對應于不同的人穿着同樣的衣服。為了更好地捕獲這些組合的交叉ID資訊,我們通過動态軟标簽政策引入“主要特征學習”。或者,我們可以保持一個結構代碼并結合不同的外觀代碼來産生各種圖像,這些圖像保持姿勢,背景和一些身份相關的細節但改變衣服和鞋子。如圖1的每列所示,這些圖像形成了對穿着不同衣服和鞋子的同一個人的有趣模拟。這為進一步挖掘獨立于服裝的微妙身份屬性創造了機會,例如攜帶,頭發,身體大小等。是以,我們提出了互補的“細粒度特征挖掘”來學習其他微妙的身份屬性。

據我們所知,這項工作提供了第一個能夠端到端地将判别和生成學習整合到一個統一的行人重識别網絡中的架構。 寬泛的定性和定量實驗表明,我們的圖像生成與現有圖像生成相比有利,而更重要的是,我們的重新定位精度在幾個基準測試中始終優于其他競争算法。

2  相關工作

行人重識别的大部分研究的重點是度量學習損失。 一些方法将識别損失與驗證損失結合起來[48,55],其他方法将三元組損失與困難樣本挖掘相結合[6,13,33]。 最近的幾項工作采用行人屬性來強制執行更多監督并執行多任務學習[26,36,44]。 替代方案利用行人對齊和零件比對來利用人體結構。 常見的做法之一是水準分割輸入圖像或特征圖以利用局部空間線索[23,39,50]。 以類似的方式,将姿勢估計結合到學習局部特征中[35,37,47,52,57]。 除了姿勢之外,在[19]中使用人工解析來增強空間比對。 相比之下,我們的DG-Net僅依賴于reid學習的簡單識别丢失,并且不需要額外的輔助資訊,例如用于圖像生成的姿勢或人工解析。

另一個活躍的研究方向是利用GAN來增加訓練資料。在[56],鄭等人首先介紹使用無條件GAN從随機向量生成圖像。黃等人使用WGAN [1]繼續這個方向,并為生成的圖像配置設定僞标簽[17]。李等人建議在重新識别模型和GAN鑒别器之間共享權重[25]。另外,一些最近的方法利用姿勢估計來進行姿勢條件圖像生成。在[28]中基于姿勢開發了兩階段生成流水線以細化生成的圖像。類似地,在[10,27,31]中也使用姿勢來生成不同姿勢的行人的圖像,以使學習的特征對于姿勢變化更加魯棒。 Siarohin等通過使用最近鄰丢失來代替傳統的“1”或“2”損失[34],實作更好的姿态條件圖像生成。所有方法都将圖像生成和重新學習設定為兩個脫節步驟,而我們的DG-Net端到端将兩個任務內建到一個統一的網絡中。

同時,最近的一些研究還利用合成資料進行行人圖像的樣式轉換,以補償源域和目标域之間的差異。 CycleGAN [61]應用于[9,60],以将行人圖像樣式從一個資料集傳輸到另一個資料集。 在[59]中使用StarGAN [7]來生成具有不同相機樣式的行人圖像。 Bak等 [3]采用遊戲引擎使用各種照明條件渲染行人。 魏等人[46]采用語義分割來提取輔助風格轉移中的前景蒙版。 與全球風格轉移相比,我們的目标是操縱外觀和結構細節,以促進更強大的重新學習。

 3 方法

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

如圖2所示,DG-Net将用于圖像生成的生成子產品與用于re-id學習的判别子產品緊密耦合。 我們引入了兩個圖像映射:同一身份生成和跨身份生成,以合成高品質的圖像,這些圖像線上用于re-id學習。 我們的判别子產品涉及主要特征學習和細粒度特征挖掘,它們使用生成子產品進行編碼以更好地利用生成的資料。

3.1 生成器子產品

公式:我們将真實圖檔和身份标簽用

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

其中N是圖檔額數量。yi屬于{1, K},其中K表示資料集中類别或ID的數量。給定訓練集中的兩張真實圖檔xi和xj,生成器通過通過交換兩個圖像的外觀或結構編碼生成一張新的行人圖檔。如圖二所示,生成器由外觀編碼器 Ea:xi --> ai,結構編碼器 Es:xj --> sj,解碼器 G:(ai,sj) --> xij, 和區分真實圖像和生成圖像的一個辨識器D組成。當i==j時,生成器可以被看做自動編碼器,如xii約等于xi。注意:對于生成的圖像,我們使用上标來表示提供外觀代碼和下标訓示提供結構代碼的真實圖像,而實際圖像僅具有下标作為圖像索引。與外觀編碼ai相比,結構編碼sj保持更多的空間分辨率以保持幾何和位置屬性。 然而,這可能導緻G的簡單解決方案僅使用sj而忽略圖像生成中的ai,因為解碼器傾向于依賴具有更多空間資訊的特征。 在實踐中,我們将Es的輸入圖像轉換為灰階以驅動G利用ai和sj。 我們強制執行生成子產品的兩個目标:(1)同一性生成以規範生成器;(2)交叉身份生成,使生成的圖像可控并比對實際資料分布。

同身份産生:正如圖2(b)展示,給一張圖像xi,生成器首先學習如何重構xi, 這種簡單的自我重建任務是整個生成器的重要正規化步驟。通過使用像素值L1損失重構圖像:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

基于不同圖像中同一人的外觀編碼接近的假設,我們進一步提出了同一身份的任意兩個圖像之間的另一個重建任務。換句話說,生成器應該能夠重建xi通過具有相同身份yi = yt的圖像xt :

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

這種相同的身份但是跨圖像重建損失促使外觀編碼器将相同身份的外觀編碼拉到一起,進而減少了類内特征變化。 同時,為了強制不同圖像的外觀編碼分開,我們使用識别損失來區分不同的身份:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

其中p(yi | xi)是xi基于其外觀編碼屬于真實類yi的預測機率。

跨身份産生:與使用相同身份的圖像重構的自我身份生成不同,跨身份生成側重于具有不同身份的圖像生成。 在這種情況下,沒有像素級真實标簽監督。 相反,我們引入基于外觀和結構編碼的潛在編碼重構來控制這種圖像生成。如圖2(c)所示,給定兩個不同身份yi不等于yj的圖像xi和xj ,生成的圖像xij = G(ai,sj)需要保留來自xi外觀編碼和來自于xj的結構編碼sj資訊。 然後,我們應該能夠在對生成的圖像進行編碼後重構兩個潛在編碼:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

類似于同一ID生成,我們還基于其外觀編碼對生成的圖像強制執行識别損失,以保持身份一緻性:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

其中p(yi | xij)是xij屬于xi的屬于真實類别yi的預測機率,即在生成xij時提供外觀編碼的圖像。 此外,我們采用對抗性損失來将生成的圖像分布與實際資料分布相比對:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

讨論:通過使用所提出的生成機制,我們使生成子產品能夠以明确和互補的含義學習外觀和結構編碼,并基于潛在編碼生成高品質的行人圖像。 這在很大程度上減輕了生成的複雜性 。相比之下,先前的方法[10,17,27,31,56]必須從随機噪聲或僅管理姿勢因子來學習圖像生成,這難以操縱輸出并且不可避免地引入僞像。 此外,由于使用潛在編碼,我們生成的圖像中的變體可以解釋并限制在真實圖像的現有内容中,這也確定了生成的真實性。 理論上,我們可以通過對各種圖像對進行采樣來生成O(N×N)個不同的圖像,進而産生比在[17,11,56]中離線生成的O(2×N)圖像的線上生成的訓練樣本池大得多的訓練樣本池。

3.2 辨識子產品

我們的判别子產品通過共享外觀編碼器作為re-id學習的主幹而嵌入在生成子產品中。 根據通過切換外觀或結構編碼生成的圖像,我們提出主要特征學習和細粒度特征挖掘,以更好地利用線上生成的圖像。 由于這兩個任務關注于生成圖像的不同方面,是以我們在外觀編碼器的頂部為兩種類型的特征學習分支出兩個輕量級頭,如圖2(d)所示。

主要特征學習:類似于現有工作,可以将生成的圖像視為訓練樣本[17,13,56]。 但是交叉id組合圖像的類間變化促使我們采用具有動态軟标簽的teacher-student型監督。 我們使用teacher模型為xij動态配置設定軟标簽,具體取決于xi和xj的複合外觀和結構。 teacher模型隻是在原始訓練集上利用分類損失訓練的基線CNN。 為了訓練主要特征學習的判别子產品,我們最小化由判别子產品預測的機率分布p(xij)與teacher模型預測的機率分布q(xij)之間的KL差異:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

其中K是ID的數量。 與固定的one-hot标簽[31,62]或靜态平滑标簽[56]相比,這種動态軟标簽在我們的情況下更适合,因為每個合成圖像由來自兩個真實圖像的視覺内容形成。 在實驗中,我們表明作為teacher模型的簡單基線CNN可靠地提供動态标簽并提高性能。

細粒度特征挖掘:除了直接使用生成的資料來學習主要特征之外,我們特定的生成流程可以實作的一個有趣的替代方案是模拟同一個人的服裝變化,如圖1中的每一列所示。 以這種方式,判别子產品被迫學習與服裝無關的細粒度的id相關屬性(例如頭發,帽子,包,身體尺寸等)。 我們将由一個結構編碼生成的圖像與不同的外觀編碼組合在一起作為與提供結構編碼的真實圖像相同的類。 為了訓練用于細粒度特征挖掘的判别子產品,我們對此特定分類強制執行分類損失:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

這種損失以多任務方式對判别子產品施加額外的身份監督。 此外,與以前使用手動标記的行人屬性[26,36,44]的工作不同,我們的方法通過利用合成圖像來執行自動細粒度屬性挖掘。 此外,與在[13,33]中應用的硬抽樣方法相比,沒有必要明确地搜尋具有細粒度細節的硬訓練樣本,因為我們的判别子產品通過這種細粒度特征挖掘學會了關注細微的身份屬性。

讨論:我們認為,我們的高品質合成圖像在本質上可以被視為“内部”(與“異常值”相反),因為我們生成的圖像保留并重新組合來自真實資料的視覺内容。 通過上述兩個特征學習任務,我們的判别子產品根據我們操作外觀和結構編碼的方式,特定地使用生成的資料。 我們不是像幾乎所有以前的方法一樣使用單一監督[17,31,56],而是通過主要特征學習和細粒度特征挖掘以兩種不同的視角處理生成的圖像,前者側重于結構不變性 服裝資訊和後者關注外觀不變的結構線索。

3.3 優化

我們聯合訓練外觀和結構編碼器,解碼器和鑒别器以優化總目标,這是以下損失的權重和:

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯
Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

由于交叉id生成的圖像的品質在開始時并不好,是以識别損失Lcid可能使訓練不穩定,是以我們設定小權重λid= 0.5。 我們在整個訓練過程中在所有實驗中确定兩個權重。 在生成品質穩定之前,我們不涉及判别特征學習損失Lprim和Lfine。 例如,我們在Market-1501上進行30K疊代後添加兩個損失,然後在4K疊代中将λprim從0線性增加到2并設定λfine=0.2λprim。 請參閱第4.3節中有關如何确定權重的更多詳細資訊。 類似于GAN的替代更新政策,在如圖2(a)所示的交叉身份生成中,我們交替地在生成的圖像之前訓練Ea,Es和G以及在生成的圖像之後訓練Ea,Es和D。

4 實驗

我們根據三個基準資料集的标準協定評估提出的方法:Market-1501 [53],DukeMTMC-reID [32,56]和MSMT17 [46]。 我們定性和定量地比較了DG-Net與生成方法和判别結果的最新方法。大量實驗證明DG-Net可以産生更逼真和多樣化的圖像,同時,大幅度地優于最新的競争算法在所有基準的re-id準确性。

Joint Discriminative and Generative Learning for Person Re-identification論文翻譯
Joint Discriminative and Generative Learning for Person Re-identification論文翻譯
Joint Discriminative and Generative Learning for Person Re-identification論文翻譯

4.1 實驗實作細節

我們的網絡在PyTorch中實作。在下文中,我們使用通道×高度×寬度來訓示要素圖的大小。(i)Ea基于在ImageNet [8]上預訓練的ResNet50 [12],我們删除其全局平均池和完全連接配接層,然後附加自适應最大池層以輸出2048×4的外觀編碼a 。它通過兩個完全連接配接的層映射到主要特征fprim和細粒度特征ffine,兩者都是512-dim向量。(ii)Es是淺網絡,輸出128×64×32的結構編碼。它由四個卷積層和四個參差塊組成[12]。(iii)G程序s  四個參差塊和四個卷積層組成。與[16]中一樣,每個殘差塊包含兩個自适應執行個體歸一化層[15],它們內建為縮放和偏置參數。(iv)D遵循流行的多尺度PatchGAN [18]。我們在三個不同的輸入圖像尺度上使用鑒别器:64×32,128×64和256×128。我們還在更新D時應用梯度懲罰[30]以穩定訓練。(v)對于訓練,所有輸入圖像的大小調整為256×128。類似于先前的深度re-id模型[54],SGD用于訓練Ea,學習率為0.002,動量為0.9。我們應用Adam [20]來優化Es,G和D,并将學習率設定為0.0001,并且(β1,β2)=(0,0.999)。 (vi)在測試時,我們的re-id模型僅涉及Ea(以及兩個輕量級),其網絡大小與使用ResNet50作為主幹的大多數方法相當。我們将fprim和ffine連接配接成1024-dim向量作為最終的行人表示。更多架構詳細資訊可在附錄中找到。

4.2 評估生成器

定性評估:我們首先定性地比較DG-Net與其消除線上輸送和身份監督的兩種變體。 如圖4所示,在沒有将生成的圖像線上饋送到外觀編碼器的情況下,模型遭受模糊邊緣和不期望的紋理。 如果進一步去除身份監督,則圖像品質不令人滿意,因為模型無法産生準确的服裝顔色或樣式。 這清楚地表明我們的聯合判别學習有利于圖像生成。

接下來,我們将完整模型與其他生成方法進行比較,包括一個無條件GAN(LS-GAN [29])和三個開源條件GAN(PG2-GAN [28],PN-GAN [31]和FD-GAN [10]])。 與圖3相比,LS-GAN生成的圖像具有嚴重的僞像和重複的模式。 FD-GAN易于産生非常模糊的圖像,這在很大程度上會惡化了現實主義。 PG2-GAN和PN-GAN均以姿勢為條件,産生相對良好的視覺效果,但仍含有可見的模糊和僞影,尤其是在背景中。 相比之下,我們生成的圖像更逼真,并且在前景和背景中都接近真實。

為了更好地了解 學習外觀空間--行人表示的基礎,我們在兩個外觀編碼之間執行線性插值并生成相應的圖像,如圖5所示。這些插值結果驗證了外觀空間的連續性,并顯示 我們的模型能夠在空間中進行推廣,而不是簡單地記憶瑣碎的視覺資訊。 作為補充研究,我們還通過在兩個結構編碼之間進行線性插值來生成圖像,同時保持外觀編碼完整。 請參閱附錄中有關此研究的更多讨論。 然後,我們在圖6中的三個基準測試中展示了我們的生成結果,其中發現DG-Net能夠在不同資料集上始終如一地生成逼真且多樣的圖像。

定量評估:我們的定性觀察結果通過定量評估得到了證明。 我們使用兩個度量:Frechet初始距離(FID)和結構相似度(SSIM)[45]來分别測量生成圖像的真實性和多樣性。 FID測量生成的圖像與真實圖像的分布有多接近。 它對視覺僞像敏感,是以表明生成的圖像的真實性。 對于身份條件生成,我們應用SSIM來計算類内相似性,其可用于反映生成多樣性。 如表2所示,我們的方法在現實性和多樣性方面明顯優于其他方法,這表明我們生成的圖像具有高品質。 值得注意的是,由于切換結構代碼引入的各種姿勢,攜帶,背景等,我們獲得了比原始訓練集更高的SSIM。

局限性: 我們注意到,由于原始訓練集中的資料偏差,我們的生成子產品傾向于學習正常紋理(例如,條紋和點),但忽略了一些罕見的模式(例如,襯衫上的徽标),如圖7所示。

4.3 評估辨識器

消融研究。我們首先研究表3中主要特征和細粒度特征的貢獻。我們在每個原始訓練集上利用分類損失訓練Resnet-50作為标準。它還用作主要特征學習中的teacher模型,以對生成的圖像執行動态軟标簽。我們的主要特征是在很大程度上改善了基線。值得注意的是,在沒有使用重要的外觀資訊的細粒度的特征,但隻考慮微妙的id相關線索已經達到了令人印象深刻的準确性。通過結合這兩個特征,我們可以進一步改善性能,其在Rank 1上大大優于基線6.1%,在三個資料集上平均優于mAP 12.4%。然後,我們評估在合成圖像離線生成後獨立學習的兩個特征。這導緻Market-501的mAP為84.4%,低于端到端訓練的86.0%mAP,這表明我們的聯合生成訓練有利于re-id學習。

超參的影響:在這裡我們展示如何設定re-id學習相關的權重:一個是α,λfine和λprim之間的比率來控制Lfine和Lprim在訓練中的重要性; 另一個是β與重量ffine結合fprim作為測試中的最終行人代表。 我們在Market-1501的原始訓練集中分離出一個驗證集上的兩個超參數(第一個用于訓練的651個類和用于驗證的100個類)。 基于圖8中的valiation結果,我們在所有實驗中選擇α= 0.2和β= 0.5。

與最先進的方法進行比較:最後,我們在表4和表5中報告了我們的方法與其他最先進結果的表現。請注意,我們不應用任何後處理,例如重新排序[51]或多查詢融合[53]。 在每個資料集上,我們的方法獲得最佳性能。 與使用單獨生成的圖像的方法相比,DG-Net在Market-1501和DukeMTMC-reID上實作了mAP的8.3%和10.3%的明顯增益,表明了所提出的聯合學習的優勢。 此外,我們的架構更具訓練效率:我們隻使用一個訓練階段進行聯合圖像生成和重新學習,而其他人則需要兩個教育訓練階段來按順序訓練生成模型和re-id模型。 DG-Net在兩個資料集上的利潤率也超過了其他非生成方法。 對于最近釋出的大規模資料集MSMT17,DG-Net的性能明顯優于第二好的方法,Rank 1為9.0%,mAP為11.9%。

5 結論

在本文中,我們提出了一個聯合學習架構,端到端的組合在統一網絡中re-id學習和生成圖像。 在判别模式和生成子產品之間存在一個線上互動循環,以使兩個任務互利。 我們的兩個子產品是共同設計的,讓re-id學習更好地利用了生成資料,而不是簡單地訓練它們。 三個基準測試的實驗表明,我們的方法始終如一地為圖像生成品質和重新準确性帶來了實質性的改進。

繼續閱讀