天天看點

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

論文位址

Motivation

  • 目前的方法隻考慮在某一個特征的卷積層輸出來計算相似性,是否可以使用多尺度提高相似度的計算的準确性呢?
  • 許多工作假定相關視覺特征不會平移太大的距離,沒有在整張圖上考慮相關性,很容易丢失資訊
  • 之前都是在特征圖的rigid part來計算product或者difference,沒有對于尺度、旋轉的不變性

Contribution

  • 提出了全卷積Siamese網絡,包含能夠高效實作且帶有注意力機制的Convolution Similarity Network來改進兩個圖檔相似度的計算
  • 在不同的層次計算視覺相似性,并結合多層次的資訊提高比對的魯棒性
  • 通過大量的實驗證明本文提出低複雜度與記憶體使用的模型與SOTA能達到相當的性能

1.Introduction

  • reid定義、意義、挑戰
  • 現在工作兩個主流方向:
    • 特征表示學習
    • 有效的距離度量
  • 深度學習在re-id上取得的成功
  • 存在局限性 ==> 動機與貢獻
  • 多層次相似度對于識别的幫助如下圖:低級特征(衣服顔色)、進階特征(背包)等等
2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

2.Related Work

  • 傳統方法:handcrafted feature + metric learning
  • 深度學習方法:
    • Siamese網絡二分類
    • rank problem
    • 分類方式提取特征

3.Proposed Method

3.1.Model description

  • 網絡的整體結構如下圖:
    2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity
2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

Convolution similarity network(CSN): 用來衡量個輸入的相似性

- 利用STNs來提取有意義的局部區域特征

- 将局部部分看作卷積核來計算兩組特征之間的相關性

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity
  • STN可以用來緩解大的視角差異以及遮擋問題,從圖檔中找到有意義的内容,細節介紹參考Spatial Transformer Networks
    • 兩個權重不共享的全卷積STNs, STN1 S T N 1 對應 x(2)i x i ( 2 ) , STN2 S T N 2 對應 x3i x i 3
    • 實驗發現很難通過STNs從 x(j)i x i ( j ) 的全局發現相對重要的區域,本文将 x(j)i x i ( j ) 劃分成了部分重疊的三個部分,upper,middle,bottom,共享localization net
    • sampler的輸出對于 x(2)i x i ( 2 ) 為 f2×f2 f 2 × f 2 , x(3)i x i ( 3 ) 為 f3×f3 f 3 × f 3 , f2 f 2 大于 f3 f 3
    • 将提取的區域當做卷積核,在另外一個特征圖上進行卷積操作,stride=1,通過計算cross-correlation來得到相似性

      sj,parti=xji∗xi, s i j , p a r t = x i j ∗ x i ,

    • depth wise convolution

Combination of visual similarities from different levels:

  • 結合低級與進階特征:
    • 将第二個以及第三個卷積的 sim2 s i m 2 與 sim3 s i m 3 concatenated得到10 x 4 x 1152個相似分數圖
    • 再通過三個卷積層conv4(1x1), conv5(3x3), conv6(1x1)處理相似得分圖

Objective function: 結合了classification與ranking

  • 二分類使用softmax loss

Lcls=1m∑i=1m[(1−y)p(y=0|{x1,x2})]+yp(y=1|{x1,x2)}) L c l s = 1 m ∑ i = 1 m [ ( 1 − y ) p ( y = 0 | { x 1 , x 2 } ) ] + y p ( y = 1 | { x 1 , x 2 ) } )

  • 使用二分類損失會忽略正确的ranking,可以結合ranking loss來緩解該問題,本文認為全局特征難以突出最具有判别力的特征,不适合做ranking ==> 基于局部視覺特征的ranknet
    • 三個卷積層
    • xj,upperi,xj,middlei,x(j,bottom)i x i j , u p p e r , x i j , m i d d l e , x i ( j , b o t t o m ) ==> conv(3x3x96) ==> max pooling ==> concatenated(豎直方向) ==> conv(3x3x96) ==> 不同層的特征圖(concatenated) ==> GAP ==> linear embedding ==> 256維圖檔的attended parts的特征向量 ==> L2normalized L 2 n o r m a l i z e d
    • Contrastive loss

Lctr=12m∗∑i=1m[yd2+(1−y)max(0,α−d)2]d=‖r1−r2‖ L c t r = 1 2 m ∗ ∑ i = 1 m [ y d 2 + ( 1 − y ) m a x ( 0 , α − d ) 2 ] d = ‖ r 1 − r 2 ‖

  • 整個網絡的loss

Lcom=Lcls+Lctr L c o m = L c l s + L c t r

- 測試階段最後的相似得分計算:

SimiScore=ssoftmax+λ∗1d+ϵ S i m i S c o r e = s s o f t m a x + λ ∗ 1 d + ϵ

3.2. Discussion

Efficiency.相比從tensor直接通過切片來選取rigid part,本文通過全卷積STN來選取有意義的局部特征在目前深度學習架構下更加容易實作

Learned visual similarity from different levels.

  • 由下圖可以看出不同層具有不同層次的特征(關于CSN2的解釋有點懵)
2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

Model extension.

  • 增加更多的CSN子產品,大幅度提高了性能,能達到與用pre-trained模型相當的性能

4.Experiments

4.1.Datasets and evaluation metrics

  • CUHK03、CUHK01、VIPeR
  • CMC、mAP

4.2.Implementation details

  • TensorFlow
  • ADAM、BN
  • learning rate:0.0005、Weighting decay:0.0005
  • Batch size:256 for CUHK03 128 for other
  • f1 f 1 與 f2 f 2 分别為10、5
  • 資料增強:随機crop、水準翻轉
  • 對于每個正樣本選取兩個負樣本
  • 對于transformation parameters作了大于0;考慮到旋轉很少在實際中發生,針對 rw r w 與 rh r h 作了 L1 L 1
  • part的劃分,對于 x(2)i x i ( 2 ) row1-20為upper part,10-30為middle part,20-40為bottom part,對于 x(3)i x i ( 3 ) ,row1-10為upper part,5-15為middle row,10-20為bottom row

4.3. Comparison with state-of-the-arts

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

4.4. Ablation analysis

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity
  • 移除了contrastive loss Lctr L c t r
  • 探究了結合不同層次視覺相似性的重要性
    • 進階語義特征相比低級特征更加重要
    • 結合不同層次視覺特征對性能的提升有幫助
  • 不同網絡配置的實驗:
    • C1:将圖檔分為三個部分的效果
    • C2:将STN替換為固定的中心裁剪
    • C3:隻使用Level4的相似性
    • C4:原模型
      2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

4.5. Complexity Analysis

  • 與五個最近提出模型進行了大小與計算複雜度的比較,本文的模型相對較小且有較高的性能
2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

5.Conclusion

  • 本文提出的全卷積Siamese網絡
    • 從一個輸入圖檔的局部提取特征,并與另一個圖檔通過depth-wise convolution高效計算視覺相似性
    • 利用在不同卷積層的多個CSNs得到不同層次的視覺相似性
  • 在局部區域通過Contrastive loss來提取特征(ranknet)
  • 大量的實驗證明了本文方法以較小的參數與計算複雜度達到了與SOTA方法相當的性能
  • 通過Ablation與可視化方法證明了不同層次的特征對性能提升的貢獻

繼續閱讀