2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

論文位址

Motivation

目前的方法隻考慮在某一個特征的卷積層輸出來計算相似性，是否可以使用多尺度提高相似度的計算的準确性呢？
許多工作假定相關視覺特征不會平移太大的距離，沒有在整張圖上考慮相關性，很容易丢失資訊
之前都是在特征圖的rigid part來計算product或者difference，沒有對于尺度、旋轉的不變性

Contribution

提出了全卷積Siamese網絡，包含能夠高效實作且帶有注意力機制的Convolution Similarity Network來改進兩個圖檔相似度的計算
在不同的層次計算視覺相似性，并結合多層次的資訊提高比對的魯棒性
通過大量的實驗證明本文提出低複雜度與記憶體使用的模型與SOTA能達到相當的性能

1.Introduction

reid定義、意義、挑戰
現在工作兩個主流方向：
- 特征表示學習
- 有效的距離度量
深度學習在re-id上取得的成功
存在局限性 ==> 動機與貢獻
多層次相似度對于識别的幫助如下圖：低級特征(衣服顔色)、進階特征(背包)等等

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

2.Related Work

傳統方法：handcrafted feature + metric learning
深度學習方法：
- Siamese網絡二分類
- rank problem
- 分類方式提取特征

3.Proposed Method

3.1.Model description

網絡的整體結構如下圖：

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

Convolution similarity network(CSN): 用來衡量個輸入的相似性

- 利用STNs來提取有意義的局部區域特征

- 将局部部分看作卷積核來計算兩組特征之間的相關性

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

STN可以用來緩解大的視角差異以及遮擋問題，從圖檔中找到有意義的内容，細節介紹參考Spatial Transformer Networks
- 兩個權重不共享的全卷積STNs， STN1 S T N 1 對應 x(2)i x i ( 2 ) , STN2 S T N 2 對應 x3i x i 3
- 實驗發現很難通過STNs從 x(j)i x i ( j ) 的全局發現相對重要的區域，本文将 x(j)i x i ( j ) 劃分成了部分重疊的三個部分，upper，middle，bottom，共享localization net
- sampler的輸出對于 x(2)i x i ( 2 ) 為 f2×f2 f 2 × f 2 ， x(3)i x i ( 3 ) 為 f3×f3 f 3 × f 3 ， f2 f 2 大于 f3 f 3
- 将提取的區域當做卷積核，在另外一個特征圖上進行卷積操作，stride=1，通過計算cross-correlation來得到相似性
  
  sj,parti=xji∗xi, s i j , p a r t = x i j ∗ x i ,
- depth wise convolution

Combination of visual similarities from different levels:

結合低級與進階特征：
- 将第二個以及第三個卷積的 sim2 s i m 2 與 sim3 s i m 3 concatenated得到10 x 4 x 1152個相似分數圖
- 再通過三個卷積層conv4(1x1), conv5(3x3)， conv6(1x1)處理相似得分圖

Objective function: 結合了classification與ranking

二分類使用softmax loss

Lcls=1m∑i=1m[(1−y)p(y=0|{x1,x2})]+yp(y=1|{x1,x2)}) L c l s = 1 m ∑ i = 1 m [ ( 1 − y ) p ( y = 0 | { x 1 , x 2 } ) ] + y p ( y = 1 | { x 1 , x 2 ) } )

使用二分類損失會忽略正确的ranking，可以結合ranking loss來緩解該問題，本文認為全局特征難以突出最具有判别力的特征，不适合做ranking ==> 基于局部視覺特征的ranknet
- 三個卷積層
- xj,upperi,xj,middlei,x(j,bottom)i x i j , u p p e r , x i j , m i d d l e , x i ( j , b o t t o m ) ==> conv(3x3x96) ==> max pooling ==> concatenated(豎直方向) ==> conv(3x3x96) ==> 不同層的特征圖(concatenated) ==> GAP ==> linear embedding ==> 256維圖檔的attended parts的特征向量 ==> L2normalized L 2 n o r m a l i z e d
- Contrastive loss

Lctr=12m∗∑i=1m[yd2+(1−y)max(0,α−d)2]d=‖r1−r2‖ L c t r = 1 2 m ∗ ∑ i = 1 m [ y d 2 + ( 1 − y ) m a x ( 0 , α − d ) 2 ] d = ‖ r 1 − r 2 ‖

整個網絡的loss

Lcom=Lcls+Lctr L c o m = L c l s + L c t r

- 測試階段最後的相似得分計算:

SimiScore=ssoftmax+λ∗1d+ϵ S i m i S c o r e = s s o f t m a x + λ ∗ 1 d + ϵ

3.2. Discussion

Efficiency.相比從tensor直接通過切片來選取rigid part，本文通過全卷積STN來選取有意義的局部特征在目前深度學習架構下更加容易實作

Learned visual similarity from different levels.

由下圖可以看出不同層具有不同層次的特征(關于CSN2的解釋有點懵)

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

Model extension.

增加更多的CSN子產品，大幅度提高了性能，能達到與用pre-trained模型相當的性能

4.Experiments

4.1.Datasets and evaluation metrics

CUHK03、CUHK01、VIPeR
CMC、mAP

4.2.Implementation details

TensorFlow
ADAM、BN
learning rate：0.0005、Weighting decay：0.0005
Batch size：256 for CUHK03 128 for other
f1 f 1 與 f2 f 2 分别為10、5
資料增強：随機crop、水準翻轉
對于每個正樣本選取兩個負樣本
對于transformation parameters作了大于0；考慮到旋轉很少在實際中發生，針對 rw r w 與 rh r h 作了 L1 L 1
part的劃分，對于 x(2)i x i ( 2 ) row1-20為upper part,10-30為middle part，20-40為bottom part，對于 x(3)i x i ( 3 ) ,row1-10為upper part，5-15為middle row，10-20為bottom row

4.3. Comparison with state-of-the-arts

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

4.4. Ablation analysis

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

移除了contrastive loss Lctr L c t r
探究了結合不同層次視覺相似性的重要性
- 進階語義特征相比低級特征更加重要
- 結合不同層次視覺特征對性能的提升有幫助
不同網絡配置的實驗：
- C1：将圖檔分為三個部分的效果
- C2：将STN替換為固定的中心裁剪
- C3：隻使用Level4的相似性
- C4：原模型
  
  2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

4.5. Complexity Analysis

與五個最近提出模型進行了大小與計算複雜度的比較，本文的模型相對較小且有較高的性能

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

5.Conclusion

本文提出的全卷積Siamese網絡
- 從一個輸入圖檔的局部提取特征，并與另一個圖檔通過depth-wise convolution高效計算視覺相似性
- 利用在不同卷積層的多個CSNs得到不同層次的視覺相似性
在局部區域通過Contrastive loss來提取特征(ranknet)
大量的實驗證明了本文方法以較小的參數與計算複雜度達到了與SOTA方法相當的性能
通過Ablation與可視化方法證明了不同層次的特征對性能提升的貢獻

2018-CVPR-Efficient and Deep Person Re-Identification using Multi-Level Similarity

Motivation

Contribution

1.Introduction

2.Related Work

3.Proposed Method

3.1.Model description

3.2. Discussion

4.Experiments

4.1.Datasets and evaluation metrics

4.2.Implementation details

4.3. Comparison with state-of-the-arts

4.4. Ablation analysis

4.5. Complexity Analysis

5.Conclusion

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡