近日,騰訊優圖實驗室在行人重識别(ReID)技術上再次取得突破,通過引入跨場景ReID,其ReID模型性能重新整理了三大權威主流ReID公開資料集CUHK03,DUKE-MTMC和Market1501的記錄,算法關鍵名額首位命中率(RANK1 Accuracy)和平均精度均值(Mean Average Precision)獲得業内最好成績。
表1: ReID公開資料集性能比較
Market1501 | DukeMTMC | CUHK03 | ||||
RANK1 | MAP | RANK1 | MAP | RANK1 | MAP | |
Tencent YouTu | 98.99% | 97.16% | 95.15% | 91.10% | 95.79% | 95.00% |
YITU | 98.60% | 96.60% | 94.75% | 90.02% | 95.00% | 94.23% |
HaiGe | 97.54% | 94.77% | 94.37% | 89.77% | 94.40% | 91.20% |
ZTE | 97.32% | 94.66% | 92.46% | 87.65% | 89.79% | 87.99% |
Dahua Tech | 96.76% | 91.98% | 91.52% | 83.96% | 87.73% | 85.72% |
Pensees | 96.73% | 89.89% | 92.01% | 82.51% | 84.57% | 82.81% |
WINSENSE | 96.59% | 91.77% | 91.79% | 83.81% | 82.79% | 81.91% |
CloudWalk | 96.40% | 91.14% | 91.74% | 83.31% | 82.28% | 81.06% |
Alibaba | 96.35% | 90.58% | 90.31% | 81.46% | 82.00% | 80.57% |
資料來源于網絡
行人重識别(Person ReID)是指對不同錄影機捕捉到的行人圖像建立身份對應關系(即關聯行人ID),對行人實作在整個場景下的行動路線的全面刻畫。簡單來說,在看不到人臉的複雜多場景下也能通過體态等對人進行識别。相較于人臉識别技術,ReID對人體圖像的遮擋、朝向和清晰度具有較高的魯棒性,對攝像頭的清晰度、架設位置、角度沒有硬性要求。正是以ReID技術成為繼人臉識别技術後計算機視覺領域又一熱門課題。
鑒于ReID技術的技術優勢和在各個領域的廣泛應用前景,近年來,騰訊優圖在這一方向上做出了大量技術投入和全面的技術布局,在CVPR、TPAMI、AAAI、IJCAI等國際頂級學術會議和期刊上發表了超過15篇相關領域學術論文。

圖一:行人ReID示意圖
雖然ReID技術已經過多年的演進,但現實中複雜多變的場景,也讓跨場景識别(cross-domain person re-identification)成為ReID技術的一大難題,此次騰訊優圖重新整理三大資料集所引入的跨場景ReID,便是在此難點上進行了技術突破。
跨場景識别的難點在于,不同場景由于環境光照、攝像頭角度、背景等因素,例如室内大型商場、小型門店的側面和高俯角相機、室外道路、社群的強光和夜晚環境等,都會對人體圖像的視覺特征造成影響。如何讓ReID技術适應複雜多變的場景,實作跨場景行人圖像的檢索,是一項重大的技術挑戰,也是實作室内外行人動線關聯、全城關聯的關鍵性技術。突破此技術難點對拓展ReID的落地場景和業态,實作大規模行人識别有巨大的作用。
圖二:公開資料集MSMT17中的室内外行人圖像視覺差異
為解決ReID技術難點,騰訊優圖通過在遮擋比對、全角度比對、跨域檢索等業務問題上的針對性優化,以及在模型結構、損失函數、訓練算法等各項技術上的大量積累和創新,提出了一種跨場景行人重識别技術架構,采用基于圖卷積和孿生網絡的模型,使得神經網絡對多朝向、多姿态等跨場景的人體具有更強的識别能力。這一技術能夠為不同場景、不同拍攝角度和光照條件的行人視覺特征學習統一的特征表達,有效提升了ReID技術在行人圖像室内外、跨場景的互相檢索的精度。
圖三:跨場景行人重識别
通過引入跨場景ReID,騰訊優圖在三個資料集中重新整理業内最好的水準,其中Market-1501資料集的RANK1達到98.99%。RANK1和MAP作為衡量ReID技術水準的核心名額,首位命中率高,就意味着算法能夠在衆多圖像中準确找出最容易識别或比對的那張。
在此基礎上,騰訊優圖的ReID算法在多場景行人圖像互相檢索也處于業界領先水準,在跨場景ReID資料集MSMT-17上超越已有算法達到業内頂尖水準。
表2:跨場景行人重識别性能比較
RANK1 | MAP | |
Tencent YouTu | 83.54% | 62.00% |
ABDNET (TAMU/中科大) | 82.30% | 60.80% |
OSNET | 78.70% | 52.90% |
DG-NET (NVIDIA/悉尼大學) | 77.20% | 52.30% |
DLCE | 60.48% | 31.58% |
騰訊優圖的ReID技術不僅在相關資料集上已經取得了領先的性能,依托ReID技術的應用系統也已在多種場景達到商用水準并實作廣泛落地。未來,随着跨場景行人重識别能力的逐漸成熟,騰訊優圖的ReID技術也将在更多的場景和業态實作價值。