天天看點

行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

不考慮人體姿态,part及上下文資訊,僅使用圖像作為輸入,訓練CNN進行所有屬性的預測。另外,提出了N/A标記,即對目标的屬性不确定。如下圖的人向左走,就無法确定其右手是否帶包。

行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

人體屬性一般是二值的語義,如( is male? wears a tshirt? carries a bag in the left hand?),或者多項輸出(orientation - left, right, front, or back),可以用于圖像檢索,語義檢索資料庫。

ACN網絡

網絡的結構如下圖所示:

行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

對于N/A的樣本,梯度設定為0。每個屬性有一個損失函數,通過BP累積。最小化兩個離散分布的KL 散度,Q是預測的結果,P是實際屬性二值狀态:

KL(P||Q)=∑NiP(xi)logP(xi)Q(xi)

P(xi=yes)=l;p(xi=no)=1−l

目标空間是每個屬性的交叉積,是一個結構化預測問題。

網絡是一個兩步訓練過程,使用額外的fc層替換原來的損失層。額外的fc層是對每個屬性學習帶有隐含層的MLP,每個屬性最有的隐含節點是64個。對目标任務的每個屬性,增加分類及損失層。訓練過程使用了一些資料增強技術:将原始輸入框resize到不同的尺寸,水準鏡像,PCA jittering。測試時使用所有crop的平均。

Reject Option

1. Reject Region 使用伯努利變量控制,門檻值決定拒絕區域。

2. Softmax,訓練具有N+1個輸出的softmax損失。

3. Hierarchical Softmax,兩步法,考慮兩個變量A和B,p(A)辨別屬性是否可以檢測到,p(B)辨別屬性為真的機率,A使用logistic損失,B使用softmax損失,最終屬性預測為p(A)和p(B|A)的乘積。

資料庫

HATDB

Berkeley-行人屬性資料集

PaRSE-27k資料集

實驗結果

自己在PARSE-27k資料集上的對比

行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”

在Berkeley行人屬性資料集上與其他方法的對比

行人屬性“Person Attribute Recognition with a Jointly-trained Holistic CNN Model”