概述:
TIP2018的文章,實作的是基于Multi-task的網絡實作大pose的人臉識别。
作者:

url:
https://ieeexplore.ieee.org/document/8080244
Motivation:
Multi-task(MTK)的網絡對于task之間往往會互相促進。人臉識别任務可以分為主任務:抛開pose/光照/表情的人臉識别,以及pose光照表情等輔任務,建構multis-task網絡實作pose invariant的人臉識别。
Insight:
1 建構了MTK網絡,實作人臉和三個輔任務pose/illumination/emotion(PIM)的互相促進,并解釋這為什麼work
2 動态的weight來調整三個輔任務PIM的權重
3 提出了一個trick,不同的pose的人臉進入不同的feature extractor,最後拼在一起,加強cross pose的識别性能。
方法:
整體的網絡結構如上,基本都是shared的網絡,最後一層的softmax分為id的前Nd維,pose的Np維,光照的Ni維,表情的Ne維。
整體的Loss:
要實作PIM的權重和維1,作者使用了一個softmax層來實作。第一項為識别主任務,PIM是輔任務,是以有一個權重phi_s且這個權重小于1.
最後,取feature的前M維作為識别的特征,作者認為feature前半部分是抛開了PIM影響的,後小部分是用于分類PIM的,是以不适合用于人臉識别的分類。
作者加了實驗,發現在320維中取前280維作為識别的feature最佳。
作者對feature層和multi-task的softmax層之間的weight進行了統計,發現feature的前280維和分類softmax之前的weight很小,基本都是0,進一步論證前280維的特征和PIM無關,而是專注于人臉的Pose/光照/表情魯棒的人臉特征。
最後,作者對工作進行了擴充,在pose方面,先預估pose,分為3個pose,有3個CNN網絡,每個pose分别進入對應的的CNN網絡,最後合并在一起,這樣進一步提升性能。
實驗:
CFP資料集:
IJB-A:
LFW:
Thinking:
整體實驗上,在LFW并沒有很出衆好,但是在CFP這個pose-frontal的資料上效果挺好的,比一些GAN的方法都好,但是其實感覺主要的提升點都在最後一個trick,不同的pose進入不同的feature-extractor,這一點,在我們的任何base-line中,其實都可以使用。Multi-task的部分像是做了個實驗,發現效果好,然後強行去找各種理由去分析,很玄學。