天天看點

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

大多數現有的零樣本學習(Zero-Shot Learning,ZSL)方法都存在強偏問題:訓練階段看不見(目标)類的執行個體在測試時往往被歸類為所看到的(源)類之一。是以,在廣義ZSL設定中部署後,它們的性能很差。在本文,我們提出了一個簡單而有效的方法,稱為準完全監督學習(QFSL),來緩解此問題。我們的方法遵循直推式學習的方式,假定标記的源圖像和未标記的目标圖像都可用于訓練。在語義嵌入空間中,被标記的源圖像被映射到由源類别指定的若幹個嵌入點,并且未标記的目标圖像被強制映射到由目标類别指定的其他點。在AwA2,CUB和SUN資料集上進行的實驗表明,我們的方法在遵循廣義ZSL設定的情況下比現有技術的方法優越9.3%至24.5%,在遵循傳統ZSL設定下有0.2%至16.2%的提升。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

歸納式和直推式零樣本學習

在大規模的訓練資料集的支撐下,計算機視覺中的物體識别算法在近幾年取得了突破性的進展。但是人工收集和标注資料是一項十分耗費人力物力的工作。例如,在細粒度分類中,需要專家來區分不同的類别。對于如瀕臨滅絕的物種,要收集到豐富多樣的資料就更加困難了。在給定有限或者沒有訓練圖檔的情況下,現在的視覺識别模型很難預測出正确的結果。

零樣本學習是一類可以用于解決以上問題的可行方法。零樣本學習區分2種不同來源的類,源類(source)和目标類(target),其中源類是有标注的圖像資料,目标類是沒有标注的圖像資料。為了能夠識别新的目标類(無标注),零樣本學習假定源類和目标類共享同一個語義空間。圖像和類名都可以嵌入到這個空間中。語義空間可以是屬性(attribute)、詞向量(word vector)等。在該假設下,識别來自目标類的圖像可以通過在上述語義空間中進行最近鄰搜尋達成。

根據目标類的無标注資料是否可以在訓練時使用,現有的ZSL可以分為2類:歸納式ZSL(inductive ZSL)和直推式ZSL(transductive ZSL)。對于歸納式ZSL,訓練階段隻能擷取得到源類資料。對于直推式ZSL,訓練階段可以擷取到有标注的源類資料和未标注的目标類資料。直推式ZSL希望通過同時利用有标注的源類和無标注的目标類來完成ZSL任務。

在測試階段,大多數現有的歸納式ZSL和直推式ZSL都假定測試圖像都來源于目标類。是以,對測試圖檔分類的搜尋空間被限制在目标類中。我們把這種實驗設定叫作傳統設定(conventional settings)。然而,在一個更加實際的應用場景中,測試圖像不僅來源于目标類,還可能來自源類。這種情況下,來自源類和目标類的資料都應該被考慮到。我們把這種設定叫作廣義設定(generalized settings)。

現有的ZSL方法在廣義設定下的效果遠差于傳統設定。這種不良的表現的主要原因可以歸納如下:ZSL通過建立視覺嵌入和語義嵌入之間的聯系來實作新的類别的識别。在銜接視覺嵌入和語義嵌入的過程中,大多數現有的ZSL方法存在着強偏 (strong bias)的問題(如圖1所示):在訓練階段,視覺圖檔通常被投影到由源類确定的語義嵌入空間中的幾個固定的點。這樣就導緻了在測試階段中,在目标資料集中的新類圖像傾向于被分到源類當中。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

圖1

為了解決以上問題,本文提出了一種新的直推式ZSL方法。我們假定有标注的源資料和目标資料都可以在訓練階段得到。一方面,有标注的源資料可以用于學習圖像與語義嵌入之間的關系。另外一方面,沒有标注的目标資料可以用于減少由于源類引起的偏置問題。更确切地來說,我們的方法允許輸入圖像映射到其他的嵌入點上,而不是像其他ZSL方法将輸入圖像映射到固定的由源類确定的幾個點上。這樣有效地緩解了偏置問題。

我們将這種方法稱為準全監督學習(Quasi-Fully Supervised Learning, QFSL)。這種方法和傳統的全監督分類工作方式相似,由多層神經網絡和一個分類器組成,如圖2所示。神經網絡模型架構采用現有的主流架構,比如AlexNet、GoogleNet或者其他架構。在訓練階段,我們的模型使用有标注的源類資料和沒有标注的目标資料進行端到端的訓練。這使得我們的模型有一兩個個明顯的特性:(1)如果未來可以得到目标類的标注資料,那麼标注資料可以直接用于進一步訓練和改進現有的網絡模型;(2)在測試階段,我們得到的訓練模型可以直接用于識别來自于源類和目标類的圖像,而不需要進行任何修改。

本論文的主要貢獻總結如下:

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

提出了準全監督學習的方法來解決零樣本學習中的強偏問題。據我們所知,這是第一個采用直推式學習方法來解決廣義設定下零樣本學習問題。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

實驗結果表明我們的方法在廣義設定下和傳統設定下都遠超現有的零樣本學習方法。

問題的形式化

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

QFSL模型

不同于以上描述的雙線性形式,我們将得分函數F設計成非線性形式。整個模型由深度神經網絡實作。模型包括4個子產品:視覺嵌入子網絡,視覺-語義銜接子網絡,得分子網絡和分類器。視覺嵌入子網絡将原始圖像映射到視覺嵌入空間。視覺-語義銜接子網絡将視覺嵌入映射到語義嵌入子網絡。得分子網絡在語義空間中産生每一類的得分。分類器根據得分輸出最終的預測結果。所有的子產品都是可微分的,包括卷積層,全連接配接層,ReLU層和softmax層。是以,我們的模型可以進行端到端的訓練。

視覺嵌入子網絡

現有的大多數模型采用了CNN提取得到的特征作為視覺嵌入。在這些方法中,視覺嵌入函數θ是固定的。這些方法并沒有充分利用深度CNN的強大的學習能力。本文采用了預訓練的CNN模型來進行視覺嵌入。我們的視覺嵌入模型的主要不同之處在于可以和其他子產品一起進行優化。視覺嵌入子產品的參數。除非特别說明,我們把第一個全連接配接層的輸出作為視覺嵌入。

視覺-語義銜接子網絡

銜接圖像和語義嵌入之間的關系對ZSL來說很重要。這種關系可以通過線性函數或者非線性函數來模組化。本文采用了非線性函數

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

将視覺嵌入映射到語義嵌入。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

由若幹個全連接配接層來實作,其中每一個全連接配接層後面跟了一個非線性激活函數:ReLU。銜接函數的設計依賴于上述的視覺嵌入子網絡的架構。具體來說,我們的設計是按照所選擇CNN模型的全連接配接層來設計的。視覺-語義銜接子網絡和視覺嵌入網絡一起進行優化。視覺-語義銜接子網絡參數記作

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

得分子網絡

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

分類器

經過得分函數後,我們使用

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

的softmax分類器産生了所有類的機率。輸入圖像的預測結果為機率最高的那個類。

模型優化

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

實驗

資料集

我們在三個資料集上評估了我們的方法。這三個資料集分别為AwA2, CUB, SUN。在實驗中,我們采用屬性作為語義空間,用類平均準确度衡量模型效果。

在傳統設定下的效果比較

首先我們在傳統設定下對我們方法和現有方法。用來做對比的現有方法分為兩類:一類是是歸納式方法,包括DAP,CONSE,SSE,ALE,DEVISE,SJE,ESZSL,SYNC;另一類是直推式方法,包含UDA,TMV,SMS。與此同時,還比較了一個潛在的baseline(标記為QFSL-):隻用有标注的源資料來訓練我們的模型。實驗效果如表1。可以看出,我們的方法大幅度(4.5~16.2%)提升了分類準确度。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

表1. 在傳統設定下的實驗比較

在廣義設定下的效果比較

大多數現有直推式方法在測試階段都采用了同訓練階段同樣的資料來評估性能。然而,如果我們的方法也采用這種方式來評估效果是很不合理的。因為我們的方法已經利用到了無标簽的資料來源于目标類這一監督資訊。為了解決這一問題,我們将目标資料平分為兩份,一份用來訓練,另一份用來測試。然後交換這兩份資料的角色,再重新訓練一個模型。最終的效果為這兩個模型的平均。我們比較了我們的方法和若幹現有方法,以及一個隐含的baseline:先訓練一個二分類器來區分源資料和目标資料,然後再在各自搜尋空間中分類。實驗結果如表2。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

表2

可以看出,我們模型的整體性能(調和平均數H)有着9.3~24.5的明顯提高。該項名額的提高主要得益于在目标資料上的效果提升,同時又沒有在源資料上大幅度降低準确度。該結果表明,我們的方法能夠很大程度上緩解強偏問題。

讨論

現實世界中,目标類的數量可能遠遠高于源類數量。然而,大多數現有ZSL資料集的源、目标資料劃分都違背了這一點。比如,在AwA2中,40個類用來做訓練,10個類用來做測試。我們在實驗上給出了随着源資料類别的增加,QFSL在效果上如何變化。該實驗在SUN資料集上進行,72類作為目标類,随機選取剩下的類作為源類。我們嘗試了7個大小不同的源類集,類的數量分别為{100,200,300,450,550,600,645}。用這些不同大小的源類作為訓練集,測試我們的方法,效果如圖3。由圖可以看出,随着類别增加,模型能夠學習到更多的知識,其在目标資料集上準确度越來越高。同時,由于源資料和目标資料變得越來越不平衡,強偏問題越來越嚴重。我們方法能夠緩解強偏問題,因而其在效果上的優越性也越來越明顯。

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

圖3. 準全監督在SUN資料集上效果

結論

本文提出了一種用于學習ZSL無偏嵌入的直接但有效的方法。這種方法假設标注的源資料和未标注的目标資料在模型訓練的過程中可以使用。一方面,将标注的源資料映射到語義空間中源類對應的點上。另外一方面,将沒有标注的目标資料映射到語義空間中目标類對應的點上,進而有效地解決了模型預測結果向源類偏置的問題。在各種基準資料集上的實驗表明我們的方法在傳統設定和廣義設定下,大幅超過了現有的ZSL方法。

原文釋出時間為:2018-05-25

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:

CVPR 2018:阿裡提出新零樣本學習方法,有效解決偏置問題

繼續閱讀