天天看點

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

機器之心專欄

作者:王皓波

本文介紹浙江大學、威斯康星大學麥迪遜分校等機構的最新工作 PiCO,相關論文已被 ICLR 2022 錄用(Oral, Top 1.59%)!

偏标簽學習 (Partial Label Learning, PLL) 是一個經典的弱監督學習問題,它允許每個訓練樣本關聯一個候選的标簽集合,适用于許多具有标簽不确定性的的現實世界資料标注場景。然而,現存的 PLL 算法與完全監督下的方法依然存在較大差距。

為此,本文提出一個協同的架構解決 PLL 中的兩個關鍵研究挑戰 —— 表征學習和标簽消歧。具體地,研究者提出的 PiCO 由一個對比學習子產品和一個新穎的基于類原型的标簽消歧算法組成。PiCO 為來自同一類的樣本生成緊密對齊的表示,同時促進标簽消歧。從理論上講,研究者表明這兩個元件能夠互相促進,并且可以從期望最大化 (EM) 算法的角度得到嚴格證明。大量實驗表明,PiCO 在 PLL 中顯着優于目前最先進的 PLL 方法,甚至可以達到與完全監督學習相當的結果。

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

論文位址:https://arxiv.org/pdf/2201.08984v2.pdf

項目首頁:https://github.com/hbzju/pico

背景

深度學習的興起依賴于大量的準确标注資料,然而在許多場景下,資料标注本身存在較大的不确定性。例如,大部分非專業标注者都無法确定一隻狗到底是阿拉斯加還是哈士奇。這樣的問題稱為标簽歧義(Label Ambiguity),源于樣本本身的模糊性和标注者的知識不足,在更需要專業性的标注場景中十分普遍。此時,要獲得準确的标注,通常需要聘用具有豐富領域知識的專家進行标注。為了減少這類問題的标注成本,本文研究偏标簽學習 [1](Partial Label Learning,PLL),在該問題中,研究者允許樣本關聯一個候選标簽集合,其中包含了真實的标簽 。

在 PLL 問題中,最重要的問題為标簽消歧(Disambiguation),即從候選标簽集合中識别得到真實的标簽。為了解決 PLL 問題,現有的工作通常假設樣本具有良好的表征,然後基于平滑假設進行标簽消歧,即假設特征接近的樣本可能共享相同的真實标簽。然而,對表征的依賴緻使 PLL 方法陷入了表征 - 消歧困境:标注的不确定性會嚴重影響表征學習,表征的品質又反向影響了标簽消歧。是以,現有的 PLL 方法的性能距離完全監督學習的場景,依然存在一定的差距。

為此,研究者提出了一個協同的架構 PiCO,引入了對比學習技術(Contrastive Learning,CL),來同時解決表示學習和标簽消歧這兩個高度相關的問題。本文的主要貢獻如下:

方法:本論文率先探索了部分标簽學習的對比學習,并提出了一個名為 PiCO 的新架構。作為算法的一個組成部分,研究者還引入了一種新的基于原型的标簽消歧機制,有效利用了對比學習的 embeddings。

實驗:研究者提出的 PiCO 架構在多個資料集上取得了 SOTA 的結果。此外,研究者首次嘗試在細粒度分類資料集上進行實驗,與 CUB-200 資料集的最佳基線相比,分類性能提高了 9.61%。

理論:在理論上,研究者證明了 PiCO 等價于以 Expectation-Maximization 過程最大化似然。研究者的推導也可推廣到其他對比學習方法,證明了 CL 中的對齊(Alignment)性質 [2] 在數學上等于經典聚類算法中的 M 步。

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

架構

簡而言之,PiCO 包含兩個關鍵元件,分别進行表示學習和标簽消歧。這兩個元件系統地作為一個整體運作并互相反哺。後續,研究者也會進一步從 EM 的角度對 PiCO 的進行嚴格的理論解釋。

分類損失(Classification Loss)

給定資料集,每個元組包含 和一個候選标簽集合 。為了有效解決 PLL 問題,研究者為每個樣本維護一個僞标簽向量 。在訓練過程中,研究者會不斷更新這個僞标簽向量,而模型則會優化以下損失進行更新分類器,

PLL的對比表征學習(Contrastive Representation Learning For PLL)

受到監督對比學習(SCL)[3] 的啟發,研究者旨在引入對比學習機制,為來自同一類的樣本學習相近的表征。PiCO 的基本結構和 MoCo [4] 類似,均由兩個網絡構成,分别為 Query 網絡和 Key 網絡。給定一個樣本,研究者首先利用随機資料增強技術獲得兩個增廣樣本,分别稱為 Query View 和 Key View。然後,它們會被分别輸入兩個網絡,獲得一對- 歸一化的 embeddings,即和。

實作時,研究者讓 Query 網絡與分類器共享相同的卷積塊,并增加一個額外的投影網絡。和 MoCo 一樣,研究者利用 Query 網絡的動量平均(Momentum Averaging)技術對 Key 網絡進行更新。并且,研究者引入一個隊列 queue,存儲過去一段時間内的 Key embedding。由此,研究者獲得了以下的對比學習 embedding pool:。接着,研究者根據如下公式計算每個樣本的對比損失:

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

其中是對比學習中的正樣本集,而。是溫度參數。

Positive Set 選擇。可以發現,對比學習子產品中,最重要的問題即為正樣本集合的建構。然而,在 PLL 問題中,真實标簽是未知的,是以無法直接選擇同類樣本。是以,研究者采用了一個簡單而有效的政策,即直接使用分類器預測的标簽:,建構如下正樣本集:

為了節約計算效率,研究者還維護一個标簽隊列來存儲之前幾個 Batch 的預測。盡管該政策很簡單,卻能得到非常好的實驗結果,并且能夠從理論上被證明該政策是行之有效的。

基于原型的标簽消歧(Prototype-based Label Disambiguation)

值得注意的是,對比學習依然依賴于準确的分類器預測,是以依然需要一個有效的标簽消歧政策,擷取準确的标簽估計。為此,研究者提出了一個新穎的基于原型的标簽消歧政策。具體的,研究者為每個标簽維護了一個原型 embedding 向量,它可以被看作一組具有代表性的 embedding 向量。

僞标簽更新。在學習過程中,研究者首先将 S初始化為 Uniform 向量。接着,基于類原型,研究者采用一個滑動平均的政策更新僞标簽向量,

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

即,研究者選擇最近的原型對應的标簽,逐漸更新僞标簽 S。此處,采用滑動平均原因是對比學習網絡輸出的 embeddings 在初始階段并不可靠,此時拟合 Uniform 僞目标能夠很好地初始化分類器。然後,滑動平均政策僞标簽平滑地更新為正确的目标,以確定一個穩定的 Traning Dynamic。

原型更新。為了更新僞标簽,一個簡單的方法是每個疊代或者 Epoch 中都計算一次每個類的中心,不過這會引起較大的計算代價。是以研究者再一次使用滑動平均技術更新原型,

即,當被預測為類别時,則令往對應的向量方向步進一些。

Insights. 值得注意的是,這兩個看似獨立的子產品實際上能夠協同工作。首先,對比學習在 embeddings 空間中具有聚類效果,是以能夠被标簽消歧子產品利用,以獲得更準确的類中心。其次,經過标簽消歧後,分類器預測的标簽更準确,能夠反哺對比學習子產品構造更精準的 Positive Set。當兩個子產品達成一緻時,整個訓練過程就會收斂。研究者在接下來在理論上更嚴格地讨論 PiCO 與經典 EM 聚類算法的相似之處。

實驗結果

主要結果

在展開理論分析之前,研究者首先看一下 PiCO 優異的實驗效果。首先是在 CIFAR-10、CIFAR-100 上的結果,其中,表示每個 Negative Label 成為候選标簽的機率。

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

如上圖,PiCO 達到了十分出色的實驗結果,在兩個資料集、不同程度的歧義下(對應的大小),均取得了 SOTA 的結果。值得注意的是,之前的工作 [5][6] 均隻探讨了标簽量較小的情況(),研究者在 CIFAR-100 上的結果表明,即使在标簽空間較大,PiCO 依然具有十分優越良好的性能。最後,值得注意的是,當相對較小的時候,PiCO 甚至達到了接近全監督的結果!

表征學習

除此之外,研究者還可視化了不同方法學習到的表征,可以看到 Uniform 标簽導緻了模糊的表征,PRODEN 方法學習到的簇則存在重疊,無法完全分離。相比之下,PiCO 學習的表征更緊湊,更具辨識度。

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

消融實驗

最後,研究者展示不同的子產品對實驗結果的影響,可以看到,标簽消歧子產品和對比學習子產品都會帶來非常明顯的性能提升,消融其中一個會帶來的性能下降。更多的實驗結果請詳見原論文。

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

理論分析

終于到了最激動人心的部分!相信大家都有一個疑問:為什麼 PiCO 能夠獲得如此優異的結果?本文中,研究者從理論上分析對比學習得到的原型有助于标簽消歧。研究者将會展示,對比學習中的對齊性質(Alignment)本質上最小化了 embedding 空間中的類内協方差,這與經典聚類算法的目标是一緻的。這促使研究者從期望最大化算法(Expectation-Maximization,EM)的角度來解釋 PiCO。

首先,研究者考慮一個理想的 Setup:在每個訓練步驟中,所有資料樣本都是可通路的,并且增廣的樣本也包含在訓練集中,即。然後,可以如下計算對比損失:

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

研究者主要關注第一項 (a),即 Alignment 項 [2],另一項 Uniformity 則被證明有利于 Information-Preserving。在本文中,研究者将其與經典的聚類算法聯系起來。研究者首先将資料集劃分為個子集,其中每個子集中的樣本包含具有相同的預測标簽。實際上,PiCO 的 Positive Set 選擇政策也是通過從相同的政策來構造 Positive Sets。是以,研究者有,

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

其中是一個常數,是的均值中心。這裡研究者近似因為通常很大。為簡單起見,研究者省略了符号。可以看到,Alignment 這一項能夠最小化類内方差!

至此,研究者可以将 PiCO 算法解釋為優化一個生成模型的 EM 算法。在 E 步,分類器将每個樣本配置設定到一個特定的簇。在 M 步,對比損失将 embedding 集中到他們的簇中心方向。最後,訓練資料将被映射到機關超球面上的混合 von Mises-Fisher 分布。

EM-Perspective。為了估計似然,研究者額外引入一個假設來建立候選标簽集合與真實标簽的聯系,

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

由此,研究者證明 PiCO 隐式地最大化似然如下,

E-Step。首先,研究者在引入一組分布,且若,。令為的參數。研究者的目标是最大化如下似然,

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

最後一步推導使用了 Jensen 不等式。由于函數是凹函數,當是某些常數時等式成立。是以,研究者有,

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

即為類後驗機率。在 PiCO 中,研究者使用分類器輸出對其進行估計。

為了估計,經典的無監督聚類方法直接将樣本配置設定給最近的聚類中心,如 k-Means 方法;在完全監督學習情況下,研究者可以直接使用 ground-truth 标簽。然而,在 PLL 問題中,監督信号處于完全監督和無監督之間。根據研究者的實驗觀察,候選标簽在開始時對後驗估計更可靠;而随着模型訓練,對比學習的原型會變得更加可信。這促使研究者以滑動平均方式更新僞标簽。是以,研究者在估計類後驗時有一個很好的初始化資訊,并且在訓練過程中會被平滑地改善。最後,由于每個樣本對應一個唯一的标簽,研究者采用 One-hot 預測,研究者有。

M-Step。在這一步,研究者假設後驗類機率已知,并最大化似然。下述定理表明,最小化對比損失能夠也最大化似然的一個下界,

對比學習引領弱标簽學習新SOTA,浙大新研究入選ICLR Oral

證明見原文。當接近1 時,下界較緊,這意味着超球面的類内集中度很高。直覺地說,當假設空間足夠豐富時,研究者有可能在歐幾裡得空間中得到較低的類内協方差,進而導緻均值向量的範數很大。然後,超球面中的歸一化 embedding 在也具有較強的類内集中度,因為大的也會導緻大的 K 值 [7]。根據實驗結果中的可視化結果,研究者發現 PiCO 确實能夠學習緊湊的簇。是以,研究者認為最小化對比損失也能夠最大化似然。

結論

在本文中,研究者提出了一種新穎的偏标簽學習架構 PiCO。其關鍵思想是通過使用對比學習的 embdding 原型從候選集合中識别真實标簽。全面的實驗結果表明 PiCO 達到了 SOTA 的結果,并在部分情況下達到了接近完全監督的效果。理論分析表明,PiCO 可以被解釋為一種 EM 算法。研究者希望研究者的工作能夠引起社群的更多關注,以更廣泛地使用對比學習技術進行偏标簽學習。

實驗室簡介

歡迎大家加入研究者趙俊博老師所在的浙江大學資料智能實驗室和帶領的M3 Group(與寶馬那輛跑車沒啥關系)!!實驗室在計算機學院院長陳剛老師帶領下,曾獲 VLDB 2014/2019 best paper,近年來在 VLDB、ICLR、ICML、ACL、KDD、WWW 等頂級會議和期刊上成果頗豐,多次獲得國家級、省級獎項。趙俊博老師是浙江大學百人計劃研究員、博士生導師,師承 Yann LeCun,Google 引用 1w+,知乎萬粉小 V,AI 賽道連續創業者。

趙俊博首頁:http://jakezhao.net/

參考

1. 實際上,PLL 有更直接的别名:Ambiguous Label Learning(模糊 / 歧義标簽學習),或 Superset Label Learning(超集标簽學習)。本文遵循最常用的名稱,稱作偏标簽學習。

2. Tongzhou Wang and Phillip Isola. Understanding contrastive representation learning through alignment and uniformity on the hypersphere. In ICML, volume 119 of Proceedings of Machine Learning Research, pp. 9929–9939. PMLR, 2020.

3. Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised contrastive learning. In NeurIPS, 2020.

4. Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross B. Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, pp. 9726–9735. IEEE, 2020.

5. Jiaqi Lv, Miao Xu, Lei Feng, Gang Niu, Xin Geng, and Masashi Sugiyama. Progressive identification of true labels for partial-label learning. In ICML, volume 119 of Proceedings of Machine Learning Research, pp. 6500–6510. PMLR, 2020.

6. Lei Feng, Jiaqi Lv, Bo Han, Miao Xu, Gang Niu, Xin Geng, Bo An, and Masashi Sugiyama. Provably consistent partial-label learning. In NeurIPS, 2020b.

7. Arindam Banerjee, Inderjit S. Dhillon, Joydeep Ghosh, and Suvrit Sra. Clustering on the unit hypersphere using von mises-fisher distributions. J. Mach. Learn. Res., 6:1345–1382, 2005.

知乎原文:https://zhuanlan.zhihu.com/p/463255610

繼續閱讀