天天看點

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

作者:機器之心Pro

機器之心專欄

機器之心編輯部

本篇文章為大家介紹清華大學在 CVPR 2023 的論文,Learning Imbalanced Data with Vision Transformers(用視覺 Transformer 學習長尾資料),代碼已開源。

背景

在機器學習領域中,學習不平衡的标注資料一直是一個常見而具有挑戰性的任務。近年來,視覺 Transformer 作為一種強大的模型,在多個視覺任務上展現出令人滿意的效果。然而,視覺 Transformer 處理長尾分布資料的能力和特性,還有待進一步挖掘。

目前,已有的長尾識别模型很少直接利用長尾資料對視覺 Transformer(ViT)進行訓練。基于現成的預訓練權重進行研究可能會導緻不公平的比較結果,是以有必要對視覺 Transformer 在長尾資料下的表現進行系統性的分析和總結。

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

論文連結:https://arxiv.org/abs/2212.02015

代碼連結:https://github.com/XuZhengzhuo/LiVT

本文旨在填補這一研究空白,詳細探讨了視覺 Transformer 在處理長尾資料時的優勢和不足之處。本文将重點關注如何有效利用長尾資料來提升視覺 Transformer 的性能,并探索解決資料不平衡問題的新方法。通過本文的研究和總結,研究團隊有望為進一步改進視覺 Transformer 模型在長尾資料任務中的表現提供有益的指導和啟示。這将為解決現實世界中存在的資料不平衡問題提供新的思路和解決方案。

文章通過一系列實驗發現,在有監督範式下,視覺 Transformer 在處理不平衡資料時會出現嚴重的性能衰退,而使用平衡分布的标注資料訓練出的視覺 Transformer 呈現出明顯的性能優勢。相比于卷積網絡,這一特點在視覺 Transformer 上展現的更為明顯。另一方面,無監督的預訓練方法無需标簽分布,是以在相同的訓練資料量下,視覺 Transformer 可以展現出類似的特征提取和重建能力。

基于以上觀察和發現,研究提出了一種新的學習不平衡資料的範式,旨在讓視覺 Transformer 模型更好地适應長尾資料。通過這種範式的引入,研究團隊希望能夠充分利用長尾資料的資訊,提高視覺 Transformer 模型在處理不平衡标注資料時的性能和泛化能力。

文章貢獻

本文是第一個系統性的研究用長尾資料訓練視覺 Transformer 的工作,在此過程中,做出了以下主要貢獻:

首先,本文深入分析了傳統有監督訓練方式對視覺 Transformer 學習不均衡資料的限制因素,并基于此提出了雙階段訓練流程,将視覺 Transformer 模型内在的歸納偏置和标簽分布的統計偏置分階段學習,以降低學習長尾資料的難度。其中第一階段采用了流行的掩碼重建預訓練,第二階段采用了平衡的損失進行微調監督。

其次,本文提出了平衡的二進制交叉熵損失函數,并給出了嚴格的理論推導。平衡的二進制交叉熵損失的形式如下:

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

與之前的平衡交叉熵損失相比,本文的損失函數在視覺 Transformer 模型上展現出更好的性能,并且具有更快的收斂速度。研究中的理論推導為損失函數的合理性提供了嚴密的解釋,進一步加強了我們方法的可靠性和有效性。

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

不同損失函數的收斂速度的比較

基于以上貢獻,文章提出了一個全新的學習範式 LiVT,充分發揮視覺 Transformer 模型在長尾資料上的學習能力,顯著提升模型在多個資料集上的性能。該方案在多個資料集上取得了遠好于視覺 Transformer 基線的性能表現。

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

不同參數量下在 ImageNet-LT 上的準确性。

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

在 ImagNet-LT(左)和 iNaturalist18(右)資料集上的性能表現

同時,本文還驗證了在相同的訓練資料規模的情況下,使用ImageNet的長尾分布子集(LT)和平衡分布子集(BAL)訓練的 ViT-B 模型展現出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 資料集中,可以通過更大的模型和 MGP epoch 獲得更好的重建結果。

清華LiVT用視覺Transformer學習長尾資料,解決不平衡标注資料

總結

本文提供了一種新的基于視覺 Transformer 處理不平衡資料的方法 LiVT。LiVT 利用掩碼模組化和平衡微調兩個階段的訓練政策,使得視覺 Transformer 能夠更好地适應長尾資料分布并學習到更通用的特征表示。該方法不僅在實驗中取得了顯著的性能提升,而且無需額外的資料,具有實際應用的可行性。

論文的更多細節請參考論文原文和補充材料。

繼續閱讀