清華大學提出LiVT，用視覺Transformer學習長尾資料，解決不平衡标注資料不在話下

關注并星标

從此不迷路

計算機視覺研究院

清華大學提出LiVT，用視覺Transformer學習長尾資料，解決不平衡标注資料不在話下

公衆号ID｜計算機視覺研究院

學習群｜掃碼在首頁擷取加入方式

論文連結：https://arxiv.org/abs/2212.02015
代碼連結：https://github.com/XuZhengzhuo/LiVT

計算機視覺研究院專欄

Column of Computer Vision Institute

Transformer 是現在火熱的AIGC預訓練大模型的基礎，而ViT(Vision Transformer)是真正意義上将自然語言處理領域的Transformer帶到了視覺領域。從Transformer的發展曆程就可以看出，從Transformer的提出到将Transformer應用到視覺，其實中間蟄伏了三年的時間。而從将Transformer應用到視覺領域(ViT)到AIGC的火爆也差不多用了兩三年。其實AIGC的火爆，從2022年下旬就開始有一些苗條，那時就逐漸有一些AIGC好玩的算法放出來，而到現在，AIGC好玩的項目真是層出不窮。

背景

在機器學習領域中，學習不平衡的标注資料一直是一個常見而具有挑戰性的任務。近年來，視覺 Transformer 作為一種強大的模型，在多個視覺任務上展現出令人滿意的效果。然而，視覺 Transformer 處理長尾分布資料的能力和特性，還有待進一步挖掘。目前，已有的長尾識别模型很少直接利用長尾資料對視覺 Transformer（ViT）進行訓練。基于現成的預訓練權重進行研究可能會導緻不公平的比較結果，是以有必要對視覺 Transformer 在長尾資料下的表現進行系統性的分析和總結。本文旨在填補這一研究空白，詳細探讨了視覺 Transformer 在處理長尾資料時的優勢和不足之處。本文将重點關注如何有效利用長尾資料來提升視覺 Transformer 的性能，并探索解決資料不平衡問題的新方法。通過本文的研究和總結，研究團隊有望為進一步改進視覺 Transformer 模型在長尾資料任務中的表現提供有益的指導和啟示。這将為解決現實世界中存在的資料不平衡問題提供新的思路和解決方案。文章通過一系列實驗發現，在有監督範式下，視覺 Transformer 在處理不平衡資料時會出現嚴重的性能衰退，而使用平衡分布的标注資料訓練出的視覺 Transformer 呈現出明顯的性能優勢。相比于卷積網絡，這一特點在視覺 Transformer 上展現的更為明顯。另一方面，無監督的預訓練方法無需标簽分布，是以在相同的訓練資料量下，視覺 Transformer 可以展現出類似的特征提取和重建能力。基于以上觀察和發現，研究提出了一種新的學習不平衡資料的範式，旨在讓視覺 Transformer 模型更好地适應長尾資料。通過這種範式的引入，研究團隊希望能夠充分利用長尾資料的資訊，提高視覺 Transformer 模型在處理不平衡标注資料時的性能和泛化能力。

文章貢獻

本文是第一個系統性的研究用長尾資料訓練視覺 Transformer 的工作，在此過程中，做出了以下主要貢獻：首先，本文深入分析了傳統有監督訓練方式對視覺 Transformer 學習不均衡資料的限制因素，并基于此提出了雙階段訓練流程，将視覺 Transformer 模型内在的歸納偏置和标簽分布的統計偏置分階段學習，以降低學習長尾資料的難度。其中第一階段采用了流行的掩碼重建預訓練，第二階段采用了平衡的損失進行微調監督。

其次，本文提出了平衡的二進制交叉熵損失函數，并給出了嚴格的理論推導。平衡的二進制交叉熵損失的形式如下：

與之前的平衡交叉熵損失相比，本文的損失函數在視覺 Transformer 模型上展現出更好的性能，并且具有更快的收斂速度。研究中的理論推導為損失函數的合理性提供了嚴密的解釋，進一步加強了我們方法的可靠性和有效性。

不同損失函數的收斂速度的比較基于以上貢獻，文章提出了一個全新的學習範式 LiVT，充分發揮視覺 Transformer 模型在長尾資料上的學習能力，顯著提升模型在多個資料集上的性能。該方案在多個資料集上取得了遠好于視覺 Transformer 基線的性能表現。

不同參數量下在 ImageNet-LT 上的準确性。

在 ImagNet-LT（左）和 iNaturalist18（右）資料集上的性能表現同時，本文還驗證了在相同的訓練資料規模的情況下，使用ImageNet的長尾分布子集（LT）和平衡分布子集（BAL）訓練的 ViT-B 模型展現出相近的重建能力。如 LT-Large-1600 列所示，在 ImageNet-LT 資料集中，可以通過更大的模型和 MGP epoch 獲得更好的重建結果。

總結

本文提供了一種新的基于視覺 Transformer 處理不平衡資料的方法 LiVT。LiVT 利用掩碼模組化和平衡微調兩個階段的訓練政策，使得視覺 Transformer 能夠更好地适應長尾資料分布并學習到更通用的特征表示。該方法不僅在實驗中取得了顯著的性能提升，而且無需額外的資料，具有實際應用的可行性。

轉自《機器之心》

轉載請聯系本公衆号獲得授權

計算機視覺研究院學習群等你加入！

ABOUT

計算機視覺研究院

考的習慣！計算機視覺研究院主要涉及深度學習領域，主要緻力于目标檢測、目标跟蹤、圖像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文算法新架構，提供論文一鍵下載下傳，并分享實戰項目。研究院主要着重”技術研究“和“實踐落地”。研究院會針對不同領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

VX：2311123606

🔗

清華大學提出LiVT，用視覺Transformer學習長尾資料，解決不平衡标注資料不在話下

繼續閱讀

Seq2Seq -- Attention -- Transformer

LP Information-2023全球自動入化成釘機行業前景預測調研報告

CIC“CosmicInformationCenter”宇宙資訊能量中心舉手投足都是術心念一動萬法勝催吉催财……

NLP發展大事件資料集算法

看了這篇你還不懂BERT，那你就過來打死我吧

李宏毅深度學習 Transformer一、Transformer是什麼二、訓練Transformer的Tips

BERT代碼實作架構資料預處理BERT

2.1 Transformer相關原理-圖解Attention圖解Attention緻謝

Attention is all you need Transformer和Attention實作和注釋

音視訊序列資料分析（RNN-＞seq2seq-＞Encoder+Decoder-＞Attention-＞Transformer）1. RNN2. Seq2Seq (即 Encoder + Decoder 結構)3. Attention4. Transformer（自回歸模型）Reference:

Transformer--Attention is All You Need (推薦--非常詳細)前言對Transformer的直覺認識論文位址模型提出的背景（或者動機）本論文模型—TranformerModel Architecturewhy Self-AttentionOptimizerRegularization代碼參考文獻

form表單回車送出問題

Transformer系列：Classification --＞ ViT (ICLR2021)1. Motivation2. Method 3.Experiment

如何使用PyTorch建構Transformer模型實作語言生成任務

Element 表單的 rules 驗證 Number

如何使用Transformer模型實作語言分類任務