天天看點

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

【導讀】圖像分類是計算機視覺中的基本任務之一,深度學習的出現是的圖像分類技術趨于完善。最近,自監督學習與預訓練技術的發展使得圖像分類技術出現新的變化,這篇論文概述了最新在實際情況中少标簽小樣本等情況下,關于自監督學習、半監督、無監督方法的綜述,值得看!

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

位址:

​​https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132​​翻譯:圖像分類相似性,差異群組合中半監督,自我監督和無監督技術的調查摘要

雖然深度學習政策在計算機視覺任務中取得了突出的成績,但仍存在一個問題。目前的政策嚴重依賴于大量的标記資料。在許多實際問題中,建立這麼多标記的訓練資料是不可行的。是以,研究人員試圖将未标記的資料納入到訓練過程中,以獲得與較少标記相同的結果。由于有許多同時進行的研究,很難掌握最近的發展情況。在這項綜述中,我們提供了一個概述,常用的技術和方法,在圖像分類與較少的标簽。我們比較了21種方法。在我們的分析中,我們确定了三個主要趨勢。1. 基于它們的準确性,現有技術的方法可擴充到實際應用中。2. 為了達到與所有标簽的使用相同的結果所需要的監督程度正在降低。3.所有方法都共享公共技術,而少數方法結合這些技術以獲得更好的性能。基于這三個趨勢,我們發現了未來的研究機會。

1. 概述

深度學習政策在計算機視覺任務中取得了顯著的成功。它們在圖像分類、目标檢測或語義分割等各種任務中表現最佳。

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

圖1: 這張圖說明并簡化了在深度學習訓練中使用未标記資料的好處。紅色和深藍色的圓圈表示不同類的标記資料點。淺灰色的圓圈表示未标記的資料點。如果我們隻有少量的标記資料可用,我們隻能對潛在的真實分布(黑線)做出假設(虛線)。隻有同時考慮未标記的資料點并明确決策邊界,才能确定這種真實分布。

深度神經網絡的品質受到标記/監督圖像數量的強烈影響。ImageNet[26]是一個巨大的标記資料集,它允許訓練具有令人印象深刻的性能的網絡。最近的研究表明,即使比ImageNet更大的資料集也可以改善這些結果。但是,在許多實際的應用程式中,不可能建立包含數百萬張圖像的标記資料集。處理這個問題的一個常見政策是遷移學習。這種政策甚至可以在小型和專門的資料集(如醫學成像[40])上改進結果。雖然這對于某些應用程式來說可能是一個實際的解決方案,但基本問題仍然存在: 與人類不同,監督學習需要大量的标記資料。

對于給定的問題,我們通常可以通路大量未标記的資料集。Xie等人是最早研究無監督深度學習政策來利用這些資料[45]的人之一。從那時起,未标記資料的使用被以多種方式研究,并創造了研究領域,如半監督、自我監督、弱監督或度量學習[23]。統一這些方法的想法是,在訓練過程中使用未标記的資料是有益的(參見圖1中的說明)。它要麼使很少有标簽的訓練更加健壯,要麼在某些不常見的情況下甚至超過了監督情況下的性能[21]。

由于這一優勢,許多研究人員和公司在半監督、自我監督和非監督學習領域工作。其主要目标是縮小半監督學習和監督學習之間的差距,甚至超越這些結果。考慮到現有的方法如[49,46],我們認為研究處于實作這一目标的轉折點。是以,在這個領域有很多正在進行的研究。這項綜述提供了一個概述,以跟蹤最新的在半監督,自監督和非監督學習的方法。

大多數綜述的研究主題在目标、應用上下文和實作細節方面存在差異,但它們共享各種相同的思想。這項調查對這一廣泛的研究課題進行了概述。這次調查的重點是描述這兩種方法的異同。此外,我們還将研究不同技術的組合。

2. 圖像分類技術

在這一節中,我們總結了關于半監督、自監督和非監督學習的一般概念。我們通過自己對某些術語的定義和解釋來擴充這一總結。重點在于區分可能的學習政策和最常見的實作政策的方法。在整個綜述中,我們使用術語學習政策,技術和方法在一個特定的意義。學習政策是算法的一般類型/方法。我們把論文方法中提出的每個算法都稱為獨立算法。方法可以分為學習政策和技術。技術是組成方法/算法的部分或思想。

2.1 分類方法

監督、半監督和自我監督等術語在文獻中經常使用。很少有人給出明确的定義來區分這兩個術語。在大多數情況下,一個粗略的普遍共識的意義是充分的,但我們注意到,在邊界情況下的定義是多種多樣的。為了比較不同的方法,我們需要一個精确的定義來區分它們。我們将總結關于學習政策的共識,并定義我們如何看待某些邊緣案例。一般來說,我們根據使用的标記資料的數量和訓練過程監督的哪個階段來區分方法。綜上所述,我們把半監督政策、自我學習政策和無監督學習政策稱為reduced減約監督學習政策。圖2展示了四種深度學習政策。

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

圖2: 插圖的四個深學習政策——紅色和深藍色的圓圈表示标記資料點不同的類。淺灰色的圓圈表示未标記的資料點。黑線定義了類之間的基本決策邊界。帶條紋的圓圈表示在訓練過程的不同階段忽略和使用标簽資訊的資料點。

監督學習 Supervised Learning

監督學習是深度神經網絡圖像分類中最常用的方法。我們有一組圖像X和對應的标簽或類z。設C為類别數,f(X)為X∈X的某個神經網絡的輸出,目标是使輸出與标簽之間的損失函數最小化。測量f(x)和相應的z之間的差的一個常用的損失函數是交叉熵。

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

遷移學習

監督學習的一個限制因素是标簽的可用性。建立這些标簽可能很昂貴,是以限制了它們的數量。克服這一局限的一個方法是使用遷移學習。

遷移學習描述了訓練神經網絡的兩個階段的過程。第一個階段是在大型通用資料集(如ImageNet[26])上進行有無監督的訓練。第二步是使用經過訓練的權重并對目标資料集進行微調。大量的文獻表明,即使在小的領域特定資料集[40]上,遷移學習也能改善和穩定訓練。

半監督學習

半監督學習是無監督學習和監督學習的混合.

Self-supervised 自監督學習

自監督使用一個借托pretext任務來學習未标記資料的表示。借托pretext任務是無監督的,但學習表征往往不能直接用于圖像分類,必須進行微調。是以,自監督學習可以被解釋為一種無監督的、半監督的或其自身的一種政策。我們将自我監督學習視為一種特殊的學習政策。在下面,我們将解釋我們是如何得出這個結論的。如果在微調期間需要使用任何标簽,則不能将該政策稱為無監督的。這與半監督方法也有明顯的差別。标簽不能與未标記的資料同時使用,因為借托pretext任務是無監督的,隻有微調才使用标簽。對我們來說,将标記資料的使用分離成兩個不同的子任務本身就是一種政策的特征。

2.2 分類技術集合

在減少監督的情況下,可以使用不同的技術來訓練模型。在本節中,我們将介紹一些在文獻中多種方法中使用的技術。

一緻性正則化 Consistency regularization

一個主要的研究方向是一緻性正則化。在半監督學習過程中,這些正則化被用作資料非監督部分的監督損失的附加損失。這種限制導緻了改進的結果,因為在定義決策邊界時可以考慮未标記的資料[42,28,49]。一些自監督或無監督的方法甚至更進一步,在訓練中隻使用這種一緻性正則化[21,2]。

虛拟對抗性訓練(VAT)

VAT[34]試圖通過最小化圖像與轉換後的圖像之間的距離,使預測不受小轉換的影響。

互資訊(MI)

MI定義為聯合分布和邊緣分布[8]之間的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通過最小化熵[15]來提高半監督學習的輸出預測。

Overclustering

過度聚類在減少監督的情況下是有益的,因為神經網絡可以自行決定如何分割資料。這種分離在有噪聲的資料中或在中間類被随機分為相鄰類的情況下是有用的。

Pseudo-Labels

一種估計未知資料标簽的簡單方法是僞标簽

3.  圖像分類模型

3.1 半監督學習

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

 四種選擇的半監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的藍色方框中給出。在右側提供了該方法的說明。一般來說,這個過程是自上而下組織的。首先,輸入圖像經過無或兩個不同的随機變換預處理。自動增廣[9]是一種特殊的增廣技術。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的,但是共享公共部分。所有的方法都使用了标記和預測分布之間的交叉熵(CE)。所有的方法還使用了不同預測輸出分布(Pf(x), Pf(y))之間的一緻性正則化。

3.2 自監督學習

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

四種選擇的自我監督方法的圖解——使用的方法在每張圖像下面給出。輸入在左邊的紅色方框中給出。在右側提供了該方法的說明。微調部分不包括在内。一般來說,這個過程是自上而下組織的。首先,對輸入圖像進行一兩次随機變換預處理或分割。下面的神經網絡使用這些預處理圖像(x, y)作為輸入。損失的計算(虛線)對于每種方法都是不同的。AMDIM和CPC使用網絡的内部元素來計算損失。DeepCluster和IIC使用預測的輸出分布(Pf(x)、Pf(y))來計算損耗

3.3 21種圖像分類方法比較

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

21種圖像分類方法及其使用技術的概述——在左側,第3節中回顧的方法按學習政策排序。第一行列出了在2.2小節中讨論過的可能的技術。根據是否可以使用帶标簽的資料,将這些技術分為無監督技術和有監督技術。技術的縮寫也在第2.2小節中給出。交叉熵(Cross-entropy, CE)将CE的使用描述為訓練損失的一部分。微調(FT)描述了交叉熵在初始訓練後(例如在一個借口任務中)對新标簽的使用。(X)指該技術不是直接使用,而是間接使用。個别的解釋由所訓示的數字給出。1 - MixMatch通過銳化預測[3],隐式地實作了熵最小化。2 - UDA預測用于過濾無監督資料的僞标簽。3 -盡量減少互相資訊的目的作為借口任務,例如視圖之間的[2]或層之間的[17]。4 -資訊的丢失使互相資訊間接[43]最大化。5 - Deep Cluster使用K-Means計算僞标簽,以優化配置設定為借口任務。6 - DAC使用元素之間的餘弦距離來估計相似和不相似的項。可以說DAC為相似性問題建立了僞标簽。

4. 實驗比較結果

圖像分類綜述—A survey on Semi-, Self- and Unsupervsed Techniques in Imag

報告準确度的概述——第一列說明使用的方法。對于監督基線,我們使用了最好的報告結果,作為其他方法的基線。原始論文在準确度後的括号内。第二列給出了體系結構及其參考。第三列是預印本的出版年份或發行年份。最後四列報告了各自資料集的最高準确度分數%。

5 結論

在本文中,我們概述了半監督、自監督和非監督技術。我們用21種不同的方法分析了它們的異同群組合。這項分析确定了幾個趨勢和可能的研究領域。

我們分析了不同學習政策(半監督學習政策、自監督學習政策和無監督學習政策)的定義,以及這些學習政策中的常用技術。我們展示了這些方法一般是如何工作的,它們使用哪些技術,以及它們可以被歸類為哪種政策。盡管由于不同的體系結構和實作而難以比較這些方法的性能,但我們确定了三個主要趨勢。

ILSVRC-2012的前5名正确率超過90%,隻有10%的标簽表明半監督方法适用于現實問題。然而,像類别不平衡這樣的問題并沒有被考慮。未來的研究必須解決這些問題。

監督和半監督或自監督方法之間的性能差距正在縮小。有一個資料集甚至超過了30%。獲得可與全監督學習相比的結果的标簽數量正在減少。未來的研究可以進一步減少所需标簽的數量。我們注意到,随着時間的推移,非監督方法的使用越來越少。這兩個結論使我們認為,無監督方法在未來的現實世界中對圖像分類将失去意義。

我們的結論是,半監督和自監督學習政策主要使用一套不同的技術。通常,這兩種政策都使用不同技術的組合,但是這些技術中很少有重疊。S4L是目前提出的唯一一種消除這種分離的方法。我們确定了不同技術的組合有利于整體性能的趨勢。結合技術之間的微小重疊,我們确定了未來可能的研究機會。

參考文獻:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.