天天看點

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

作者|侯超群(初類)

編輯|橙子君

出品|阿裡巴巴新零售淘系技術

前言:

在大資料和算力的助力下,深度學習掀起了一波浪潮,在許多領域取得了顯著的成績。以監督學習為主的深度學習方法,往往期望能夠擁有大量的标注樣本進行訓練,模型能夠學到更多有價值的知識(如下左圖展示了3組常見的圖像分類資料集,擁有上萬的标注樣本)。然而,實際應用場景的标注樣本嚴重稀缺。并且,标注大量樣本将産生昂貴的标注成本(如下右圖所示,标注一張X射線圖需要5分鐘和30元左右的成本,一張CT圖需要20分鐘和70元的成本)。在龐大而複雜的淘系電商場景中,類似的需求比比皆是:例如,鹹魚&躺平和洋淘等社群内容的治理,拍立淘的以圖搜圖,服飾分類(例如,iFashion)等場景都存在标注樣本嚴重稀缺的問題。綜上,在實際應用場景中,如何“在模型達到目标性能的前提下,盡可能地減少标注成本”是一項亟需解決的挑戰。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

主動學習作為機器學習的一個子領域,旨在以盡可能少的标注樣本達到模型的目标性能,廣泛應用于實際需求中。本文的定位是主動學習方法的入門篇,主要介紹的内容包括:1)詳細地介紹主動學習的基礎知識;2)簡要地介紹主動學習在學術界的研究現狀;3)主動學習實踐部分将簡單介紹幾個圖像分類的案例;4)文末将給出本文的參考文獻和相關資料。

主動學習的基本知識

主動學習的概念和基本流程

主動學習是什麼:Burr Settles[1] 的文章《Active Learning Literature Survey》詳細地介紹了主動學習:“主動學習是機器學習的一個子領域,在統計學領域也叫查詢學習或最優實驗設計”。主動學習方法嘗試解決樣本的标注瓶頸,通過主動優先選擇最有價值的未标注樣本進行标注,以盡可能少的标注樣本達到模型的預期性能。

1.1.2、主動學習的基本流程:如下圖所示,主動學習方法是一個疊代式的互動訓練過程,主要由五個核心部分組成,包括:未标注樣本池(unlabeled pool,記為U)、篩選政策(select queries,記為Q)、相關領域的标注者(human annotator,記為S),标注資料集(labeled training set,記為L),目标模型(machine learning model,記為G)。主動學習将上述五個部分組合到同一個流程中,并通過如下圖所示的順序,以不斷疊代的訓練方式更新模型性能、未标注樣本池和标注資料集,直到目标模型達到預設的性能或者不再提供标注資料為止。其中,在每次疊代過程中,已标注樣本的數量不斷增加,模型的性能也随之提升(理想情況)。在實際應用中,應盡可能保證标注者的準确率,緩解模型在訓練初期學偏(此處特指錯誤标注的樣本導緻)的情況。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

主動學習和被動學習、半監督學習的關系:

主動學習和被動學習:如下圖(a)所示,紅色實線表示理想情況下模型性能随着訓練标注樣本數量的增多而無限地提升。實際情況下往往是如下圖(b)的紅色實線所示,模型的性能不是随着标注資料量的增多而無限地提升。此外,每個模型都會有與之對應的瓶頸性能(peak performance),研究者通過增加訓練資料以及調參使之不斷逼近瓶頸性能。主動學習核心解決的問題正是如何使用盡可能少的标注資料達到模型的瓶頸性能,進而減少不必要的标注成本。如下圖(b)的藍色虛線所示,主動學習根據合适的政策篩選出最具有價值的樣本優先标注并給模型訓練,進而以更少的标注樣本達到模型的瓶頸性能。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

主動學習和半監督學習:在機器學習領域中,根據是否需要樣本的标簽資訊可分為“監督學習”和“無監督學習”。此外,同時利用未标注樣本和标注樣本進行機器學習的算法可進一步歸納為三類:半監督學習、直推式學習和主動學習 。文獻[21]簡要介紹了主動學習與半監督學習的異同點:“半監督學習和主動學習都是從未标記樣例中挑選部分價值量高的樣例标注後補充到已标記樣例集中來提高分類器精度,降低領域專家的工作量。但二者的學習方式不同:半監督學習一般不需要人工參與,是通過具有一定分類精度的基準分類器實作對未标注樣例的自動标注;而主動學習有别于半監督學習的特點之一就是需要将挑選出的高價值樣例進行人工準确标注。半監督學習通過用計算機進行自動或半自動标注代替人工标注,雖然有效降低了标注代價,但其标注結果依賴于用部分已标注樣例訓練出的基準分類器的分類精度,是以并不能保證标注結果完全正确。相比而言,主動學習挑選的樣本是人工标注,盡可能引入最少的錯誤類标”。值得一提的是,目前已有許多研究者嘗試将主動學習和半監督學習進行結合,并取得了不錯的效果(本文暫不詳細展開介紹,留給下一篇章)。

主動學習的基本政策

樣本的篩選政策直接關系到模型能夠節約标注成本的程度。例如,使用不确定性政策比随機采樣政策能夠節約更多的标注樣本[4,5] 。因為随機采樣政策既沒有利用到模型的預測資訊,也沒有利用到大量未标注樣本池的結構資訊,僅憑随機采樣決定優先标注的樣本。而不确定性政策通過與模型的預測資訊進行互動,優先篩選出相對目前模型最有價值的樣本。本節将圍繞部分經典的篩選政策展開讨論。

(1)随機采樣政策(Random Sampling,RS): RS 不需要跟模型的預測結果做任何互動,直接通過随機數從未标注樣本池篩選出一批樣本給專家标注,常作為主動學習算法中最基礎的對比實驗。

(2)不确定性政策(Uncertainty Strategy,US): US 假設最靠近分類超平面的樣本相對分類器具有較豐富的資訊量,根據目前模型對樣本的預測值篩選出最不确定的樣本。US 包含了一些基礎的衡量名額:1)最不确定名額(Least Confidence,LC)将預測機率的最大值的相反數作為樣本的不确定性分數。2)邊緣采樣(Margin Sampling,MS)認為距離分類超平面越近的樣本具有越高的不确定性,常與 SVM 結合并用于解決二分類任務,但在多分類任務上的表現不佳。3)多類别不确定采樣(Multi-Class Level Uncertainty,MCLU)是 MS 在多分類問題上的擴充,MCLU 選擇離分類界面最遠的兩個樣本,并将它們的距離內插補點作為評判标準。MCLU 能夠在混合類别區域中篩選出最不确信度的樣本,如式(2.3)所示。其中,xj 表示被選中的樣本,C 表示樣本 xi 所屬的類别集合,c+ 表示最大預測機率對應的類别,f (xi, c) 表示樣本 xi 到分類超平面的距離。4)熵值最大化(Maximize Entropy,ME)優先篩選具有更大熵值的樣本,熵值可以通過計算

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

得到,其中 pi 表示第 i 個類别的預測值。5)樣本最優次優類别(Best vs Second Best, BvSB)[79]主要是針對多分類問題的一種衡量名額,并且能夠緩解 ME 在多分類問題上效果不佳的情況。BvSB 隻考慮樣本預測值最大的兩個類别,忽略了其他預測類别的影響,進而在多分類問題上的效果更佳。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

(3)委員會投票(Query by Committee,QBC):QBC[31]是一種基于版本空間縮減的采樣政策,核心思想是優先選擇能夠最大程度縮減版本空間的未标記樣本。QBC 包括兩個基本步驟:1)使用多個模型構成委員會;2)委員會中所有的模型依次對未标注樣本進行預測并優先篩選出投票最不一緻的樣本進行标注。由于 QBC 在實際應用的過程中需要訓練若幹個模型,導緻具有較高的計算複雜度。基于此,熵值裝袋算法(Entropy Query-By-Bagging,EQB)[80]和自适應不一緻最大化(Adaptive Maximize Disagree,AMD)被提出并緩解了計算複雜度問題。其中,EQB 同時引入了 bagging 繼承方法以及 bootstrap 采樣;AMD 主要針對高維資料,将特征空間劃分為一定數量的子集并構造委員會。

(4)其他經典的政策:梯度長度期望(Expected Gradient Length,EGL) 政策根據未标注樣本對目前模型的影響程度優先篩選出對模型影響最大的樣本;EGL [4] 是代表性方法之一,能夠應用在任意基于梯度下降方法的模型中。方差最小(Variance Reduction,VR)政策通過減少輸出方差能夠降低模型的泛化誤差[81,82];Ji 等[82]提出了一種基于圖的 VR 衡量名額的主動學習方法,通過将所有未标注樣本建構在同一個圖中,每個樣本分布在圖中每個結點上。緊接着,通過調和高斯随機場分類器直接預測未标注樣本所屬的标簽;在優化的過程中,通過挑選一組未标注樣本進行預測并獲得對應的預測類别,使得未标注樣本的預測類别方差最小。

主動學習的擴充方法

近年來,主動學習政策在很多實際應用場景中取得顯著的效果。但同時也存在一些亟需解決的挑戰。例如,不确定性政策隻關注樣本的不确定性,在BMAL(批量式主動學習方法,每次疊代篩選出N>1的樣本數量)場景下會産生大量具有備援資訊的樣本。是以,僅使用單一的政策尚未能最大程度地節約标注成本。本節将圍繞本文的核心工作簡要地介紹幾種主動學習的擴充方法。

(1)組合多種基本政策的主動學習方法:組合政策将多個基本政策以互補的方式進行融合,廣泛應用于圖像分類任務中[36,37,38,83]。其中,Li 等[36]基于機率分類模型提出一種自适應的組合政策架構。Li 等[36]通過資訊密度名額(Information Density Measure)将未标注樣本的資訊考慮在内,彌補了不确定性政策的不足。如算法 2-2所示,該算法能夠自然地擴充到更多的組合政策。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

(2)結合半監督學習(Semi-Supervised Learning)的主動學習方法:自訓練(Self-training)算法作為半監督學習的一種基礎方法,其核心步驟如算法2-3所示。由于自訓練算法在訓練過程中會根據模型的預測資訊,挑選合适的樣本及其對應的預測标簽加入訓練集,而且初始化少量的标注樣本能夠保證模型的初始性能,是以初始化訓練環節對其後續的學習過程至關重要。半監督學習算法需要解決的挑戰之一是:在訓練的過程中容易引入大量的噪聲樣本,導緻模型學習不到正确的資訊。部分研究員們通過建構多個分類器的協同訓練算法緩解噪聲樣本,如Co-Training[84] 和 Tri-Training[85]。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

(3)結合生成對抗網絡的主動學習方法:生成對抗網絡(Generative Adversarial Networks,GAN)模型以無監督的訓練方式對大量未标注樣本進行訓練,并通過生成器産生新的樣本。經典的 GAN[15] 主要包括生成器和判别器等兩個核心部分,兩者以互相博弈的方式進行對抗訓練,直到兩者達到一個動态均衡的狀态。GAN 的目标函數如式(2.4)所示,其中,V(G,D)=Ex∼Pdata [logD(x)]+Ex∼PG [log(1−D(x))] 表示資料真實分布 x ∼ Pdata 與生成模型得到的分布 x ∼ PG 之間的差異。文獻[19,50]将生成器和主動學習政策進行融合并建構目标函數,通過解決優化問題控制生成器産生的樣本。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

主動學習方法的基本評價名額

本文側重介紹主動學習方法在保證不損失模型準确率的情況下,節約标注成本的性能,評價名額如下式所示。其中,SavedRate 表示主動學習方法相對于全樣本訓練減少的标注成本;ExpertAnnotated 表示當模型達到預定的目标性能時專家标注的樣本數量;Full Samples 表示目前資料集提供的未标注樣本數量,即全樣本訓練時所使用的标注樣本數量。本文涉及的實驗會先進行全樣本訓練,并分别記錄最佳驗證集準确率作為主動學習相關算法的目标準确率。例如,在某組資料集中使用 AlexNet 模型對Full Samples張标注圖像進行訓練,記錄訓練過程中最佳的驗證準确率(Best accuracy)并将其作為主動學習的目标準确率(Target accuracy);随後,模型通過疊代過程不斷提升性能,當達到目标準确率時,記錄專家所标注的樣本數量 ExpertAnnotated;此時,就可以算出SavedRate 的值,即該方法能夠節約多少标注成本。此外,我們也會将主動學習方法與一些常見的方法進行比較,比如 RS 政策常用于基準對比實驗(baseline)。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

早期的主動學習面臨的挑戰及其解決方案

多類分類問題:在處理多類分類問題時,基于 Margin Sampling 的樣例選擇标準忽略了樣例可能屬于其他類别的資訊,是以所選樣例品質較差。基于熵的方法“基于不确定性的主動學習算法研究(2011)”雖考慮了樣例從屬于每個類别的機率,但在多類分類問題中,樣例的熵也會受到那些不重要類别的幹擾。文獻“Multi-class active learning for image classification(2009)”提出了基于最優标号和次優标号的準則(BvSB),考慮樣例所屬機率最高的前2個類别,忽略剩餘類别對樣例選擇标準産生的幹擾。文獻“基于主動學習和半監督學習的多類圖像分類(2011)”将BvSB和帶限制的自學習(Constrained self-training,CST)引入到基于SVM的圖像分類中,顯著提高了分類精度。

樣本中的孤立點:若選擇樣例時能綜合考慮樣其代表性和不确定性,通常可避免采集到孤立點。文獻“Active Learning by querying informative and representative examples(2010)”中提出了一種綜合利用聚類資訊和分類間隔的樣例選擇方法;文獻“Active Learning using a Variational Dirichlet Processing model for pre-clustering and classification of underwater stereo imagery(2011)”提出了一種利用預聚類協助選擇代表性樣例的主動學習方法;文獻“Dual strategy active learning(2007)”利用樣例的不确定性及其先驗分布密度進行樣例選擇以擷取優質樣例;文獻“基于樣本不确定性和代表性相結合的可控主動學習算法研究 (2009)”将樣例的分布密度作為度量樣例代表性的名額,結合以熵作為不确定性名額,提出了一種基于密度熵的樣例選擇政策,有效解決了孤立點問題給樣例選擇品質造成的影響。

訓練集樣本備援:如下圖所示,藍色圓圈所表示的新訓練樣本中,樣例1與分類超平面的距離比樣例2近,根據 BvSB 準則應當挑選樣例1進行标注并補充到訓練集中;但緊挨着樣例1的綠色樣例 a 已經在訓練集中,此時若再加入樣例1則對分類界面影響甚微。相比而言,将樣例2補充到訓練集中,對目前分類模型的訓練貢獻度更大。通過上述分析可知,主動學習中的樣例選擇度量主要分為2種:1)不确定性度量;2)差異性度量或代表性度量。樣例的不确定性一般可通過計算其資訊熵獲得,樣例的代表性通常可根據其是否在聚類中心判斷,而樣例的差異性則可通過計算餘弦相似度(基于采樣政策的主動學習算法研究進展,2012)或用高斯核函數(基于多特征融合的中文評論情感分類算法,2015)獲得。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

不平衡資料集:文獻“一種新的SVM主動學習算法及其在障礙物檢測中的應用(2009)”提出 KSVMactive 主動學習算法;文獻“基于主動學習的權重支援向量機的分類(2009)”提出了改進的權重支援向量機模型;文獻“基于專家委員會的主動學習算法研究(2010)”提出了基于SVM超平面位置校正的主動學習算法。

主動學習的研究現狀

本節将圍繞如下要點對主動學習方法的研究現狀展開讨論,包括:1)基于未标注樣本池的主動學習政策;2)批量式主動學習方法,側重于組合式政策以及引入聚類算法的主動學習方法;3)半監督主動學習方法;4)結合生成對抗網絡的主動學習方法。此外,主動學習方法在近幾年的進展不僅局限于上述歸類的方法,本節将其總結在“其他主流的主動學習方法”(本文涉及的參考文獻,都可以通過文末的參考文獻提供的連結中擷取)。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

(1)主動學習方法概述:主動學習作為機器學習的一個子領域,核心思想是通過一些啟發式政策找到相對最具有“價值”的訓練樣本,使得模型能夠以盡可能少的标注樣本達到甚至超過預期的效果。主動學習的概念是Simon[23]在1974年提出。随後,主動學習方法在許多領域中層出不窮,并進一步被歸納為生成式成員查詢(Membership Query Synthesis)、流式主動學習方法(Stream-Based Selective Sampling)和基于未标注樣本池的主動學習方法(Pool-Based Sampling)等經典的場景[4]。Angluin等[24]于1988年提出了生成式成員查詢場景,模型通過預設的條件控制生成新的樣本并向标注專家詢問标簽;由于當時生成模型的能力有限,并且無法較好的控制生成所需的樣本,是以這類方法的應用範圍未被推廣。Atlas等[25]在1990提出了基于資料流的方法,模型按照順序依次判斷是否需要對樣本進行标記。由于基于資料流的方法不需要将所有樣本統一放在池中,是以适用于存儲空間較小以及處理能力有限的情況(如,應用到移動裝置),但存在最大的缺陷是無法擷取樣本的結構分布。相較之下,基于未标注樣本池的主動學習方法[26]将大量未标注樣本構成未标注樣本池,通過設計樣本篩選政策從未标注樣本池中篩選出最有“價值”的樣本優先進行标注。此外,伴随着網際網路的熱潮以及資料采集技術的不斷提升,很多領域能夠以廉價的成本擷取大量的未标注資料。是以,基于未标注樣本池的主動學習方法最流行并且廣泛應用于不同的領域中,在機器學習和資料挖掘的應用中處于非常重要的地位。

(2)基于未标注樣本池的主動學習方法:樣本篩選政策的品質直接影響到基于未标注樣本池的主動學習方法的效果。目前,一些手工設計政策不斷被提出并應用到主動學習方法中,如不确定性政策和代表性政策。文獻[27,28]通過計算資訊熵(entropy)表示最不确定的樣本。文獻[12,29,30]使用SVM作為目标分類器,通過選擇距離支援向量最近的樣本作為最不确定的樣本。Seung等[31]首次提出了基于委員會的篩選算法(Query-by-Committee,QBC),首先訓練了一組分類器組成委員會。緊接着,以委員投票的方式決定篩選哪個樣本作為最不确定的樣本。随後,一些基于QBC的改進方法不斷被提出:例如,Breiman等[32]基于Bagging提出的Query-by-Bagging(QBBAG)以及Mamitsuka等[33]基于Boosting提出的Query-by-Boosting(QBB)。對于樣本的代表性政策,文獻[34,35]通過使用未标注樣本的先驗密度(PriorDensity)作為不确定性名額的權重,進而達到利用未标注樣本的目的。Settles等[28]提出一種相似的架構,使用cosine距離衡量資訊密度(InformationDensity)。

(3)批量式主動學習(BatchModeActiveLearning,BMAL)方法:目前,大多數主動學習方法存在一個共同的問題:串行地篩選樣本,即每次疊代選擇一個樣本進行标注,這種方式非常低效且無法滿足大多數實際需求。在實際應用中,往往需要以分布式的形式并行處理,多名标注專家同時在不同的環境下标注樣本。BMAL旨在每次疊代中能夠産生一批未标注樣本,同時提供給多名标注者,進而極大地提升了應用效率。BMAL的發展曆程中,起初,有研究嘗試将很多不同的預測模型應用到不同的政策中。但他們在篩選樣本時,隻使用了單一的不确定性名額或者多樣性名額的主動選擇政策,導緻所挑選的樣本中存在大量的備援資訊,進而造成了額外的标注成本。基于此,Li等[36]提出一種新穎的自适應組合式的樣本篩選政策,将不确定性政策和資訊密度名額進行結合。在每次疊代中,通過自适應地調整兩種政策的權重,進而選擇最具有“價值”的樣本給專家标注,并在三組圖像分類資料集上驗證了所提出方法的有效性。Gu等[37]提出了一種面向多分類的BMAL,通過組合不确定性政策和多樣性政策,并在兩組圖像分類的資料集上進行驗證,實驗結果表明該方法能夠挑選出同時滿足最不确定性和最具多樣性的樣本。Zhou等[38]通過組合不确定性名額和多樣性名額,同時引入了遷移學習和資料增強等技術,提出了AIFT方法并将其應用到醫療圖像領域,驗證了該方法至少能夠減少一半的标注成本。Cardoso等[39]在傳統BMAL的基礎上提出了一種排序批量式主動學習方法(RBMAL),通過生成一個優化過的排序表決定樣本被标注的優先級。RBMAL避免了标注專家頻繁等待被選中的未标注樣本,實驗結果表明RBMAL能夠在保證甚至提升模型性能的條件下顯著地減少标注成本。此外,為了更加充分利用大量未标注樣本的資訊,有研究員[40,41,42]嘗試将聚類算法引入主動學習中。然而,目前大多數聚類方法都是先通過手工提取特征再聚類,在很大一定程度上局限于特征的品質。我們嘗試将卷積自編碼聚類算法[43]應用到BMAL中,通過将特征提取和聚類算法以端到端的形式整合到同一個模型裡(本文暫不展開介紹)。進而既能夠提升聚類性能,又能夠利用卷積神經網絡的優勢處理更複雜的圖像。

(4)半監督主動學習方法:半監督學習能夠在少量标注成本的情況下訓練模型,通過挑選出預測結果較明确的樣本并由模型直接給标簽,但是容易産生噪聲标簽。而主動學習則是挑選預測結果最不确定的樣本給專家标注,能夠保證标簽品質。是以,半監督學習方法和主動學習方法的結合能夠在一定程度上互補優缺。1998年,McCallumzy等[44]首次組合了QBC和期望最大化(EM)算法,使用樸素貝葉斯方法作為分類器并在文本分類任務上進行實驗。随後,Muslea等[45]提出了一種QBC的改進方法,聯合測試方法(Co-Testing),通過分别在不同視角訓練的兩個分類器共同篩選樣本給專家标注,并将其與聯合期望最大化(Co-EM)算法結合。Zhou等[46]嘗試将Co-Testing和Co-Training方法進行結合并在圖像檢索任務中驗證了算法的優勢。此外,文獻[47,48,49]組合了不确定性政策和自學習方法(Self-Training)。上述方法将半監督學習和主動學習巧妙地結合,充分利用各自的優勢并彌補不足,取得了顯著的成績。然而,目前的半監督主動學習方法尚未對噪聲樣本進行有效地處理,是以仍會對模型造成不小的影響。

(5)結合生成對抗網絡的主動學習方法:GANs對提升主動學習方法的樣本篩選效率具有重要的意義。文獻[19,50]将主動學習政策結合生成器建構目标函數,通過解決優化問題使得生成器直接生成目标樣本,提升了篩選樣本的效率。Huijser等[20]首先使用GAN沿着與目前分類器決策邊界垂直的方向生成一批樣本。緊接着,通過可視化從生成的樣本中找出類别發生改變的位置,并将其加入待标注樣本集。最後,通過大量的圖像分類實驗驗證了該方法的有效性。此外,除了圖像分類任務以外,主動學習方法與GAN的結合也廣泛應用到其他領域中,例如離群點檢測[21]。

(6)其他主流的主動學習方法:Huang等[51]提出一種針對深度神經網絡的主動學習方法,能夠用更少的标記樣本将預訓練好的深度模型遷移到不同的任務上,進而降低深度神經網絡的學習代價。Huang等[52]提出一種結合主動學習和矩陣補全技術的方法,能夠在特征缺失嚴重的情況下有效利用标記資訊,節省特征提取代價。Chu等[53]認為應用在不同資料集上的主動學習政策存在有效的經驗,并且這些經驗可以被遷移到其他資料集中進而提升模型或者政策的性能。作者嘗試将模型遷移到不同的資料集中,實驗部分證明了目前大多數政策不僅存在有效的經驗,而且經驗能夠被遷移到不同的資料集中,并提升特征學習任務的性能。

(7)NAS + Active Learning:最後,值得一提的是,考慮到上述歸納的主動學習方法中,任務模型是根據先驗知識從現成的模型中篩選,即模型的網絡結構是固定的。存在如下缺陷:1)很多領域沒有現成的模型可用,例如醫療圖像領域;2)在前期的疊代過程中,标注樣本量較少,固定網絡結構(通常會比較複雜一點)的模型可能會陷入過拟合。如下圖所示,Geifman 等人首次嘗試将NAS應用到主動學習方法中,使得模型的網絡結構能夠自适應新增的标注資料。實驗結果表明,加入NAS後的主動學習方法的效率顯著地優于固定網絡結構的主動學習方法。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

主動學習實踐:牛刀小試

主動學習如何減少标注樣本的簡單案例

如下圖所示,文獻《Active Learning Literature Survey》提供了一個基于 pool-based的主動學習案例。其中,資料集(toy data)是從高斯分布産生的400個樣本,任務是2分類問題(每個類有200個樣本),如(a)圖所示将這些資料映射在2D特征空間上;圖(b)使用了邏輯回歸模型,通過訓練随機選擇的30個标注樣本,得到70%的驗證精度,藍色線表示決策邊界(decision boundary);圖(c)同樣使用邏輯回歸模型,但訓練的30個标注樣本是通過主動學習政策(uncertain strategy)選擇而來,達到90%的驗證精度。這個簡單的案例展現了引入主動學習政策所帶來的效果,使用30個标注樣本能夠提升20%的精度。值得注意的是,上述2分類的樣本分别200個,樣本資料非常平衡。但是在實際應用中,分類樣本資料比例往往不能達到1:1,相關領域的研究者正在嘗試解決這類問題。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

圖像分類資料集的實踐

如算法2-1所示給出了“基于為标注樣本池的主動學習方法”,本文也在第一部分詳細地介紹了主動學習的基本流程,此處不再贅述。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

本文分享的實踐部分,按照算法2-1分别對MNIST、Cifar-10和Dog-Cat三個資料集進行實驗(分類模型使用了AlexNet,深度學習架構使用了PyTorch)。如下表所示,在MNIST資料集的實驗中(train_num=55000, val_num = 10000):1)使用全部5.5萬的訓練資料直接訓練模型,在1萬個驗證集得到的準确率為98.99%;2)使用主動學習的不确定性政策(Uncertainty Strategy),隻需要5000張标注樣本,在相同的1萬個驗證集得到的準确率就達到99.14%。此外,将訓練好的模型對剩餘的50000(55000-5000)張樣本進行預測,得到99.70% 的效果。由此可見,僅僅使用不确定性政策在MNIST資料集上,就能夠顯著地減少大量的标注成本。

值得注意的是,表中所示的三組圖像分類資料集acc_left_active_samples 的準确率都很高。這部分樣本表示未被主動學習政策篩選中的樣本,即目前模型已經具備識别這部分樣本的能力。是以,當模型在訓練資料集下的準确率達到 99.4% 時,使用目前模型對 acc_left_active_samples 這部分樣本進行預測的精度也同樣在 99.378% 左右,甚至更高。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

問題1:主動學習為什麼有時還能提升分類模型的準确率?楊文柱等人發表的“主動學習算法研究進展”給出的解釋是:标注樣本可能存在低品質的樣本,會降低模型的魯棒性(模型過渡拟合噪聲點)。如何高效地篩選出具有高分類貢獻度的無類标樣例進行标注,并補充到已有訓練集中逐漸提高分類器精度與魯棒性是主動學習亟待解決的關鍵問題。

問題2:不确定性政策具體怎麼實作?重點關注每個樣本預測結果的最大機率值:p_pred_max。我們初步認為 p_pred_max>0.5 的情況表示目前模型對該樣本有個确定的分類結果(此處分類結果的正确與否不重要);反之,目前模型對該樣本的判斷結果模棱兩可,标記為hard sample;比如:模型進行第一次預測,得到10個機率值,取其最大的機率 p_pred_max; 對P(real lable) < p_threshold(此處的10分類任務取p_threshold=0.5)的樣本進行排序,取前N個樣本加入集合train_samples中;

淘系商品的二分類問題

背景:商品的單包裝和多包裝屬性影響着客戶對商品價格的認知。比如:有些多包裝屬性的标價較高,但實際單價可能已經很劃算了,而客戶誤将多包裝的價格認為是單價,導緻購買意向降低。是以區分出商品的包裝屬性對提高客戶購買意向和優化商品價格分布具有較大的實際意義。對于此問題,有多種不同的解決方案。其中,基于圖像的分類方法能夠直接的區分出商品的單/多包裝屬性。然而,監督學習需要大量的标注樣本,衆多品類将産生大量的标注需求,如何能夠顯著地減少标注代價也同樣具有重大的意義。是以,我們嘗試将主動學習方法應用圖像分類中,解決單包裝和多包裝的二分類問題。如下圖所示,我們分别對比了随機篩選政策和不确定政策。實驗結果表明,引入不确定性政策主動篩選樣本顯著地減少了标注成本。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

此外,我們嘗試了更加複雜的模型(DesNet121),提高模型學習能力的同時,也帶來了更多訓練時長的弊端。但總體的分類精度提升了3pt。同時,我們也分别在AlexNet和DenseNet121等模型上驗證了模型預訓練帶來的效率。

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

參考文獻

本文涉及的參考文獻較多,由于篇幅問題,參考文獻詳見:

https://blog.csdn.net/Houchaoqun_XMU/article/details/103094113 https://blog.csdn.net/Houchaoqun_XMU/article/details/96210160

關注「淘系技術」微信公衆号,一個有溫度有内容的技術社群~

主動學習入門篇:如何能夠顯著地減少标注代價前言:主動學習的基本知識主動學習的擴充方法主動學習的研究現狀主動學習實踐:牛刀小試參考文獻

繼續閱讀