
深度學習在計算機視覺方面展現出非常大的進步,其代價是大規模的标注資料集。資料标注是耗時的,需要人工和雇傭成本。在許多領域,資料标注更具挑戰性,如醫學成像領域。此外,在優化深層神經網絡架構時,資料的代表性存在差距。為了克服這些問題,主動學習已被成功地用于有效地選擇最有意義的樣本。
大多數前人的研究将抽樣方法和學習者結合在一起。這将模型限制為特定類型的任務。與這些工作不同的是,本論文提出了一種新的通用序列圖卷積網絡(GCN)主動學習訓練方法。該方法分别訓練學習者和抽樣方法,是任務無關的。
圖卷積網絡是一種強大的工具,通過在鄰近節點之間執行消息傳遞操作來誘導節點的高階表示。本論文目标是利用GCN來丢棄多餘的未标注樣例,以得到有效的标注。為此,本論文将所有可用的資料用圖表表示出來。每個節點表示圖像描述,而邊則表示圖像的相似度。一開始,随機選擇幾個例子進行标注。這些帶标注的執行個體作為種子,将帶标注的資料資訊傳播到鄰近的節點,并識别出類似于未帶标注的執行個體。然後,學習圖的參數以最小化二叉熵損失來識别有标注和無标注的樣本。采用不确定性抽樣的方法,根據置信度對樣本進行分類,并對樣本進行子樣本标注。将最新的标注執行個體的标簽從無标簽更新為有标簽,并訓練圖,優化圖的參數,使修改的目标最小化。進而能夠識别多餘的未标注的資料流。在四個公開可用的圖像分類基準上評估了該方法。實驗證明優于幾個具有競争力的基準以及現有的方法。