天天看點

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

論文位址:https://arxiv.org/abs/1706.04737

發表于:MICCAI’17

Abstract

圖像分割是生物醫學圖像分析的一個基本問題。深度學習的最新進展在許多生物醫學圖像分割的基準上取得了可喜的成果。然而,由于生物醫學圖像的巨大變化(不同的模态、圖像設定、對象、噪聲等),要在一個新的應用上利用深度學習,通常需要一組新的訓練資料。這可能會産生大量的标注工作和成本,因為隻有生物醫學專家才能有效地進行标注,而圖像中往往有太多的執行個體(如細胞)需要進行标注。在本文中,我們的目标是解決以下問題:在有限的标注工作(如時間)下,應該對哪些執行個體進行标注,以達到最佳性能?我們提出了一個深度主動學習架構,該架構結合了全卷積網絡(FCN)和主動學習,通過對最有效的标注區域提出明智的建議,大大減少了标注工作。我們利用FCN提供的不确定性和相似性資訊,制定了一個廣義版本的最大集合覆寫問題,以确定最具代表性和不确定性的标注區域。使用2015年MICCAI腺體挑戰賽資料集和淋巴結超聲圖像分割資料集進行的廣泛實驗表明,使用我們方法的标注建議,隻需使用50%的訓練資料就可以達到最先進的分割性能。

I. Motivation

這種将主動學習應用于自定模型的motivation都差不多,均為解決資料集标注困難的問題;這裡額外提幾點将AL應用于分割網絡時所需要解決的問題:

  • 網絡應該是輕量的
  • 網絡的泛化性應足夠好,以供在較少訓練樣本的情況下也能學習

而為了解決這些問題,文中引入了batch norm,residual connection,bottleneck等網絡設計技巧。

II. Network Architecture

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

這個其實就是一個基本的AL架構。而對于其中的分割網絡,使用的是基礎的FCN:

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

III. Uncertainty estimation

本文不确定性估計是通過bootstrap算法實作的。這裡涉及到一個小技巧,如何去評估一個uncertainty estimation算法的效果——可以直接比較不确定性估計圖與實際測試誤差圖:

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

如果不确定性估計圖(b)與測試誤差圖©比較接近,那就說明不确定性估計的較為合适。

bootstrap算法的基本思想為,将訓練資料分為多個子集,然後訓練多個模型,每個模型分分别使用一個子集去訓練,最後統計某張樣本在不同模型上的預測結果差異即可。差異越大,可以從一定程度上證明該張圖像難以被預測。

IV. Similarity estimation

這裡相似度的做法類似于現在GAN中比較流行的VGG Loss,即将兩張圖像送入預訓練VGG網絡中,然後将輸出特征計算餘弦相似度。

從舉的例子上看這裡的相似度也比較準确,右側五張圖像與左側比較接近:

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

V. Annotation suggestion

這裡要分析的就是怎麼綜合利用uncertainty estimation、similarity estimation這兩個名額來選擇既不确定又有代表性的樣本的問題。形式化定義如下:

對于所有未标注的樣本集合 S u \mathcal{S}_{u} Su​,我們要在其中選擇 k k k張圖像,組成圖像集合 S a \mathcal{S}_{a} Sa​,這些圖像應該是既不确定又有代表性的。文中認為,不确定性比有代表性更加重要,是以就先選擇了 K ( K > k ) K(K>k) K(K>k)個不确定性分數最高的圖像,組成候選集 S c \mathcal{S}_{c} Sc​,然後我們再從中挑選最具代表性的,以組成 S a \mathcal{S}_{a} Sa​。摘要所述的"最大集合覆寫問題"指的就是從 S c \mathcal{S}_{c} Sc​中選取 S a \mathcal{S}_{a} Sa​的過程。不過這個東西其實本來就是個NP難問題…是以最後求解的時候還是用的貪心算法。

這個方法實際上可能有比較大的問題,在實驗階段,兩個annotation suggestion階段之間的耗時可能高達10分鐘。

VI. Experiment

[論文閱讀] Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

綠線表示SOTA,紅線表示本文方法,黑線表示随機選擇,藍線表示隻使用uncertainty estimation而不使用 similarity estimation。