天天看點

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

論文翻譯

論文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

摘要

本文我們使用深度學習的方法解決語義分割的相關問題,我們作了三個主要貢獻,并且都很有實用價值。首先,我們設計的空洞卷積非常适合稠密預測任務。借助空洞卷積(Atrous Convolution),我們可以有效控制輸出特征圖的分辨率。不僅如此,我們可以有效增大卷積核的感受野(field of view),并且不會增加參數量和計算量。其次,我們提出帶空洞的空間金字塔池化(ASPP)子產品,通過不同的采樣率(sampling rates)和有效的感受野,ASPP對輸入特征圖進行不同尺度的處理。最後,結合DCNN以及機率圖模型(CRF),對邊界進一步優化處理。正常的DCNN模型,連續的的池化和降采樣獲得不變性(invariance),對于定位精度是非常不合适的。我們通過對DCNN輸出進行CRF處理,可以得到比較精細的分割結果。我們提出的DeepLab系統在PASCAL2012上得到最好的分割結果,達到79.7%的平均IOU。

1 介紹

DCNN将計算機視覺系統的表現推向新的高度,尤其是在圖像分類和目标檢測領域。DCNN端到端的訓練方式明顯優于基于手工設計的特征。DCNN内在的不變性對于學習局部的圖像變換尤為成功,使得可以學習比較抽象、進階的特征。這種不變性非常适合分類任務,但是阻礙了語義分割任務,抽象的空間資訊是不需要的。

在語義分割任務中,DCNN面臨方面挑戰:(1)降低的特征圖分辨率;(2)目标對象是多尺度;(3)較差的定位精度(due to DCNN invariance)。下面我們介紹如何解決上述問題。

第一個問題:用于分類的DCNN中連續的 Max-Pooling and Downsampling(striding)導緻最終輸出特征圖的分辨率明顯降低。為了克服這個阻礙,并且高效的産生稠密的特征圖,我們将DCNN最後幾層的max-pool去掉(通常是将滑動降為1),并且使用卷積進行上采樣,保證特征圖的采樣率較高(rate值較高),指的是在非零的之間插入零值,也即是空洞卷積。該項技術廣泛應用于信号處理,常用于處理undecimated waelet transform。我們使用術語“atrous convolution”作為具有上采樣功能的卷積的簡稱。實際中,我們通過組合空洞卷積核,使得計算的特征圖更加密集,後面添加簡單的雙線性插值,最終得到原圖圖像大小。相比于反卷積層,這種操作簡單而且高效。與通常的具有更大的卷積核相比,空洞卷積可以增大感受野,并且不會增大計算參數。

第二個問題:實際情況下,目标通常是多尺度的,處理這種問題的标準方式是将圖檔進行不同尺度的縮放,然後将特征圖進行融合。我們實驗表明,這種方法确實有效果,但是引入過多的計算代價。受啟發于空間金字塔池化(SPP),我們将輸入特征圖層進行不同rate的采樣率。通過對原圖進行不同尺度的卷積核(具有不同的感受野),可以擷取到不同尺度的目标資訊。與重複利用重采樣特征不同的是,我們使用多個并行的空洞卷積層(with different sampling rate),我們稱這種子產品為ASPP。

第三個問題:分類問題傾向于DCNN空間不變性變換,但是限制了空間細節的精度。解決這種問題的一個辦法是添加skip-layers來提取不同層次的特征,在最後進行融合,并得到分割結果。不同的是,我們使用CRF得到更好的細節。CRFs廣泛應用于語義分割,将不同具有底層資訊進行融合。盡管不斷複雜的模型用于重建高層次的依賴,或者分割塊之間的依賴性。我們提出全連接配接的CRF進行有效的計算和細節的擷取,并且保持資訊空間上長距離的依賴性。結合DCNN和CRF,我們獲得較好的效果。

圖1展示了DeepLab系統的整個過程,我們将VGG16和ResNet-101遷移到語義分割中,方式如下:(1)将全連接配接層轉為卷積層;(2)通過空洞卷積提高特征圖分辨率,将原圖降低8倍,而不是32倍。然後使用雙線性插值得到原圖的分辨率,最後輸入到CRF得到最後的分割結果。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

從實際考慮,我們的主要優勢:(1)速度:空洞卷積使得速度很快;(2)精确度很高;

相比于DeepLab-V1,我們更新的DeepLab-V2系統有如下幾方面提高:(1)可以處理多尺度目标,使用多尺度輸入或者ASPP;(2)采用ResNet-101,比VGG-16更好;(3)代碼和模型:http://liangchiehchen.com/projects/DeepLab.html。

2 相關工作

前十幾年的,語義分割通常依賴手動設計的特征,并與分類器結合(比如Boosting,Random Forests,SVM等)。雖然采用了大量提取特征的方法,但是特征表達能力依然有限。随着深度學習在圖像分類領域的成功,很多學者将其遷移到語義分割的任務。因為這種任務既包括分類也包括分割,是以如何将兩者進行有效結合,是比較關注的問題。

此部分省略;

3 方法

3.1 基于atrus卷積的密集特征提取及視場放大

采用全卷積的網絡結構,DCNN成功應用于語義分割或者其它稠密預測的任務。但是,DCNN中重複的最大池化(max-pooling)以及滑動(stride)極大降低了輸出特征圖的分辨率,通常降低32倍。FCN使用反卷積層解決分辨率低的問題,但會引入額外的計算代價。

不同的是,我們采用空洞卷積(atrous convolution),它最初用于高效的小波變換(undecimated wavelet transform)。該算法使得在任意層得到期望的分辨率。它可以用于後續處理,一旦網絡訓練完成,我們可以将空洞卷積添加網絡中繼續進行訓練。

首先考慮一維的信号輸入,空洞卷積的輸入 x [ i ] x[i] x[i],輸出為 y [ i ] y[i] y[i],卷積核為 w k w_k wk​(一維卷積核的長度為 K K K)定義如下:

y [ i ] = ∑ k = 1 K x [ i + r ⋅ k ] w [ k ] . y[i] = \sum_{k=1}^{K}x[i+r\cdot k]w[k]. y[i]=k=1∑K​x[i+r⋅k]w[k].

采樣率為 r r r與滑動相關,标準卷積的 r = 1 r=1 r=1,見圖2。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖2:一維無規則卷積的示意圖。 (a)在低分辨率輸入特征圖上進行标準卷積的稀疏特征提取。 (b)在高分辨率輸入特征圖上應用具有速率r = 2的無規卷積的密集特征提取。

圖3給出了2D上的簡單例子。給定一張圖像,首先進行2倍的降采樣,然後執行7x7卷積操作。如果将輸出特征圖與原始圖像相比,我們隻是得到原圖像1/4的響應。如果采用空洞卷積對原圖進行卷積,并且上采樣因子為2,引入零值插入,那麼我們可以得到相對于原圖大小的響應值。盡管卷積核尺寸增大,我們隻需考慮卷積核非零值部分的值,那麼卷積核參數量和操作量保持不變。我們可以随意明确的控制特征圖響應的空間分辨率。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖3。二維無規卷積的示意圖。 第一行:在低分辨率輸入特征圖上使用标準卷積進行稀疏特征提取。 第二行:在高分辨率輸入特征圖上應用具有r = 2的無規卷積的密集特征提取。

在DCNN網絡結構中,可以在一系列層上連續使用空洞卷積,可以有效控制網絡在任意高分辨率的最終響應值。比如,為了将VGG-16和ResNet-101特征圖空間密度加倍,我們将pool5和conv5_1滑動距離設為1,然後替換後面的所有卷積為空洞卷積,rate=2。我們可以對所有層添加這種操作,但是會增加計算代價。我們采用兼顧精度和效率的方法,使用空洞卷積,将計算密度增加4倍,然後使用雙線性插值(使用8倍的上采樣),那麼特征圖就能恢複到原圖的大小。因為DCNN的輸出是很平滑的,是以插值操作是有效的,如圖5所示。不像FCN的反卷積操作,需要學習額外的參數。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖5:飛機的得分圖(在softmax函數之前輸入)和置信度圖(softmax函數的輸出)。 在每次平均場疊代之後,我們顯示得分(第一行)和置信度(第二行)圖。 最後一個DCNN層的輸出用作平均場推斷的輸入。

空洞卷積使得我們可以任意控制DCNN任何層的感受野。經典的DCNN網絡使用的是小的卷積核(3x3)。空洞卷積采樣率為r,則會引入 r − 1 r-1 r−1個零,有效增大了卷積核的尺寸為 k e = k + ( k − 1 ) ( r − 1 ) k_e = k+(k-1)(r-1) ke​=k+(k−1)(r−1),不會增加參數和計算代價。那麼這樣就可以有效的控制感受野,有助于尋找精确到定位和内容一緻性的平衡點。我們對這項技術作了充分的實驗:我們的DeepLab-LargeFOV在VGG-16的fc6層采用 r = 12 r=12 r=12的采樣率,并且獲得較好的結果。

從應用的方面考慮,可以從兩方面有效的使用空洞卷積。1、通過插入洞holes來上采樣卷積核,或者對輸入特征圖進行采樣。我們在早期的工作中使用這種操作,Caffe架構下添加im2col函數(it extracts vectorized patches from multichannel feature maps),該操作可以對特征圖進行稀疏采樣。2、使用與空洞采樣率相同的倍數,對輸入特征圖進行采樣,交錯的産生 r × r r×r r×r個降低分辨率的特征圖,總共産生 r × r r×r r×r個結果。然後對中間層層特征圖使用标準的卷積,并通過再插值的方法産生原圖大小的分割圖。通過将空洞卷積轉化為正常的卷積,我們可以使用現成的最優卷積操作。我們在tesnsorflow中使用第二種方法。

3.2 使用Atrous空間金字塔池的多尺度圖像表示

由于在不同的目标尺寸的資料集上訓練,DCNNs可以處理不同尺度的目标。明确的考慮目标尺度問題,可以有效處理大的目标和小的目标。

我們實驗過兩種處理不同的尺度目标的方法。1、标準的多尺度處理。我們提取不同尺度下原圖的訓練的DCNN網絡,他們共享參數。為了得到最終的結果,我們将并行的DCNN網絡特征圖進行插值,得到原圖大小的結果,選取最大值響應的方法進行融合。我們在訓練和測試中都進行這樣的操作。多尺度處理明顯增加網絡的表現。不同尺度的輸入增加網絡的計算代價。

2、第二個方式是受啟發于RCNN中的空間金字塔采樣,通過對單尺度目标進行不同程度的采樣可以有效的分類。我們對這種方法進行變化,使用多個并行的空洞卷積核,具有不同的采樣率,稱之為ASPP(DeepLab-ASPP)方法,見圖4:

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖4。Atrous空間池化金字塔(ASPP)。 為了對中心像素(橙色)進行分類,ASPP通過采用具有不同速率的多個并行濾波器來利用多尺度特征。 有效視野以不同顔色顯示。

3.3 精确邊界恢複的全連通條件随機場結構預測

參考DeepLab-V1中的翻譯部分。

4 實驗結果

我們對ImageNet上預訓練的VGG-16和ResNet-101網絡進行微調,使其能夠适應語義分割任務。與FCN一樣,将1000類分類器修改為21類分類器,也正是語義分割的類數。損失函數使用交叉熵,計算輸出特征圖每一個像素的交叉熵之和(标簽要進行8倍的降采樣),所有位置像素權重相等。我們的目标是真實标簽(8倍降采樣)。優化器為SGD。我們将DCNN和CRF分開訓練。

我們的評測資料集為:PASCAL 2012,PASCAL-Context,PASCAL-Person-Part,and Cityscapes。

4.1 PASCAL 2012

資料集:PASCAL 2012 包含20類前景類和1類背景。原始資料集包括分别包括1464,1449,1456張訓練集,驗證集和測試集。額外的标注資料集為10582張(trainaug)為訓練集。評測名額為IOU。

4.1.1 會議版本結果

首先采用ImageNet預訓練的VGG16網絡結構,mini-batch=20,初始學習率為0.001(0.01 for the final clasifier layer),每2000步學習率降10倍,momentum=0.9,weight decay=0.0005。當在trainaug上微調DCNN後,交叉驗證的方式學習CRF的參數。

視野和CRF:表1給出了不同感受野大小的DeepLab模型的變體,通過調整fc6層的卷積核的大小和采樣率 r。首先直接使用VGG-16,使用原始的7x7卷積核,r=4,(since we use no stride for the last two max-pooling layers)。經過CRF後,精确度為67.64%,但是速度很慢。将卷積核降為4x4,速度增加(參考表1)。我們實驗了兩種小的卷積核,并且FOV很大,見表1 的最後兩行。所有網絡将fc6和fc7最後的兩層卷積核數量從4096降為1024。最終,DeepLab-CRF-LargeFOV與直接對VGG-16的操作的效果相當(表一的第1和4行),速度是其3.36倍,參數更少(20.5MVS134.3M)。CRF可以使得準确率提高3%-5%。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表1:通過調整“ fc6”層的核心大小和粗采樣率r的視場效果。 我們顯示了CRF前後的模型參數數量,訓練速度(img / sec)和val設定平均IOU。 DeepLab-LargeFOV(核心大小3×3,r = 12)達到最佳平衡。

測試集評估:我們将DeepLab-CRF-LargeFOV模型在PASCAL VOC 2012官方測試集上測試,達到70.3%的平均IOU。

4.1.2 會議版本的這項工作後的改進

在DeepLab-v1的基礎上,我們對模型作了如下更新:(1)訓練階段,不同的學習率調整方式;(2)提出ASPP;(3)引入更深的網絡(ResNet-101)和多尺度處理。

學習率:在訓練DeepLab-LargeFOV的過程中,我們探索了不同的學習率政策,我們發現“poly”衰減方式優于“step”衰減方式,poly衰減: ( 1 − i t e r m a x i t e r p o w e r ) (1-\frac{iter}{max iter}^{power}) (1−maxiteriter​power)。表2所示,使用poly(power=0.9),使用同樣的batch size以及疊代次數,精度提升1.17%。固定batch size,提高訓練次數,精度再次提高1.48%,達到64.9%。但是,總的訓練時間增加了。當batch size=10,仍然能達到相近的精度(64.90%vs64.71%)。最後,我們固定batchsize=10,訓練20k步。令人驚訝的是,驗證集上精度達到65.88%(3.63% improvement over “step”),測試集達到67.7%。本文中,所有模型均采用poly學習率衰減。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表2:PASCAL VOC 2012評估結果(%)(在CRF之前,因為不同的學習超參數有所不同。訓練DeepLab-LargeFOV時,采用“多”學習政策比“逐漸”更有效)

空洞金字塔池:我們實驗了ASPP政策,如圖7所示,VGG-16中多個并行的fc6-fc7-fc8分支。他們都是用的3x3卷積核,但是fc6的 r 值不同。表3中,作如下設定:(1)基準模型LargeFOV,隻有一個分支, r = 12 r=12 r=12;(2)ASPP-S,有四個分支,具有更小的采樣率( r = { 2 , 4 , 8 , 12 } r=\{2,4,8,12\} r={2,4,8,12});(3)ASPP-L,四個分支,更大的采樣率( r = { 6 , 12 , 18 , 24 } r=\{6,12,18,24\} r={6,12,18,24});每個結果都給出是否使用CRF。如表中所示,ASPP-S在baseline的基礎上提升1.22%。但是,經過CRF處理後,兩者相當。我們在測試集上測試了ASPP-L+CRF,達到72.6%。圖像分割結果如圖8:

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖7。DeepLab-ASPP使用具有不同學習率的多個過濾器以多個比例捕獲對象和上下文。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表3:ASPP對基于VGG-16的DeepLab模型的PASCAL VOC 2012 val set性能(平均IOU)的影響。LargeFOV:單個分支, r = 12 r =12 r=12。ASPP-S:四個分支, r = { 2 , 4 , 8 , 12 } r=\{2,4,8,12\} r={2,4,8,12}。 ASPP-L:四個分支, r = { 6 , 12 , 18 , 24 } r=\{6,12,18,24\} r={6,12,18,24}。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖8:與基線LargeFOV模型相比,ASPP的定性分割結果。 使用多個大型FOV的ASPP-L模型可以成功捕獲多個尺度的對象以及圖像上下文。

更深層次的網絡和多尺度處理:我們将最近的ResNet-101網絡遷移到語義分割。與VGG-16類似,我們使用空洞卷積。在之前處理的基礎上,我們采用了其它的政策:(1)多尺度輸入:我們分開的将輸入圖檔縮放(scale=0.5,0.75,1)輸入到DCNN,然後将他們最終的輸出特征圖進行融合(同位置取最大值);(2)模型在MS-COCO上預訓練;(3)圖像增強:訓練過程中,随機對圖檔進行尺度縮放(from 0.5 to 1.5);表4中,我們在LargeFOV和ASPP模型之上分别評測了這些名額,顯然ResNet-101明顯優于VGG-16(eg our simplest ResNet-101達到68.72%,compared to 65.76% of our DeepLab-LargeFOV VGG-16 based variant, both before CRF)。多尺度融合提升2.55%,在MS-COCO上得到額外2.01%的提升。資料增強也是很有效的(提升1.6%)。采用LargeFOV(adding an atrous convolutional layer on top of ResNet, with kernel and rate=12)同樣是有效的。CRF後處理最好的模型,達到77.9%。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表4:在PASCAL VOC 2012 val set上為DeepLab使用ResNet-101。 MSC:采用具有最大融合的多尺度輸入。 COCO:在MS-COCO上進行預訓練的模型。 Aug:通過随機調整輸入比例來擴充資料。

定性結果:我們提供了CRF前後視覺上的對比結果(our best model variant),如圖6。沒有CRFDeepLab可以得到不錯的分割結果,使用CRF之後,可以得到更好的 結果。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖6:PASCAL VOC 2012 val結果 在CRF之前/之後輸入圖像和我們的DeepLab結果。

測試集結果:我們已經将最終最佳模型的結果送出給了官方伺服器,獲得了79.7%的測試集性能,如表5中所示。該模型的性能大大優于以前的DeepLab變體(例如,帶有VGG-16網的DeepLab-LargeFOV),并且目前是PASCAL VOC 2012細分排行榜上性能最高的方法。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表5:PASCAL VOC 2012測試集的性能。 我們在最近的arXiv論文的基礎上增加了一些結果官方排行榜結果。

VGG-16 VS. ResNet-101:實驗表明,基于ResNet-101的DeepLab能得到更好的分割結果。我們認為ResNet-101中的恒等映射具有更為好的特征,可以提取中間層的局部特征。沒有CRF的ResNet-101比采用CRF的VGG-16具有更好的結果。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖9:CRF前後基于VGG-16 net或ResNet-101的DeepLab結果。 CRF對于使用VGG-16沿物體邊界進行準确預測至關重要,而ResNet-101甚至在CRF之前就具有可接受的性能。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖10:(a)Trimap示例(左上:圖像;右上:ground-truth;左下:2像素的trimap;右下:10像素的trimap)。 (b)在CRF之前和之後使用VGG-16或ResNet-101時,像素均值IOU是圍繞對象邊界的帶寬的函數。

4.2 PASCAL-Context

資料集:PASCAL-Context資料集提供了整個場景下更為詳細的語義分割,包括目标(eg. person)和背景(eg. sky)。訓練最為常見的59類,以及一類背景。訓練集和驗證集分别為4998和5105張圖。

評估:表6給出了基于VGG-16的LaregeFOV的結果,到達37.6%和39.6%(是否使用CRF),其它的結果可以參考表格中的資料以及相應的處理政策。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表6:與PASCAL-Context資料集上的其他最新方法的比較。

定性結果:我們将帶或不帶CRF的最佳模型的分割結果可視化,如圖11中的後期處理所示。在CRF之前,DeepLab已經可以高精度地預測大多數object/stuff。 利用CRF,我們的模型能夠進一步消除孤立的誤報并改善沿object/stuff邊界的預測

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖11:PASCAL上下文結果。 在CRF之前/之後輸入圖像,ground-truth和我們的DeepLab結果。

4.3 PASCAL-Person-Part

資料集:我們在另一個資料集上進行訓練和測試,PASCAL VOC 2010,36标注的資料。我們關注人體分塊資料部分,包含更多的訓練資料和更大的尺度和人體姿态變化。特别的,該資料集包含每個人的分塊,比如眼睛,鼻子。我們合并分塊為,頭部,軀幹,上下胳膊和上下腿,最終産生6個人體分類以及一個背景類。我們僅使用包含人體的圖檔訓練(1716張圖)和驗證集(1817張圖檔)。

評估:人體分割結果見表7。Attention包含了VGG-16的實驗結果,達到56.39%。是以,這一部分,我們主要關注基于ResNet-101的DeepLab模型。單獨的DeepLab,達到58.9%,明顯高于Deep-LargeFOV(VGG-16 net)和DeepLab-Attention,大概7%和2.5%。其它結果可以參考表格。圖檔結果見圖12。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表7:與PASCAL-Person-Part資料集上的其他最新方法的比較

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖12:PASCAL-Person-Part結果。 在CRF之前/之後輸入圖像,ground-truth和我們的DeepLab結果。

4.4 Cityscapes

資料集:該資料集包含高品質的、像素集的标注資料,數量為5000張,從50個不同城市采集的路邊場景。包含19個語義分割标簽(屬于7個大類:gound,construction,object,nature,sky,human and vehicle)。訓練集,驗證集合測試集分别包含2945,500和1525張圖檔。

pre-release的測試集結果:我們曾經參與該資料集的釋出,如表8所示,我們的模型排名第三,達到63.1%和64.8%(在額外粗糙度資料集)。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表8:Cityscapes資料集上的測試集結果,将我們的DeepLab系統與其他最新方法進行了比較。

Val測試集結果:初始結果釋出後,我們在表9中進一步研究了驗證集。我們研究了驗證集的評測結果,Cityscapes圖檔的分辨率為2048x1024,在有限GPU資源的情況下,很難訓練深度網絡。我們也嘗試降低分辨率為1/2,但是使用原圖分辨率的結果更好,帶來1.9%和1.8%的提升(是否添加CRF)。為了在推斷過程中使用高分辨率,我們将每一張圖分解為重疊的小塊,與37類似。我們用ResNet-101代替VGG-16,我們沒有探索多尺度訓練和測試,因為GPU記憶體有限。我們作了其它方面的探索:(1)更深的網絡(ResNet-101);(2)資料增強;(3)LargeFOV或者ASPP;(4)CRF處理;

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表9:Cityscapes資料集上的Val設定結果。 Full:模型經過全分辨率圖像訓練。

目前測試結果:我們最好的模型達到70.4%的結果,模型僅僅在訓練集上訓練,見圖13.

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

4.5 Failure modes

我們進一步定性分析了PASCAL VOC 2012 val集上最佳模型變型的一些故障模式。 如圖14所示,我們提出的模型無法捕獲物體(如自行車和椅子)的微妙邊界。 由于一進制詞不夠自信,CRF後期處理甚至無法恢複這些細節。 我們假設的編碼器-解碼器結構,可以通過利用解碼器路徑中的高分辨率特征圖來緩解該問題。 如何有效地合并該方法留待将來的工作。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖14:Failure modes。 在CRF之前/之後輸入圖像,ground-truth和我們的DeepLab結果

5 結論

我們的DeepLab系統,通過重新設計圖像分類網絡,使其适應于語義分割。通過添加空洞卷積,可以産生密集的預測。我們進一步提出ASPP結構,可以處理不同尺度的目标。為了能得到精細的結果,結合DCNN和CRF。