【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

論文翻譯

論文：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

摘要

本文我們使用深度學習的方法解決語義分割的相關問題，我們作了三個主要貢獻，并且都很有實用價值。首先，我們設計的空洞卷積非常适合稠密預測任務。借助空洞卷積（Atrous Convolution），我們可以有效控制輸出特征圖的分辨率。不僅如此，我們可以有效增大卷積核的感受野（field of view），并且不會增加參數量和計算量。其次，我們提出帶空洞的空間金字塔池化（ASPP）子產品，通過不同的采樣率（sampling rates）和有效的感受野，ASPP對輸入特征圖進行不同尺度的處理。最後，結合DCNN以及機率圖模型（CRF），對邊界進一步優化處理。正常的DCNN模型，連續的的池化和降采樣獲得不變性（invariance），對于定位精度是非常不合适的。我們通過對DCNN輸出進行CRF處理，可以得到比較精細的分割結果。我們提出的DeepLab系統在PASCAL2012上得到最好的分割結果，達到79.7%的平均IOU。

1 介紹

DCNN将計算機視覺系統的表現推向新的高度，尤其是在圖像分類和目标檢測領域。DCNN端到端的訓練方式明顯優于基于手工設計的特征。DCNN内在的不變性對于學習局部的圖像變換尤為成功，使得可以學習比較抽象、進階的特征。這種不變性非常适合分類任務，但是阻礙了語義分割任務，抽象的空間資訊是不需要的。

在語義分割任務中，DCNN面臨方面挑戰：（1）降低的特征圖分辨率；（2）目标對象是多尺度；（3）較差的定位精度（due to DCNN invariance）。下面我們介紹如何解決上述問題。

第一個問題：用于分類的DCNN中連續的 Max-Pooling and Downsampling（striding）導緻最終輸出特征圖的分辨率明顯降低。為了克服這個阻礙，并且高效的産生稠密的特征圖，我們将DCNN最後幾層的max-pool去掉（通常是将滑動降為1），并且使用卷積進行上采樣，保證特征圖的采樣率較高（rate值較高），指的是在非零的之間插入零值，也即是空洞卷積。該項技術廣泛應用于信号處理，常用于處理undecimated waelet transform。我們使用術語“atrous convolution”作為具有上采樣功能的卷積的簡稱。實際中，我們通過組合空洞卷積核，使得計算的特征圖更加密集，後面添加簡單的雙線性插值，最終得到原圖圖像大小。相比于反卷積層，這種操作簡單而且高效。與通常的具有更大的卷積核相比，空洞卷積可以增大感受野，并且不會增大計算參數。

第二個問題：實際情況下，目标通常是多尺度的，處理這種問題的标準方式是将圖檔進行不同尺度的縮放，然後将特征圖進行融合。我們實驗表明，這種方法确實有效果，但是引入過多的計算代價。受啟發于空間金字塔池化（SPP），我們将輸入特征圖層進行不同rate的采樣率。通過對原圖進行不同尺度的卷積核（具有不同的感受野），可以擷取到不同尺度的目标資訊。與重複利用重采樣特征不同的是，我們使用多個并行的空洞卷積層（with different sampling rate），我們稱這種子產品為ASPP。

第三個問題：分類問題傾向于DCNN空間不變性變換，但是限制了空間細節的精度。解決這種問題的一個辦法是添加skip-layers來提取不同層次的特征，在最後進行融合，并得到分割結果。不同的是，我們使用CRF得到更好的細節。CRFs廣泛應用于語義分割，将不同具有底層資訊進行融合。盡管不斷複雜的模型用于重建高層次的依賴，或者分割塊之間的依賴性。我們提出全連接配接的CRF進行有效的計算和細節的擷取，并且保持資訊空間上長距離的依賴性。結合DCNN和CRF，我們獲得較好的效果。

圖1展示了DeepLab系統的整個過程，我們将VGG16和ResNet-101遷移到語義分割中，方式如下：（1）将全連接配接層轉為卷積層；（2）通過空洞卷積提高特征圖分辨率，将原圖降低8倍，而不是32倍。然後使用雙線性插值得到原圖的分辨率，最後輸入到CRF得到最後的分割結果。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

從實際考慮，我們的主要優勢：（1）速度：空洞卷積使得速度很快；（2）精确度很高；

相比于DeepLab-V1，我們更新的DeepLab-V2系統有如下幾方面提高：（1）可以處理多尺度目标，使用多尺度輸入或者ASPP；（2）采用ResNet-101，比VGG-16更好；（3）代碼和模型：http://liangchiehchen.com/projects/DeepLab.html。

2 相關工作

前十幾年的，語義分割通常依賴手動設計的特征，并與分類器結合（比如Boosting，Random Forests，SVM等）。雖然采用了大量提取特征的方法，但是特征表達能力依然有限。随着深度學習在圖像分類領域的成功，很多學者将其遷移到語義分割的任務。因為這種任務既包括分類也包括分割，是以如何将兩者進行有效結合，是比較關注的問題。

此部分省略；

3 方法

3.1 基于atrus卷積的密集特征提取及視場放大

采用全卷積的網絡結構，DCNN成功應用于語義分割或者其它稠密預測的任務。但是，DCNN中重複的最大池化（max-pooling）以及滑動（stride）極大降低了輸出特征圖的分辨率，通常降低32倍。FCN使用反卷積層解決分辨率低的問題，但會引入額外的計算代價。

不同的是，我們采用空洞卷積（atrous convolution），它最初用于高效的小波變換（undecimated wavelet transform）。該算法使得在任意層得到期望的分辨率。它可以用于後續處理，一旦網絡訓練完成，我們可以将空洞卷積添加網絡中繼續進行訓練。

首先考慮一維的信号輸入，空洞卷積的輸入 x [ i ] x[i] x[i]，輸出為 y [ i ] y[i] y[i]，卷積核為 w k w_k wk（一維卷積核的長度為 K K K）定義如下：

y [ i ] = ∑ k = 1 K x [ i + r ⋅ k ] w [ k ] . y[i] = \sum_{k=1}^{K}x[i+r\cdot k]w[k]. y[i]=k=1∑Kx[i+r⋅k]w[k].

采樣率為 r r r與滑動相關，标準卷積的 r = 1 r=1 r=1，見圖2。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖2：一維無規則卷積的示意圖。（a）在低分辨率輸入特征圖上進行标準卷積的稀疏特征提取。（b）在高分辨率輸入特征圖上應用具有速率r = 2的無規卷積的密集特征提取。

圖3給出了2D上的簡單例子。給定一張圖像，首先進行2倍的降采樣，然後執行7x7卷積操作。如果将輸出特征圖與原始圖像相比，我們隻是得到原圖像1/4的響應。如果采用空洞卷積對原圖進行卷積，并且上采樣因子為2，引入零值插入，那麼我們可以得到相對于原圖大小的響應值。盡管卷積核尺寸增大，我們隻需考慮卷積核非零值部分的值，那麼卷積核參數量和操作量保持不變。我們可以随意明确的控制特征圖響應的空間分辨率。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖3。二維無規卷積的示意圖。第一行：在低分辨率輸入特征圖上使用标準卷積進行稀疏特征提取。第二行：在高分辨率輸入特征圖上應用具有r = 2的無規卷積的密集特征提取。

在DCNN網絡結構中，可以在一系列層上連續使用空洞卷積，可以有效控制網絡在任意高分辨率的最終響應值。比如，為了将VGG-16和ResNet-101特征圖空間密度加倍，我們将pool5和conv5_1滑動距離設為1，然後替換後面的所有卷積為空洞卷積，rate=2。我們可以對所有層添加這種操作，但是會增加計算代價。我們采用兼顧精度和效率的方法，使用空洞卷積，将計算密度增加4倍，然後使用雙線性插值（使用8倍的上采樣），那麼特征圖就能恢複到原圖的大小。因為DCNN的輸出是很平滑的，是以插值操作是有效的，如圖5所示。不像FCN的反卷積操作，需要學習額外的參數。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖5：飛機的得分圖（在softmax函數之前輸入）和置信度圖（softmax函數的輸出）。在每次平均場疊代之後，我們顯示得分（第一行）和置信度（第二行）圖。最後一個DCNN層的輸出用作平均場推斷的輸入。

空洞卷積使得我們可以任意控制DCNN任何層的感受野。經典的DCNN網絡使用的是小的卷積核（3x3）。空洞卷積采樣率為r，則會引入 r − 1 r-1 r−1個零，有效增大了卷積核的尺寸為 k e = k + ( k − 1 ) ( r − 1 ) k_e = k+(k-1)(r-1) ke=k+(k−1)(r−1)，不會增加參數和計算代價。那麼這樣就可以有效的控制感受野，有助于尋找精确到定位和内容一緻性的平衡點。我們對這項技術作了充分的實驗：我們的DeepLab-LargeFOV在VGG-16的fc6層采用 r = 12 r=12 r=12的采樣率，并且獲得較好的結果。

從應用的方面考慮，可以從兩方面有效的使用空洞卷積。1、通過插入洞holes來上采樣卷積核，或者對輸入特征圖進行采樣。我們在早期的工作中使用這種操作，Caffe架構下添加im2col函數（it extracts vectorized patches from multichannel feature maps），該操作可以對特征圖進行稀疏采樣。2、使用與空洞采樣率相同的倍數，對輸入特征圖進行采樣，交錯的産生 r × r r×r r×r個降低分辨率的特征圖，總共産生 r × r r×r r×r個結果。然後對中間層層特征圖使用标準的卷積，并通過再插值的方法産生原圖大小的分割圖。通過将空洞卷積轉化為正常的卷積，我們可以使用現成的最優卷積操作。我們在tesnsorflow中使用第二種方法。

3.2 使用Atrous空間金字塔池的多尺度圖像表示

由于在不同的目标尺寸的資料集上訓練，DCNNs可以處理不同尺度的目标。明确的考慮目标尺度問題，可以有效處理大的目标和小的目标。

我們實驗過兩種處理不同的尺度目标的方法。1、标準的多尺度處理。我們提取不同尺度下原圖的訓練的DCNN網絡，他們共享參數。為了得到最終的結果，我們将并行的DCNN網絡特征圖進行插值，得到原圖大小的結果，選取最大值響應的方法進行融合。我們在訓練和測試中都進行這樣的操作。多尺度處理明顯增加網絡的表現。不同尺度的輸入增加網絡的計算代價。

2、第二個方式是受啟發于RCNN中的空間金字塔采樣，通過對單尺度目标進行不同程度的采樣可以有效的分類。我們對這種方法進行變化，使用多個并行的空洞卷積核，具有不同的采樣率，稱之為ASPP（DeepLab-ASPP）方法，見圖4：

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖4。Atrous空間池化金字塔（ASPP）。為了對中心像素（橙色）進行分類，ASPP通過采用具有不同速率的多個并行濾波器來利用多尺度特征。有效視野以不同顔色顯示。

3.3 精确邊界恢複的全連通條件随機場結構預測

參考DeepLab-V1中的翻譯部分。

4 實驗結果

我們對ImageNet上預訓練的VGG-16和ResNet-101網絡進行微調，使其能夠适應語義分割任務。與FCN一樣，将1000類分類器修改為21類分類器，也正是語義分割的類數。損失函數使用交叉熵，計算輸出特征圖每一個像素的交叉熵之和（标簽要進行8倍的降采樣），所有位置像素權重相等。我們的目标是真實标簽（8倍降采樣）。優化器為SGD。我們将DCNN和CRF分開訓練。

我們的評測資料集為：PASCAL 2012，PASCAL-Context，PASCAL-Person-Part，and Cityscapes。

4.1 PASCAL 2012

資料集：PASCAL 2012 包含20類前景類和1類背景。原始資料集包括分别包括1464，1449，1456張訓練集，驗證集和測試集。額外的标注資料集為10582張（trainaug）為訓練集。評測名額為IOU。

4.1.1 會議版本結果

首先采用ImageNet預訓練的VGG16網絡結構，mini-batch=20，初始學習率為0.001（0.01 for the final clasifier layer），每2000步學習率降10倍，momentum=0.9，weight decay=0.0005。當在trainaug上微調DCNN後，交叉驗證的方式學習CRF的參數。

視野和CRF：表1給出了不同感受野大小的DeepLab模型的變體，通過調整fc6層的卷積核的大小和采樣率 r。首先直接使用VGG-16，使用原始的7x7卷積核，r=4,（since we use no stride for the last two max-pooling layers）。經過CRF後，精确度為67.64%，但是速度很慢。将卷積核降為4x4，速度增加（參考表1）。我們實驗了兩種小的卷積核，并且FOV很大，見表1 的最後兩行。所有網絡将fc6和fc7最後的兩層卷積核數量從4096降為1024。最終，DeepLab-CRF-LargeFOV與直接對VGG-16的操作的效果相當（表一的第1和4行），速度是其3.36倍，參數更少（20.5MVS134.3M）。CRF可以使得準确率提高3%-5%。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表1：通過調整“ fc6”層的核心大小和粗采樣率r的視場效果。我們顯示了CRF前後的模型參數數量，訓練速度（img / sec）和val設定平均IOU。 DeepLab-LargeFOV（核心大小3×3，r = 12）達到最佳平衡。

測試集評估：我們将DeepLab-CRF-LargeFOV模型在PASCAL VOC 2012官方測試集上測試，達到70.3%的平均IOU。

4.1.2 會議版本的這項工作後的改進

在DeepLab-v1的基礎上，我們對模型作了如下更新：（1）訓練階段，不同的學習率調整方式；（2）提出ASPP；（3）引入更深的網絡（ResNet-101）和多尺度處理。

學習率：在訓練DeepLab-LargeFOV的過程中，我們探索了不同的學習率政策，我們發現“poly”衰減方式優于“step”衰減方式，poly衰減： ( 1 − i t e r m a x i t e r p o w e r ) (1-\frac{iter}{max iter}^{power}) (1−maxiteriterpower)。表2所示，使用poly（power=0.9），使用同樣的batch size以及疊代次數，精度提升1.17%。固定batch size，提高訓練次數，精度再次提高1.48%，達到64.9%。但是，總的訓練時間增加了。當batch size=10，仍然能達到相近的精度（64.90%vs64.71%）。最後，我們固定batchsize=10，訓練20k步。令人驚訝的是，驗證集上精度達到65.88%（3.63% improvement over “step”），測試集達到67.7%。本文中，所有模型均采用poly學習率衰減。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表2：PASCAL VOC 2012評估結果（％）（在CRF之前，因為不同的學習超參數有所不同。訓練DeepLab-LargeFOV時，采用“多”學習政策比“逐漸”更有效）

空洞金字塔池：我們實驗了ASPP政策，如圖7所示，VGG-16中多個并行的fc6-fc7-fc8分支。他們都是用的3x3卷積核，但是fc6的 r 值不同。表3中，作如下設定：（1）基準模型LargeFOV，隻有一個分支， r = 12 r=12 r=12；（2）ASPP-S，有四個分支，具有更小的采樣率（ r = { 2 , 4 , 8 , 12 } r=\{2,4,8,12\} r={2,4,8,12}）；（3）ASPP-L，四個分支，更大的采樣率（ r = { 6 , 12 , 18 , 24 } r=\{6,12,18,24\} r={6,12,18,24}）；每個結果都給出是否使用CRF。如表中所示，ASPP-S在baseline的基礎上提升1.22%。但是，經過CRF處理後，兩者相當。我們在測試集上測試了ASPP-L+CRF，達到72.6%。圖像分割結果如圖8:

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖7。DeepLab-ASPP使用具有不同學習率的多個過濾器以多個比例捕獲對象和上下文。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表3：ASPP對基于VGG-16的DeepLab模型的PASCAL VOC 2012 val set性能（平均IOU）的影響。LargeFOV：單個分支， r = 12 r =12 r=12。ASPP-S：四個分支， r = { 2 , 4 , 8 , 12 } r=\{2,4,8,12\} r={2,4,8,12}。 ASPP-L：四個分支， r = { 6 , 12 , 18 , 24 } r=\{6,12,18,24\} r={6,12,18,24}。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖8：與基線LargeFOV模型相比，ASPP的定性分割結果。使用多個大型FOV的ASPP-L模型可以成功捕獲多個尺度的對象以及圖像上下文。

更深層次的網絡和多尺度處理：我們将最近的ResNet-101網絡遷移到語義分割。與VGG-16類似，我們使用空洞卷積。在之前處理的基礎上，我們采用了其它的政策：（1）多尺度輸入：我們分開的将輸入圖檔縮放（scale=0.5,0.75,1）輸入到DCNN，然後将他們最終的輸出特征圖進行融合（同位置取最大值）；（2）模型在MS-COCO上預訓練；（3）圖像增強：訓練過程中，随機對圖檔進行尺度縮放（from 0.5 to 1.5）；表4中，我們在LargeFOV和ASPP模型之上分别評測了這些名額，顯然ResNet-101明顯優于VGG-16（eg our simplest ResNet-101達到68.72%，compared to 65.76% of our DeepLab-LargeFOV VGG-16 based variant, both before CRF）。多尺度融合提升2.55%，在MS-COCO上得到額外2.01%的提升。資料增強也是很有效的（提升1.6%）。采用LargeFOV（adding an atrous convolutional layer on top of ResNet, with kernel and rate=12）同樣是有效的。CRF後處理最好的模型，達到77.9%。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表4：在PASCAL VOC 2012 val set上為DeepLab使用ResNet-101。 MSC：采用具有最大融合的多尺度輸入。 COCO：在MS-COCO上進行預訓練的模型。 Aug：通過随機調整輸入比例來擴充資料。

定性結果：我們提供了CRF前後視覺上的對比結果（our best model variant），如圖6。沒有CRFDeepLab可以得到不錯的分割結果，使用CRF之後，可以得到更好的結果。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖6：PASCAL VOC 2012 val結果在CRF之前/之後輸入圖像和我們的DeepLab結果。

測試集結果：我們已經将最終最佳模型的結果送出給了官方伺服器，獲得了79.7％的測試集性能，如表5中所示。該模型的性能大大優于以前的DeepLab變體（例如，帶有VGG-16網的DeepLab-LargeFOV），并且目前是PASCAL VOC 2012細分排行榜上性能最高的方法。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表5：PASCAL VOC 2012測試集的性能。我們在最近的arXiv論文的基礎上增加了一些結果官方排行榜結果。

VGG-16 VS. ResNet-101：實驗表明，基于ResNet-101的DeepLab能得到更好的分割結果。我們認為ResNet-101中的恒等映射具有更為好的特征，可以提取中間層的局部特征。沒有CRF的ResNet-101比采用CRF的VGG-16具有更好的結果。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖9：CRF前後基于VGG-16 net或ResNet-101的DeepLab結果。 CRF對于使用VGG-16沿物體邊界進行準确預測至關重要，而ResNet-101甚至在CRF之前就具有可接受的性能。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖10：（a）Trimap示例（左上：圖像；右上：ground-truth；左下：2像素的trimap；右下：10像素的trimap）。（b）在CRF之前和之後使用VGG-16或ResNet-101時，像素均值IOU是圍繞對象邊界的帶寬的函數。

4.2 PASCAL-Context

資料集：PASCAL-Context資料集提供了整個場景下更為詳細的語義分割，包括目标（eg. person）和背景（eg. sky）。訓練最為常見的59類，以及一類背景。訓練集和驗證集分别為4998和5105張圖。

評估：表6給出了基于VGG-16的LaregeFOV的結果，到達37.6%和39.6%（是否使用CRF），其它的結果可以參考表格中的資料以及相應的處理政策。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表6：與PASCAL-Context資料集上的其他最新方法的比較。

定性結果：我們将帶或不帶CRF的最佳模型的分割結果可視化，如圖11中的後期處理所示。在CRF之前，DeepLab已經可以高精度地預測大多數object/stuff。利用CRF，我們的模型能夠進一步消除孤立的誤報并改善沿object/stuff邊界的預測

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖11：PASCAL上下文結果。在CRF之前/之後輸入圖像，ground-truth和我們的DeepLab結果。

4.3 PASCAL-Person-Part

資料集：我們在另一個資料集上進行訓練和測試，PASCAL VOC 2010，36标注的資料。我們關注人體分塊資料部分，包含更多的訓練資料和更大的尺度和人體姿态變化。特别的，該資料集包含每個人的分塊，比如眼睛，鼻子。我們合并分塊為，頭部，軀幹，上下胳膊和上下腿，最終産生6個人體分類以及一個背景類。我們僅使用包含人體的圖檔訓練（1716張圖）和驗證集（1817張圖檔）。

評估：人體分割結果見表7。Attention包含了VGG-16的實驗結果，達到56.39%。是以，這一部分，我們主要關注基于ResNet-101的DeepLab模型。單獨的DeepLab，達到58.9%，明顯高于Deep-LargeFOV（VGG-16 net）和DeepLab-Attention，大概7%和2.5%。其它結果可以參考表格。圖檔結果見圖12。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表7：與PASCAL-Person-Part資料集上的其他最新方法的比較

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖12：PASCAL-Person-Part結果。在CRF之前/之後輸入圖像，ground-truth和我們的DeepLab結果。

4.4 Cityscapes

資料集：該資料集包含高品質的、像素集的标注資料，數量為5000張，從50個不同城市采集的路邊場景。包含19個語義分割标簽（屬于7個大類：gound，construction，object，nature，sky，human and vehicle）。訓練集，驗證集合測試集分别包含2945,500和1525張圖檔。

pre-release的測試集結果：我們曾經參與該資料集的釋出，如表8所示，我們的模型排名第三，達到63.1%和64.8%（在額外粗糙度資料集）。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表8：Cityscapes資料集上的測試集結果，将我們的DeepLab系統與其他最新方法進行了比較。

Val測試集結果：初始結果釋出後，我們在表9中進一步研究了驗證集。我們研究了驗證集的評測結果，Cityscapes圖檔的分辨率為2048x1024，在有限GPU資源的情況下，很難訓練深度網絡。我們也嘗試降低分辨率為1/2，但是使用原圖分辨率的結果更好，帶來1.9%和1.8%的提升（是否添加CRF）。為了在推斷過程中使用高分辨率，我們将每一張圖分解為重疊的小塊，與37類似。我們用ResNet-101代替VGG-16，我們沒有探索多尺度訓練和測試，因為GPU記憶體有限。我們作了其它方面的探索：（1）更深的網絡（ResNet-101）;（2）資料增強；（3）LargeFOV或者ASPP；（4）CRF處理；

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

表9：Cityscapes資料集上的Val設定結果。 Full：模型經過全分辨率圖像訓練。

目前測試結果：我們最好的模型達到70.4%的結果，模型僅僅在訓練集上訓練，見圖13.

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

4.5 Failure modes

我們進一步定性分析了PASCAL VOC 2012 val集上最佳模型變型的一些故障模式。如圖14所示，我們提出的模型無法捕獲物體（如自行車和椅子）的微妙邊界。由于一進制詞不夠自信，CRF後期處理甚至無法恢複這些細節。我們假設的編碼器-解碼器結構，可以通過利用解碼器路徑中的高分辨率特征圖來緩解該問題。如何有效地合并該方法留待将來的工作。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

圖14：Failure modes。在CRF之前/之後輸入圖像，ground-truth和我們的DeepLab結果

5 結論

我們的DeepLab系統，通過重新設計圖像分類網絡，使其适應于語義分割。通過添加空洞卷積，可以産生密集的預測。我們進一步提出ASPP結構，可以處理不同尺度的目标。為了能得到精細的結果，結合DCNN和CRF。

【語義分割—DeepLab V2】DeepLab: Semantic Image Segmentation with Deep Convolutional Nets...論文翻譯

論文翻譯

摘要

1 介紹

2 相關工作

3 方法

3.1 基于atrus卷積的密集特征提取及視場放大

3.2 使用Atrous空間金字塔池的多尺度圖像表示

3.3 精确邊界恢複的全連通條件随機場結構預測

4 實驗結果

4.1 PASCAL 2012

4.1.1 會議版本結果

4.1.2 會議版本的這項工作後的改進

4.2 PASCAL-Context

4.3 PASCAL-Person-Part

4.4 Cityscapes

4.5 Failure modes

5 結論

繼續閱讀

論文解讀丨空洞卷積架構搜尋

TensorFlow實作卷積、反卷積和空洞卷積

deeplab evaluate.py

如何了解空洞卷積（dilated convolution）ID-CNN

[語義分割]SPP、空洞卷積與ASPP總結

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

【圖像分類—GoogLeNet Inception V1】Going deeper with convolutions一、論文翻譯二、論文解讀

對比：空洞卷積與轉置卷積（吉米王）

深度學習-【語義分割】學習筆記4 膨脹卷積（Dilated convolution）膨脹卷積gridding effectUnderstanding Convolution for Semantic Segmentation

擴充卷積詳解 - 組卷積, 深度可分離卷積, 空洞卷積

跨域及jsonp