天天看點

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

論文翻譯

論文:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

摘要

深度卷積神經網絡(DCNNs)近期在進階視覺任務中表現出非常好的性能,比如圖像分類和目标跟蹤。本文聯合DCNNs和機率圖模型來解決像素級分類任務,也就是語義圖像分割。我們發現DCNNs最後一層的響應不能充分地用于定位精确的目标分割。這是因為存在使得DCNNs擅長進階任務的非常的不變性屬性。我們通過一個全連接配接的條件随機場(CRF)結合DCNNs最後層的響應來克服深度網絡中差的定位屬性。定性的講,我們的”DeepLab”系統能夠以超過先前方法的精度來定位分割邊界。定量的講,我們的方法在PASCAL VOC2012語義圖像分割任務上測試的平均IOU達到71.6%。我們展示了如何能有效地得到這些結果:注意網絡的再利用;從小波社群引入“atrous”算法,該算法在現代GPU上能以每秒8幀的速度處理神經網絡響應的密集計算。

1 介紹

深度卷積神經網絡(DCNNs)早期用于文本識别,最近成為進階視覺研究的主流,如圖像分類,目标檢測,細粒度分類,姿态估計等方面。這些工作的一個共同點是: 端到端方式訓練的DCNNs比依靠精心設計的特征的系統提供了明顯的更好的結果,如尺度不變特征變換比對算法(SIFT)或方向梯度直方圖(HOG)特征。DCNNs的成功得益于DCNNs定位圖像變換的内在不變性,這能加強它們學習資料的分層抽象能力。不變性非常适用于進階視覺任務,但不利于低級任務,如語義分割(也就是我們想要精确定位而不是空間細節的抽象)。

DCNNs在圖像标注任務應用上的兩大技術障礙: 信号的下采樣和空間不靈敏性(不變性)。問題一,在标準DCNNs的每一層上重複進行的最大池化和下采樣(“striding”)相結合而導緻的信号分辨率降低。借鑒用于有效計算非抽樣離散小波變換的”atrous”算法,它允許方案中對DCNNs響應的有效精細計算比其他解決這個問題的方法更加簡單。

問題二,由于分類器擷取以對象為中心的決策需要空間變換的不變性,是以内在的限制了DCNNs模型的定位精度。我們通過使用全連接配接的CRF來提高模型捕獲精細細節的能力。 CRF已廣泛用于語義分割,并通過結合多向分類器與由像素和邊緣或超像素局部互動捕獲的低級資訊來計算得出的分數。雖然提出了增加複雜度來模組化分段依賴性和/或高階依賴關系,但是我們使用Krahenbuhl提出的完全連接配接的成對的CRF來進行有效的計算,并且能夠捕獲細微的邊緣細節,同時也适應遠端依賴。該模型在2011年提出大大提高了基于boosting的像素分類器的性能,在我們的工作中我們将證明将它與一個基于DCNNs的像素級分類器結合時可以得到目前最好的效果。

DeepLab系統的三個主要優點是

(1)速度:憑借“atrous”算法,密集DCNN以8fps運作,而全連接配接CRF的平均場推斷需要0.5秒;

(2)準确度:獲得了PASCAL語義分割賽的最好成績,超過第二名7.2%;

(3)簡單性:系統由兩個完善的子產品組成,DCNNs和CRFs。

2 相關工作

我們的系統直接以像素表示形式工作, 與Long的方法相似。這與目前在DCNN的語義分割中最常見的兩階段方法是相反的: 這樣的技術通常級聯自下而上的圖像分割和基于DCNN的區域分類,這使得系統承擔前端分割系統的潛在錯誤。例如,Arbelaez提出的邊界候選框和掩碼區域; Girshick和Hariharan使用Uirlings作為DCNN的輸入,以将形狀資訊引入到分類過程中。同樣,Mostajabi的作者依靠超像素表示。著名的非DCNN前身是Carreira的二階合并方法,它也為Carreira送出的區域候選配置設定标簽。 Cogswell的作者認識到單獨分割的危險,他在Yadollahpour 的基礎之上探索由Carreira計算出的各種基于CRF的分割候選。然後,根據特别針對該重新排列任務訓練的DCNN,将這些分割提議重新排列。盡管這種方法明确地試圖處理前端分段算法的缺點,但是在基于CRF的分割算法中,DCNN評分仍然沒有明确的利用。DCNN隻能在事後(post-hoc)應用,而在分割過程中直接嘗試使用它的結果會有意義。

對于更接近我們的方法的工作,其他一些研究人員已考慮使用卷積計算的DCNN特征進行密集圖像标注。 第一個是Farabet在多個圖像分辨率下應用DCNN,然後采用分割樹來平滑預測結果; 最近,Hariharan提出将DCNN内計算的中間特征圖連接配接起來進行像素分類,Dai提出按區域候選集合中間特征圖。 盡管這些工作仍然采用與DCNN分類器結果分離的分割算法,但我們認為分割僅在稍後階段使用是有利的,避免對過早決策的承諾。

最近,Long的無分割技術; Eigen以滑動視窗直接将DCNN應用于整個圖像,通過卷積層代替DCNN的最後完全連接配接的層。為了處理空間定位問題,Long等人從中間特征圖中提取并連接配接分數,而Eigen通過将粗略結果傳播到另一個DCNN來将預測結果從粗略細化到細分。

我們的模型與其他最先進的模型之間的主要差別是像素級CRF和基于DCNN的“unary terms”的組合。 Cogswell着眼于這個方向上最接近的作品,使用CRF作為基于DCNN的重新排序系統的提案機制,而Farabet将超像素視為局部成對CRF的節點,并使用圖形切割進行離散推理; 是以,它們的結果可能受到超像素計算中的錯誤的限制,同時忽略了遠端超像素依賴性。 我們的方法将每個像素視為CRF節點,利用遠端依賴關系,并使用CRF推理直接優化DCNN驅動的成本函數。我們注意到,對于傳統的圖像分割/邊緣檢測任務,平均場已被廣泛研究,但是最近Krahenbuhl&Koltun(2011)表明平均場推理對于完全連接配接的CRF可以是非常有效的,并且在語義分割的上下文中特别有效。

在我們的手稿的第一版被公開釋出之後,引起了我們的注意,另外兩個團隊同時獨立地探求了非常相似的方向,結合DCNN和密集連接配接的CRF。各種型号在技術方面存在一些差異。Bell等人(2014年)着重于材料分類問題,而Zheng等(2015)展開了CRF均值場推理步驟,将整個系統轉換為端對端可訓練的前饋網絡。

3 用于密集圖像标注的卷積神經網絡

在這裡,我們描述了我們如何重新設計和調整了公共可用的ImageNet預訓練的VGG-16的最先進的16層分類網絡,用于我們的密集語義圖像分割系統的高效和有效的密集特征提取器。

3.1 采用atrous算法的高效密集滑動視窗特征提取

密集的空間分數評估有助于我們緻密的CNN特征提取器的成功。作為實作這一目标的第一步,我們将VGG-16的全連接配接層轉換成卷積的,并以卷積方式在其原始分辨率的圖像上運作網絡。然而,這還不夠,因為它産生非常稀疏計算的檢測分數(步長為32像素)。為了在我們的8像素的目标步幅上更密集地計算分數,我們開發了Giusti、Sermanet以前使用的方法的變體。我們在Simonyan網絡中最後兩個最大池化層之後跳過subsampling,并通過引入零來增加其長度(在最後三個卷積層中為2×,在第一個完全連接配接層為4×)以修改随後的層中的卷積濾波器連接配接層。我們可以通過保持完好的過濾器并且分别使用2或4像素的步幅稀疏地對其應用的特征圖進行采樣以更有效地實作這一點。圖1的這種方法被稱為“atrous算法”(’atrous algorithm’),并且已經被開發用于高效計算多孔算法(也叫做非抽取小波變換)。 我們通過添加到im2col函數(将多通道特征圖轉換為矢量塊),将稀疏樣本的底層特征圖添加到Caffe架構中來實作這個。 這種方法通常是适用的,并且允許我們以任何目标子采樣率有效地計算密集的CNN特征圖,而不引入任何近似值。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖1:1-D中的孔算法的圖示,當核心大小為3,輸入步幅為2,輸出步幅為1時

我們微調Imagenet預先訓練的VGG-16網絡的模型權重,以簡單的方式适應圖像分類任務,遵循Long等人的程式(2014)。我們用21路替換最後一層VGG-16中的1000路Imagenet分類器。 我們的損失函數是CNN輸出圖中每個空間位置的交叉熵項的總和(與原始圖像相比下采樣了8倍)。 所有位置和标簽在整體損失函數中的權重相等。 我們的目标是真實值标簽(8倍下采樣)。 我們通過Krizhevsky等人的标準SGD程式來優化所有網絡層的權重的目标函數(2013年)。

在測試期間,我們需要原始圖像分辨率的類别分數圖。 如圖1所示,第3.1節進一步闡述,類别分數圖(對應于對數機率)相當平滑,這使得我們可以使用簡單的雙線性插值以可忽略的計算成本将其分辨率提高8倍。 請注意,Long等人的方法 (2014)在CNN輸出中不使用atrous算法,并産生非常粗略的分數(以32倍下采樣)。 這迫使他們使用學習的上采樣層,顯着增加了系統的複雜性和訓練時間:在PASCAL VOC 2012上微調我們的網絡大約需要10個小時,而他們報需要幾天的訓練時間(在現代GPU上的計時)。

3.2 用卷積網絡減小感受野并加速密集計算

重新使用我們的網絡進行密集分數計算的另一個關鍵因素是明确控制網絡的感受野大小。 最新的基于DCNN的圖像識别方法依賴于在Imagenet大規模分類任務上預先訓練的網絡。 這些網絡通常具有很大的感受野大小:在我們考慮的VGG-16網絡的情況下,如果網絡應用卷積,其感受野是224×224(零填充)和404×404像素。 我們認為這種感受野大小太大,無法保證良好的定位精度(除非使用了大幅度放大的圖像版本)。 此外,在将網絡轉換為完全卷積的網絡之後,第一個完全連接配接的層具有4,096個大的7×7空間大小的濾波器,并且成為我們密集分數圖計算中的計算瓶頸。

我們已經通過将第一FC層空間抽樣到4×4空間大小來解決這兩個嚴重的實際問題。 這将網絡的感受野減少到128×128(零填充)或308×308)(卷積模式),并将第一個FC層的計算時間縮短了3倍。 使用我們的基于Caffe的實作和Titan GPU,由此産生的VGG-derived網絡非常有效:給定一個306×306輸入圖像,它在網絡頂部産生39×39密集原始特征得分,速率約為8 fps在測試期間。 訓練時的速度為3幀/秒。 使用較小的網絡,如Krizhevsky等 (2013)可以允許視訊速率測試時密集特征計算,即使在輕型GPU上。

4 詳細的邊界恢複:完全連接配接的條件随機場

4.1 深卷積網絡和定位挑戰

如圖2所示,DCNN分數圖可以可靠地預測圖像中對象的存在和粗略位置,但不太适合用于指向其精确輪廓。 卷積網絡在分類精度和定位精度之間有自然的權衡:具有多個最大池層的深度調制器已被證明在分類任務中最成功,然而,他們增加的不變性和大的感受野使得在其最高輸出層分數推斷位置的問題更具挑戰性。

減小我們網絡體系結構中的感受野大小可以改善但不能完全解決這個問題。 近期工作從兩個方向來解決這個定位的挑戰。 第一種方法是利用卷積網絡中多層的資訊來更好地估計對象邊界。 第二種方法是采用超像素表示,實質上是将定位任務委托給低級分割方法。

在4.2節中,我們通過耦合DCNN的識别能力和完全連接配接的CRF的細粒度定位精度來尋求新的替代方向,并表明它在解決定位挑戰方面非常成功,産生了準确的語義分割結果, 以超出現有方法範圍的詳細程度恢複對象邊界。

4.2 全連接配接CRF用于精确定位

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖2: 飛機圖像的得分圖(softmax功能前的輸入)和置信圖(softmax功能的輸出)。我們在每個平均場疊代後顯示得分(第一行)和置信(第二行)圖。 最後一個DCNN層的輸出用作平均場推理方法的輸入。

傳統上,條件随機場(CRF)已被用于平滑噪聲分割圖。通常這些模型包含耦合相鄰節點的能量項,有利于對空間鄰近像素進行相同标簽的配置設定。在數學上,這些短距離CRF的主要功能是清除基于局部手工設計特征的弱分類器的虛假預測。

與這些較弱的分類器相比,現代DCNN體系結構如我們在這項工作中使用的結構産生了定性不同的得分圖和語義标簽預測。如圖2所示,得分圖通常相當平滑并産生均勻分類結果。在這個制度下,使用短距離CRFs可能不好,因為我們的目标應該是恢複詳細的局部結構,而不是進一步平滑。使用對比敏感電位(Rother等人,2004)結合局部範圍的CRF可以潛在地改善局部化,但仍然忽略了薄弱結構(thin-structures),通常需要解決昂貴的離散優化問題。

為了克服短距離CRF的這些限制,我們将我們的系統與Krahenbuhl&Koltun(2011)的完全連接配接的CRF模型相結合。該模型采用能量函數

E ( x ) = ∑ i θ i ( x i ) + ∑ i j θ i j ( x i , x j ) E(\boldsymbol{x})=\sum_{i} \theta_{i}\left(x_{i}\right)+\sum_{i j} \theta_{i j}\left(x_{i}, x_{j}\right) E(x)=i∑​θi​(xi​)+ij∑​θij​(xi​,xj​)

其中 x x x是像素的标簽配置設定。我們使用一進制勢 θ i ( x i ) = − l o g P ( x i ) θ_i(x_i)=−logP(x_i) θi​(xi​)=−logP(xi​),其中 P ( x i ) P(x_i) P(xi​) 是由DCNN計算的像素 i i i 處的标簽配置設定機率。成對電位為 θ i j ( x i , x j ) = μ ( x i , x j ) ∑ m = 1 K w m ⋅ k m ( f i , f j ) \theta_{i j}\left(x_{i}, x_{j}\right)=\mu\left(x_{i}, x_{j}\right) \sum_{m=1}^{K} w_{m} \cdot k^{m}\left(\boldsymbol{f}_{i}, \boldsymbol{f}_{j}\right) θij​(xi​,xj​)=μ(xi​,xj​)∑m=1K​wm​⋅km(fi​,fj​),其中 μ ( x i , x j ) = 1 \mu(x_i,x_j)=1 μ(xi​,xj​)=1 ,如果 x i ≠ x j x_i≠x_j xi​​=xj​ ,否則為零(即Potts模型)。對于圖像中的每對像素 i i i 和 j j j ,存在一對成對項,無論它們彼此有多遠,即模型的因子圖是完全連接配接的。每個 k m k^m km 是高斯核,取決于為像素 i i i 和 j j j 提取的特征(表示為 f f f ),并由參數 w m w_m wm​ 權重。我們采用雙邊位置和顔色項,具體來說,核心是:

w 1 exp ⁡ ( − ∥ p i − p j ∥ 2 2 σ α 2 − ∥ I i − I j ∥ 2 2 σ β 2 ) + w 2 exp ⁡ ( − ∥ p i − p j ∥ 2 2 σ γ 2 ) w_{1} \exp \left(-\frac{\left\|p_{i}-p_{j}\right\|^{2}}{2 \sigma_{\alpha}^{2}}-\frac{\left\|I_{i}-I_{j}\right\|^{2}}{2 \sigma_{\beta}^{2}}\right)+w_{2} \exp \left(-\frac{\left\|p_{i}-p_{j}\right\|^{2}}{2 \sigma_{\gamma}^{2}}\right) w1​exp(−2σα2​∥pi​−pj​∥2​−2σβ2​∥Ii​−Ij​∥2​)+w2​exp(−2σγ2​∥pi​−pj​∥2​)

其中第一個核心依賴于像素位置(表示為 p p p )和像素顔色強度(表示為 I I I ),而第二個核心隻取決于像素位置。超參數 σ α \sigma_\alpha σα​ , σ β \sigma_\beta σβ​ 和 σ γ \sigma_\gamma σγ​ 控制高斯核的“尺度”。關鍵的是,這種模式适合于有效的近似機率推理(Krahenbuhl&Koltun,2011)。 在完全可分解的平均場近似 b ( x ) = ∏ i b i ( x i ) b(x)=\prod_ib_i(x_i) b(x)=∏i​bi​(xi​) 下的消息傳遞更新可以表示為與特征空間中的高斯核的卷積。 高維濾波算法(Adams等人,2010)顯着加速了這一計算,導緻算法在實踐中非常快速,使用Krahenbuhl等人2012的開源實作,對Pascal VOC圖像的處理平均不到0.5秒。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖3:模型圖。 來自深卷積神經網絡(具有完全卷積層)的粗略得分圖由雙線性插值進行上采樣。 應用完全連接配接的CRF來細化分割結果。

4.3 多尺度預測

繼Hariharan和Long的最新成果之後,我們還探讨了一種多尺度預測方法來提高邊界定位精度。具體來說,我們将前四個最大池化層中的每一個的輸入圖像和輸出附加到一個兩層MLP,其特征圖連接配接到主網絡的最後一層特征圖。是以,通過5 * 128 = 640個通道增強了饋送到softmax層的聚合特征圖。我們隻調整新添加的權重,保留其他網絡參數在第3節的方法學習到的值。如實驗部分所述,從精細分辨率層引入這些額外的直接連接配接可以提高定位性能,但效果并不像用完全連接配接的CRF所獲得的那樣大。

5 實驗評估

資料集 PASCAL VOC 2012分割基準,包含20個目标類别,1個背景類别。原始資料:1464(training),1449(validation),1456(testing)。增強資料集:通過Hariharan等提供的額外标注擴增至10582(training images)。性能是按照21個類别的平均的像素交叉IOU(交疊率)來衡量的。

訓練 假設在CRF訓練期間DCNN提供的一緻條件是固定的,我們采用最簡單的分段訓練形式,解耦DCNN和CRF訓練階段。

對于DCNN訓練,我們采用了已在ImageNet上進行預處理的VGG-16網絡。我們通過交叉熵損失函數的随機梯度下降,對VOC 21路分類任務中的VGG-16網絡進行了微調,如第2.1節所述。我們使用20個圖像的小批量,初始學習率為0.001(對于最終分類器層為0.01),每2000次疊代将學習率乘以0.1。我們使用0.9的動量和0.0005的權重衰減。

在DCNN被微調之後,沿着Krahenbuhl&Koltun(2011)的方法,我們交叉驗證方程式(2)中完全連接配接的CRF模型的參數。為了避免過度拟合驗證集,參數 w 2 w_2 w2​ 和 σ γ \sigma_\gamma σγ​ 固定為3,并在驗證集的一小部分(我們使用100個圖像)上進行交叉驗證搜尋 w 1 w_1 w1​, σ α \sigma_\alpha σα​ 和 σ β \sigma_\beta σβ​的最佳值。我們采用從粗略到精細的搜尋方案。具體來講就是,初始的參數搜尋範圍是 w 1 ∈ [ 5 , 10 ] w_1\in [5, 10] w1​∈[5,10], σ α ∈ [ 50 : 10 : 100 ] \sigma_\alpha \in [50:10:100] σα​∈[50:10:100]和 σ β ∈ [ 3 : 1 : 10 ] \sigma_\beta\in[3:1:10] σβ​∈[3:1:10],然後我們改進了第一輪最佳值周圍的搜尋步長。固定所有報告的實驗的平均場疊代次數為10。

驗證集的評估 我們對PASCAL的’val’集進行了大部分的評估,并對增強的PASCAL’train’集進行了訓練。如表1,将完全連接配接的CRF結合到我們的模型(由DeepLab-CRF表示)産生了顯着的性能提升,大約4%的提高。我們注意到Krahenbuhl&Koltun(2011)的原創作品将TextonBoost(Shotton等人,2009年)的27.6%的結果提高到29.1%,這使得我們在這裡報告的改善(從59.8%到63.7%)更令人印象深刻。

轉向定性結果,我們提供了圖5中的DeepLab和DeepLab-CRF之間的視覺比較。使用完全連接配接的CRF可顯着提高結果,進而允許模型準确地捕獲複雜的對象邊界。

多尺度特征 我們還利用中間層的特征,類似于Hariharan等(2014A);Long等人(2014)。如表1(a)所示,将多尺度特征添加到我們的DeepLab模型(表示為DeepLab-MSc)可提高約1.5%的性能,并且進一步整合的完全連接配接的CRF(表示為DeepLab-MSc-CRF)提高約4%。DeepLab和DeepLab-MSc的定性比較如圖4所示。利用多尺度特征可以稍微改進對象邊界。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

表1:(a)我們提出的模型在PASCAL VOC 2012 ‘val’資料集(訓練是在增強的“train”資料集上進行的)上的性能。性能最好的是利用了多尺度特征和大的感受野(b)與在PASCAL VOC 2012’test’資料集中其他最先進的方法相比,我們提出的模型(用增強資料集”trainval”訓練的)有最好的的性能。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

表2:視場效應。我們将PASCAL VOC 2012’val’的性能(CRF之後)和訓練速度顯示為(1)第一個完全連接配接層的核心大小的函數(2)在atrous算法中使用的輸入步長。

視場/Field of view 我們采用的’atrous算法’允許我們通過調整輸入步長來任意地控制模型的視場(FOV),如圖1所示。表2中,我們在第一個完全連接配接的層上嘗試了幾種核心大小和輸入步長。方法DeepLab-CRF-7x7是VGG-16網絡的直接修改,核心大小為7x7,輸入步幅為4。該模型在’val’集上産生了67.64%的性能,但是相對較慢,訓練期間每秒1.44張圖像)。通過将核心大小減小到4x4,我們将模型速度提高到每秒2.9張圖像。我們已經嘗試了兩種具有不同FOV尺寸的網絡變體,DeepLab-CRF和DeepLab-CRF-4x4;後者具有大的FOV(即大的輸入步長)并獲得更好的性能。最後,我們使用核心大小3x3,輸入步幅為12,并進一步将過濾器數量從4096更改為最後兩層的1024。有趣的是,由此産生的DeepLab-CRF-LargeFOV型号與昂貴的DeepLab-CRF-7x7的性能相當。同時,運作速度快3.36倍,參數明顯減少(20.5M而不是134.3M)。

表1總結了幾種模型變量的性能,展示了利用多尺度特征和大FOV的優勢。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖4:結合多尺度特征改進了邊界分割。我們在第一和第二行分别顯示了DeepLab和DeepLab-MSc獲得的結果

對象邊界的平均像素IOU 為了量化所提出的物體邊界附近模型的準确性,我們用類似于Kohli等人(2009)的實驗來評估分割精度。Krahenbuhl&Koltun(2011)。 具體來說,我們使用在’val’集合中注釋的’void’标簽,通常發生在對象邊界周圍。 我們計算位于’void’标簽的窄帶(稱為trimap)内的那些像素的平均IOU。 如圖4所示,通過完全連接配接的CRF細化分割結果顯着地改善了圍繞物體邊界的結果。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖5:(a)一些trimap示例(左上:圖像。右上:ground-truth。左下:2像素的trimap,右下角:10像素的trimap)。所提出的方法在物體邊界周圍的帶内的分割結果品質。(b)像素對精度。(c)像素平均IOU。

與最先進的方法的比較 圖3中,我們定性地比較我們提出的模型DeepLabCRF與兩種最先進的模型:FCN-8(Long等人 2014)和TTI-Zoomout-16(Mostajabi等人 2014)’val’資料集(結果從他們的論文中提取)。我們的模型能夠捕捉複雜的對象邊界。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖6:與最先進的模型在’val’資料集上的比較。第一行:原圖像。第二行:真實值。第三行:其他近期模型(左圖:FCN-8s,右圖:TTI-Zoomout-16)。第四行:我們的DeepLab-CRF。

測試集結果 在驗證集上設定了我們的模型選擇後,我們會在PASCAL VOC 2012官方“test”集上評估我們的模型變體。 如表3,我們的DeepLab-CRF和DeepLab-MSC-CRF模型分别實作了66.4%和67.1%的IOU表現。我們的模型優于所有其他最先進的模型(具體來說是,TTI-Zoomout-16(Mostajabi等,2014),FCN-8(Long et al。,2014)和MSRA-CFM(Dai et 等),2014))。當我們增加模型的FOV時,DeepLab-CRF-LargeFOV的性能達到70.3%,與DeepLab-CRF-7x7相同,而訓練速度更快。此外,我們最好的模型是DeepLab-MSc-CRF-LargeFOV,通過采用多尺度功能和大型FOV,達到71.6%的最佳性能。

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

表3:在PASCAL VOC 2012 測試集上的标簽IoU(%),使用訓練驗證集訓練

【語義分割—DeepLab V1】Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs論文翻譯

圖7:VOC 2012-val的可視化結果。對于每行,我們顯示輸入圖像、由DCNN提供的分割結果以及完全連接配接的CRF的精細分割結果。我們在最後三行顯示我們的失敗模式。

6 讨論

我們的工作結合了深卷積神經網絡和完全連接配接的條件随機場的想法,産生了一種新穎的方法,能夠産生語義地準确預測和詳細的分割圖,同時具有計算效率。我們的實驗結果表明所提出的方法在PASCAL VOC 2012語義圖像分割任務挑戰中顯着提高了最先進的技術。

我們打算改進模型的多個方面,例如完全整合其兩個主要元件(CNN和CRF),并以類似于Krahenbuhl&Koltun(2013)的端到端方式對整個系統進行訓練,陳等(2014)。我們還計劃嘗試更多資料集,并将我們的方法應用于其他資料源,如深度圖或視訊。最近,我們用弱監督标注,以邊界框或圖像級标簽的形式進行模型訓練(Papandreou等人,2015)。

在較高層次上,我們的工作依賴于卷積神經網絡和機率圖形模型。我們計劃進一步調查這兩種強大的方法的互相作用,并探讨其解決具有挑戰性的計算機視覺任務的協同潛力。

論文版本

v1 向ICLR 2015送出。介紹DeepLab-CRF模型,在PASCAL VOC 2012測試集上達到66.4%的性能。

v2 補充ICLR 2015。添加了DeepLab-MSc-CRF模型,其中包含來自中間層的多尺度特征。 DeepLab-MSC-CRF在PASCAL VOC 2012測試集上的表現為67.1%。

v3 測試大的視場。在PASCAL VOC 2012測試集中,DeepLab-CRF-LargeFOV的性能達到了70.3%。DeepLab-MSc-CRF-LargeFOV在利用多尺度功能和大型FOV時,達到71.6%的表現。

v4 參考我們更新的“DeepLab”系統(Chen等人,2016),結果大大改善。

參考文獻