天天看點

論文翻譯:Higher Order Potentials in End-To-End Trainable Conditional Ran-dom FieldsAbstract1. Introduction2. Related Work7. Conclusion

來源:CoRR,abs,2015

Abstract

       我們利用深度學習技術來解決語義分割的問題。大多數語義分割系統包括一個條件随機場(CRF)模型,以産生與圖像的視覺特征一緻的結構化輸出。随着近期深度學習的進展,在深度神經網絡中執行CRF推斷以促進CRF與逐像素卷積神經網絡(CNN)分類器的聯合學習變得越來越普遍。

      雖然基本CRF隻使用一進制和兩兩潛在的電勢,但已經表明,在具有兩個以上節點的派系上定義的更高階勢的添加可以導緻更好的分割結果。在本文中,我們展示了兩種類型的高階勢,即基于物體檢測的電位和基于超像素的電位,可以被包括在嵌入深度網絡的CRF中。我們設計這些更高階的勢能以允許推理高效和可微分的平均場算法,使得我們可以在深度網絡中實作我們的CRF模型作為堆疊層。是以,我們豐富的CRF模型的所有參數可以在整個網絡的端到端訓練期間與CNN分類器聯合學習。随着這些可訓練的高階勢能的引入,我們發現結果顯着改善。

1. Introduction

        語義分割包括為圖像中的每個像素配置設定一個可視對象類标簽,進而為每個分段帶來語義含義的分割。它也可以被看作是識别和描繪圖像中物體的任務。雖然強大的像素級分類器對于獲得高精度的任務至關重要,但強化圖像視覺特征的語義分割輸出的一緻性也是非常重要的。例如,分割邊界通常應該與圖像中的強邊緣重合,而圖像中顔色變化很小的小區域應該具有相同的标簽。

      最近在深度學習方面的進展使得研究人員能夠在卷積神經網絡(CNN)中建立具有自動學習功能的更強大的分類器[24,40,31]。這導緻了廣泛使用的基準如PASCAL VOC [10]的語義分割準确性有了很大的提高。 CNN分類器現在被認為是用于語義分割的像素級分類器的标準選擇。

      另一方面,機率圖形模型一直流行用于标簽的結構化預測,其中限制條件實施标簽一緻性。條件随機場(CRFs)是最常見的架構,各個作者[25,27,43]基于更高階的團簇潛力開發了豐富的表達模型,以提高語義分割的性能。

      雖然一些深度學習方法在語義分割方面表現出令人印象深刻的性能,但沒有納入圖形模型[31,17],目前實作最先進性能的方法[30,46,28,4]都将圖形模型納入深層學習架構的某種形式。然而,我們觀察到已經被納入到深度學習技術中的CRF仍然是相當簡陋的,因為它們隻包含一進制和二進制的潛能[46]。在本文中,我們表明,當使用平均場推斷時,精心設計的高階勢(CRFs定義在由兩個以上節點組成的勢能上)也可以被模組化為CNN層。 CNN中執行CRF推斷的優點是,在整個系統的端到端訓練期間,可以實作CNN分類器權重和CRF參數的聯合優化。直覺上,分類器和圖形模型在聯合訓練期間學習彼此最佳地協作。

      我們在嵌入深度網絡的CRF中引入兩種高階勢能:基于物體檢測的勢能和基于超像素的勢能。使用物體檢測電位的主要思想是使用現成的物體檢測器的輸出作為尋找圖像分割的附加語義提示。直覺上,具有高召回率的對象檢測器可以通過查找出現在圖像中的對象來幫助語義分割算法。如圖1所示,當我們有一個自信的探測器響應時,我們的方法能夠從不良分割單元恢複。然而,由于CRF推斷識别并拒絕與CRF中存在的其他類型的能量不相符的錯誤檢測,是以我們的方法對于由對象檢測器識别的誤報是魯棒的。此外,我們的CRF推斷重新提供了一個物體檢測器的置信度輸出,我們表明這反過來幫助物體檢測器通過拒絕與圖像的語義分割不一緻的誤報來提高其整體準确性。

      基于超像素的高階勢能鼓勵通過超分辨率獲得的超像素的标簽一緻性。這是由超像素定義的區域可能包含來自同一視覺對象的像素的事實所驅動的。這個公式再次違背了這個假設,并且在最初的超像素生成步驟中出現錯誤。在實踐中,我們注意到,基于超像素的電位有效地去除了與周圍像素的正确标簽不一緻的僞标簽的小區域(圖1c)。

      我們評估了PASCAL VOC 2012語義分段基準和Cityscapes資料集的更高階潛力,以顯示僅使用一進制和二進制電位的CRF的顯着改進。

2. Related Work

       在深度學習變得突出之前,語義分割用密集的手工特征來執行,這些特征被饋送到每個像素或區域分類器中[39]。由這些分類器做出的個别預測往往是嘈雜的,因為它們缺乏全局上下文,是以被CRF後處理以改進結果,利用先前的知識,例如附近的像素以及相似的像素外觀,很可能會共享同一個類的标簽。

      CRF模型[39]最初隻包含一個8鄰域中的一進制和兩兩項,Kohli等人顯示可能導緻收縮偏差[20]。然而,随後提出了對該模型的許多改進,包括:密集連接配接的成對電勢,促進所有圖像像素對之間的互相作用[22],為了捕獲更多的上下文而制定定義在超過兩個節點的集合上的高階勢[20,25] ,模組化目标類别的共現[26,34,15],并利用目标探測器的結果[27,45]。

      深度學習方面的最新進展使我們能夠用專門為語義分割學習的特征代替手工制作的特征。這些表示的優勢在[31]中得到了闡述,他們在不使用任何CRF後處理的情況下比之前的手工方法取得了顯着的改進。文獻[4]的作者進一步改進了分割性能,這是通過後處理CNN的CRF結果而獲得的。最近的研究[46,28,38,30]進一步将CRF作為深層網絡中的層,并通過反向傳播學習了CRF和CNN的參數。

      在對正常CRF模型的改進方面,Ladicky [27]提出使用現成的對象檢測器來提供語義分割的額外提示。與其他改進邊界框檢測以産生分割的方法[17,44]不同,該方法使用檢測器輸出作為軟限制,并且是以可以忽略由對象檢測器産生的錯誤。然而,他們的表述使用了圖形切割推理,這可能是由于沒有密集的成對電勢。

      我們用與[27]不同的方式來表示檢測潛力,以便表示場推斷。平均場允許用密集的成對連接配接進行推理,進而大大提高了準确度[22,4,46]。此外,與我們潛力相關的平均野外更新是可區分的,是以可以在我們的端到端可訓練架構中學習其參數。對象檢測器也被[45]和[41]所采用,他們也模拟了描述對象假設被接受與否的程度的變量。這被[45]和[41]用來重新定位原始檢測,進而提高整體檢測性能。我們在模型中采用了類似的技術。

      在一個單獨的軌道上,[6]利用對象檢測的基本事實來弱監督深度神經網絡的語義分割訓練,進而利用了比分割有更多的對象檢測訓練資料的事實。古爾德等。 [16]使用語義分割來提出區域檢測。通過在圖形模型中加強分割區域,對象檢測和對象執行個體之間的一緻性,檢測和分割兩個任務在一個統一的模型中聯合執行。然而,貪婪的移動算法被用于推斷。這種不可區分的算法尚未被納入深度學習架構。

      我們也注意到,雖然語義分割問題主要是用像素表示的[39,31,46],但有些用超像素表示[2,3,11,7]。超像素可以捕獲比單個像素更多的上下文,如果考慮超像素之間的成對互相作用而不是單個像素,計算成本也可以降低[45]。然而,這樣的超像素表示假定片段與圖像中的對象共享邊界,這并不總是正确的。是以,一些作者[25,43]已經使用了超級像素上定義的高階勢,鼓勵地區上的标簽一緻性,但是并沒有嚴格執行。這種方法還允許多層超級像素(不一定形成層次結構)被內建。我們的配方在端到端可訓練的CNN中使用這種更高階的潛能。

      除了語義分割之外,圖形模型還被用于其他領域,如姿态估計[42],變形部分模型[14]和群體活動識别[8]等。 但是,這些作品使用的模型的性質與我們的差異很大。 一些通過圖形模型推理為參數優化提倡梯度反向傳播的早期工作包括[36,9,23]和[18]。

       我們的工作差別于上述工作,因為據我們所知,我們是第一個提出和進行一個徹底的實驗調查的高階潛力的基礎上的檢測輸出和超像素分割,在CRF是學習端到端 在一個深度網絡。

7. Conclusion

      我們提出了一個具有兩種更高階潛能的CRF模型來解決語義分割問題。第一個潛力是基于直覺的思想,即對象檢測可以為語義分割提供有用的線索。我們對這種潛力的表述能夠自動拒絕與語義分割完全不一緻的虛假對象檢測。其次,我們使用了鼓勵超像素具有一緻标簽的潛力。這兩個新的潛力可以與CRF中通常的一進制和兩兩潛力共存。

      重要的是,我們表明,在存在新的高階勢的情況下仍然有可能進行有效的平均場推斷,并推導出平均場更新的明确形式及其差異。這使得我們能夠将新的CRF模型作為CNN層的堆疊來實作,并且使用像素方式的CNN分類器在統一的深度網絡中端對端地進行訓練。我們通過實驗證明,增加更高階的勢能會顯着提高語義分割的準确性。

繼續閱讀