天天看點

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

論文标題:Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

作者:Liuyuan Deng, Ming Yang, Hao Li, Tianyi Li, Bing Hu, Chunxiang Wang

發表時間:2018.1.3

論文連結:https://arxiv.org/abs/1801.00708

摘要——本文用環視攝像頭(4個魚眼相機)做360°道路語義分割。首先,為了解決魚眼圖大的扭曲問題,首先作者提出了RDC(Restricted Deformable Convolution)的概念,RDC能夠通過學習輸入特征圖上用的卷積濾波器的形狀來有效建構幾何變換模型;其次,為了擷取大規模的環視圖像訓練集,本文提出了個新穎的方法叫做zoom augmentation(粗暴的翻譯它為“縮放增強”,簡單了解就是資料增強),它能将傳統的圖像(未扭曲變形)變為魚眼圖;最後,搭建了基于RDC的語義分割模型,該模型是為了真實場景下環視圖像訓練的,通過結合真實的魚眼圖和變形後的非魚眼圖的多任務學習架構。試驗證明用RDC來處理有大的扭曲變形圖像的有效性,本文提出的方法(結合矯正後的魚眼圖)在處理環視相機采集的圖像上顯示了較好的性能;

索引——Deformable convolution, semantic segmentation, road scene understanding, surround view cameras, multi-task learning.

I. INTRODUCTION

自動駕駛車需要感覺和了解周圍環境(道路使用者,可行駛區域,其他道路分割執行個體)來為之後的決策(如軌迹規劃)提供資訊。語義分割在視覺場景了解中扮演重要角色,它能解析圖像中的特定類别,如行人,車,道路。近些年,由于基于CNN的語義分割在道路場景了解中取得了巨大進步,當然他們用的相機是窄角或廣角的傳統相機【參考1】。傳統相機采用針孔相機模型:真實世界中的所有直線被投射成圖像中的直線;然而傳統相機的局限性在于它無法捕捉超廣角的景觀,為了能讓車感覺360度周邊環境,本文介紹用環視相機基于CNN實作道路場景語義分割。

環視系統廣泛用于車輛來提供駕駛員360度環視。正常環視由安裝于四周的4個魚眼相機構成,每個魚眼相機理論視野FOV大小為180°,魚眼相機拍攝圖像帶有很強的扭曲變形,給圖像處理帶來很大難度,是以魚眼圖通常會先做矯正處理【參考2,3】。然而圖像矯正會影響圖像品質(尤其是圖像邊界處)【參考4】進而導緻資訊丢失。另一方面,在原始圖像上的分割結果能作為其他任務的輸入源,例如Fig.10.所示。本文研究基于CNN在原始環視圖上的執行個體分割,如Fig.1.所示。

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

兩個挑戰因素需要考慮。第一個挑戰是有效的深度學習模型來處理魚眼圖。魚眼圖在從半圓模型到平面投射時無可避免會帶來嚴重的變形【參考5】。扭曲的層度與目标物到相機距離有關,同樣與半徑角度有關(個人解讀它與鏡頭曲率半徑有關),且空間域内的扭曲變形不是均勻的【參考4】,需要我們的CNN模型擁有建構大型且未知變換的能力。除了CNNs擁有較強的表述能力外,人工建構的結構如金字塔池化模型同樣也有很好的表述能力。第二個挑戰是用于深度神經網絡的訓練集。目前為止,最前沿的基于CNN的執行個體分割方法需要大規模的像素級的标注圖像來做模型參數優化。盡管一些道路場景資料集已經公開用于執行個體分割算法【參考11,12】,但是能用于環視相機的執行個體分割資料集特少。我們的前期工作【參考13】,已經用Cityscapes資料集(該資料集主要用于前視非魚眼相機)來建構魚眼資料集,然而對于環視來說仍還不夠(個人解讀因為前視相機采集的圖像視野和環視中側向和後向的視野圖像内容差異大,而且歐洲擷取的資料集在中國路況下可能不太适用)。

本文是對前期成果的相當大的延伸【參考13】。主要工作是進一步解決了用環視相機對道路場景語義分割,并提出了更有效的模型用于處理大扭曲變形的圖像,通過使用zoom augmentation方法來增強用于語義分割的環視資料集(該方法最初發表在 參考13中 ,通過使用随機更改相機焦距來增強)。本文,我們調整了zoom augmentation來将現存的傳統相機捕獲圖像轉為魚眼圖,用CUDA實作對縮放增強層的線上訓練。此外,我們成功實作利用環視的道路場景語義分割。

首先,我們提出的方法利用了deformable convolution來處理魚眼圖【參考10】。為了解決空間相關問題【參考14】,提出RDC進一步限制deformable convolution來做像素級的預測任務。

第二,使用各種圖像使模型适應當地環境(主要介紹了作者的資料集來源,為了模型适應力強和泛化能力好的話,資料集應該越多樣越好),這些圖像通過對Cityscapes和SYNTHIA-Seqs以及一些當地采集的真實環視圖像實施縮放增強而得到。

最後,搭建了一個多任務學習架構來訓練端到端的語義分割模型,為真實環視圖像(結合少量真實非魚眼圖像和大量變換為魚眼後的圖像)做語義分割。

AdaBN被采用來填補真實世界圖像和轉換後圖像之間的分布差距。此外,提出了混合損失權重(HLW),通過引入不同損失權重的輔助損失來提高泛化能力。文章結構:Section II相關工作回顧;Section III 介紹了RDC;Section IV介紹了把現有資料集轉為魚眼資料集的方法。Section V 介紹了訓練政策;Section VI證明性試驗。

II Related work

與人工設計子產品不同,可變形的卷積(deformable convolution)【參考10】學習了在輸入特征圖上的卷積濾波器的形狀。感受野和空間采樣位置根據物體的大小和形狀進行調整。研究表明,在CNNs中學習幾何變換是可行和有效的。然而,正如【參考14】中所指出的,可變形的卷積并不能解決在密集預測任務中至關重要的空間對應問題。DTN【參考14】保留了輸入和輸出之間空間轉換層的空間對應,并使用相應的解碼器層來恢複對應性。然而,DTN學習的是一個全局參數轉換,它被限制為每個位置的非均勻幾何變換。(上面這段文字大緻意思是可變性卷積較好但存在空間對應性問題,而DTN能解決這個問題,但是隻接受幾何變換是一緻情況,因為魚眼矯正時各個點的映射關系不是一緻的)。

現有的用于道路場景了解的資料集有:CamVid;Cityscapes(大規模用于城市場景語義分割,有5000張帶标注的圖像,采集至歐洲前視攝像頭采集圖像); Mapillary Vistas。 為應對資料集收集的困難問題,一個較為流行的方法是利用合成資料,例如: SYNTHIA ;  Virtual KITTI ;  GTA-V。合成資料常用于對真實訓練集做增強。但是這些所有資料集都非魚眼環視圖像。折中考慮模型網絡的精度和實時效率問題可參考文章【19,30,31】,為了車載嵌入式應用。本文将ERFNet作為baseline模型,用于高效語義分割。

III Restricted Deformable Convolution

正常的卷積采用一個固定的濾波器filter對特征圖中的grid位置進行采樣,如圖Fig.2a和Fig.2b所示。正常的grid形狀多為矩形,如圖Fig.2b所示,一個3x3的filter帶有膨脹孔隙為2定義如下:

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

變形卷積(deformable convolution)在grid采樣點位置添加了2D的偏移(offsets),見圖Fig.2c.每個采樣點的實際位置是可學習得到的。(讀者可以自己找這篇文章,網上也很多部落格,大概這個卷積的優勢在于濾波器采樣時可以挑你目标物位置處的點做采樣)

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

在深度CNN中,upper層編碼有進階語義資訊和弱的空間資訊,包括目标類别級資訊;而來自middle層的特征表述了目标部分區域和空間資訊;lower層的卷積特征編碼有低級的空間資訊例如邊,角點,圓等。用middle層和lower層學習空間結構資訊。如果把demormable 卷積用于lower或middle層,空間結構可能會波動。輸入圖像和輸出的label maps間的空間對應性很難保留,對于空間對應性(對于像素級的語義分割優于重要)問題請參考【14】。是以,deformable卷積操作一般僅僅對網絡最後幾個卷積層做處理,例如參考【10】。(上面這段文字總結就是deformable convolution會帶來空間對應性問題)。

本文采用了個最直接的方法來減輕空間對應性問題。如Fig.2d所示,我們當機了濾波器filter的中心位置,讓輸出位置可學習,考慮到modeling transformations很大層度上依賴于輸出采樣的位置。這種對deformable convolution做的變化稱為Restricted Deformable Convolution (RDC),如圖Fig.3.所示。RDC首先用正常濾波器的形狀做初始化,然後二維偏移量是通過一個正常的卷積層來學習的,以增加除中心外的正常網格位置。濾波器的形狀是可變性的,并且從輸入圖像圖像學習得到。RDC可屬于标準的神經網絡架構,以增強建構幾何轉換模型的能力。

A. Formulation

卷積操作用一個濾波器或核在輸入特征圖X上進行滑移,輸出得到特征圖Y。對于每個滑移位置

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

,正常濾波器是乘以W再加上b,stride步長為1,如下公式:

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras
Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

          (1)

其中c是輸入通道索引号(表示第幾個通道),Pb是卷積的基本位置,n=1,…,N其中N=|R| 且Pn∈R 枚舉了grid R中的位置。Pm是R的中心,其值為(0,0)設想核的高和寬都是奇數,如3x3, 1x3. 該設想适用于大多數的CNNs. m是中心位置的索引。

deformable卷積通過學習偏移量{

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

}來增強所有采樣點。每個偏移量都有水準和垂直兩個方向偏移,總共偏移參數有2N個,則公式(1)變為如下:

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

               (2)

 H(pn) = pb + pn + ∆pn 是早輸入特征圖上學習到的采樣位置。為了保證空間結構,我們通過固定中心位置來限制deformable卷積。即将中心偏移

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

設定為(0,0)。那麼Pm就等于(0,0),是以學習到的位置公式如下:

Restricted Deformable Convolution based Road Scene Semantic Segmentation Using Surround View Cameras

(就是說原來卷積核中心位置的base點不偏移,其他非中心點會偏移) ,那麼RDC公式可用如下形式表示:

繼續閱讀