天天看點

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

引介

文章提出的網絡在PASCAL VOC2012和Cityscapes上都叫TuSimple,TuSimple是指圖森公司. 不過文章讀起來也确實挺容易了解的.

這篇文章是2017年2月的文章,所屬領域為Semantic Segmentation.

Abstract

本文展示了如何通過操縱更适合實際使用的卷積相關操作來改進像素級語義分割.首先,本文實作了dense upsampling convolution(DUC)來産生像素級别的預測,目的是捕獲和編碼更加細節的資訊.然後,提出了一種hybird dilated convolution(HDC)架構用于編碼階段的使用,目的是改善由于dilated convolution造成的’gridding issue’.

本文提出的方法在Cityscapes和KITTI以及PASCAL VOC 2012當時都達到了state-of-the-art.

Introduction

在Semantic segmentation領域,目前最好的方法通常有一下三個組成部件:(1)FCN(2)CRFs(3)dilated convolution.自從FCN引入SS之後,研究人員主要關注兩個方面來提升性能:(1)更深的FCN models(2)能強大的CRFs.而本文另辟蹊徑,考慮從另一個角度提升SS性能:編碼和解碼過程中的卷積運算.解碼提出了DUC,編碼提出了HDC.

Approach

DUC

針對無法學習的二次上采樣和反卷積需要先填充0進行反池化和卷積操作的确定,本文提出DUC使用卷積操作直接生成pixel-wise的預測圖.DUC結構圖示如下:

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

原文描述得簡單易懂:

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

DUC對相對小的物體識别得很好.

HDC

這部分主要是針對dilated conv的”gridding issue”.這種現象圖示如下:

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

簡單描述就是如果多個層的dilation是一樣的,那麼網絡貢獻的數值隻有那些稀疏的點上的數值,當dilation變大的時候,由于downsampling等操作來自input的采樣會更加稀疏,局部資訊可能完全喪失,同時大距離的資訊也可能不再相關.

本文為了改進這個問題,把dilatioin rate變成鋸齒形式的,也就是不同層之間的dilation不斷變化,導緻了Fig2(b)的結果.

HDC的另一個優點是,由于dilation rates可以是任意的,是以能夠天然增大網絡的感受野,對于識别相對大的物體表現得很好.

有個需要注意的地方,本文認為,在一組中的dilation rate不應該有公因子關系,否則gridding issue會仍然存在.

Experiments

接着就是實驗部分,具體細節參看原文,效果确實不錯.

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

相關資料

  • 源代碼,MXNET實作: https://goo.gl/DQMeun

繼續閱讀