【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

2023-04-06 22:18:08

引介

文章提出的網絡在PASCAL VOC2012和Cityscapes上都叫TuSimple，TuSimple是指圖森公司. 不過文章讀起來也确實挺容易了解的.

這篇文章是2017年2月的文章，所屬領域為Semantic Segmentation.

Abstract

本文展示了如何通過操縱更适合實際使用的卷積相關操作來改進像素級語義分割.首先，本文實作了dense upsampling convolution(DUC)來産生像素級别的預測，目的是捕獲和編碼更加細節的資訊.然後，提出了一種hybird dilated convolution(HDC)架構用于編碼階段的使用，目的是改善由于dilated convolution造成的’gridding issue’.

本文提出的方法在Cityscapes和KITTI以及PASCAL VOC 2012當時都達到了state-of-the-art.

Introduction

在Semantic segmentation領域，目前最好的方法通常有一下三個組成部件：（１）FCN（２）CRFs（３）dilated convolution.自從FCN引入SS之後，研究人員主要關注兩個方面來提升性能：（１）更深的FCN models（２）能強大的CRFs.而本文另辟蹊徑，考慮從另一個角度提升SS性能：編碼和解碼過程中的卷積運算.解碼提出了DUC，編碼提出了HDC.

Approach

DUC

針對無法學習的二次上采樣和反卷積需要先填充0進行反池化和卷積操作的确定，本文提出DUC使用卷積操作直接生成pixel-wise的預測圖.DUC結構圖示如下：

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

原文描述得簡單易懂:

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

DUC對相對小的物體識别得很好.

HDC

這部分主要是針對dilated conv的”gridding issue”.這種現象圖示如下：

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

簡單描述就是如果多個層的dilation是一樣的，那麼網絡貢獻的數值隻有那些稀疏的點上的數值，當dilation變大的時候，由于downsampling等操作來自input的采樣會更加稀疏，局部資訊可能完全喪失，同時大距離的資訊也可能不再相關.

本文為了改進這個問題，把dilatioin rate變成鋸齒形式的，也就是不同層之間的dilation不斷變化，導緻了Fig2(b)的結果.

HDC的另一個優點是，由于dilation rates可以是任意的，是以能夠天然增大網絡的感受野，對于識别相對大的物體表現得很好.

有個需要注意的地方，本文認為，在一組中的dilation rate不應該有公因子關系，否則gridding issue會仍然存在.

Experiments

接着就是實驗部分，具體細節參看原文，效果确實不錯.

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

【TuSimple】understanding convolution for semantic segmentation引介AbstractIntroductionApproachExperiments相關資料

引介

Abstract

Introduction

Approach

Experiments

相關資料

繼續閱讀

Improving Semantic Segmentation via Video Propagation and Label Relaxation

【語義分割】Tensorflow deeplabv3+訓練自己的資料集一、制作語義分割資料集二、修改代碼三、訓練四、驗證五、可視化六、導出模型七、可能存在的一些問題

圖像語義分割——利用DeeplabV3+預測單張照片

語義分割最新進展

【PSPNet】Pyramid Scene Parsing Network引介AbstractMotivationIntroductionRelated WorkPSPNetExperimentsConclusionReference相關資料

車道線檢測網絡-LaneNet(論文簡述)摘要一介紹二方法三結果四總結

SEC [ECCV16]

基于Box Supervision的弱監督圖像語義分割

Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features-CVPR2018論文筆記Abstract.Introduction.Related work.Architecture of the Proposed MCOFMining Common Object Features

FCN 語義分割批量測試驗證集代碼:infer.py

what is global average pooling ? 全局平均池化層

圖像語義分割樣本制作——使用Matlab子產品Image Labeler 标記樣本

MIT Kimera閱讀筆記

[論文筆記] (CVPR2019) Structured Knowledge Distillation for Semantic Segmentation

FCN/MRF圖像語義分割與馬克爾夫随機場

Holistically-Nested Edge Detection讀書筆記