天天看點

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

PSPNet

Pyramid Scene Parsing Network

文章位址:paper

項目位址:

https://github.com/hszhao/PSPNet

keras

tensorflow

部分内容轉載于https://blog.csdn.net/u011974639/article/details/78985130

Abstract

Scene parsing is challenging for unrestricted open vocabulary and diverse scenes. In this paper, we exploit the capability of global context information by different-region based context aggregation through our pyramid pooling module together with the proposed pyramid scene parsing network (PSPNet). Our global prior representation is effective to produce good quality results on the scene parsing task, while PSPNet provides a superior framework for pixellevel prediction. The proposed approach achieves state-ofthe-art performance on various datasets. It came first in ImageNet scene parsing challenge 2016, PASCAL VOC 2012 benchmark and Cityscapes benchmark. A single PSPNet yields the new record of mIoU accuracy 85.4% on PASCAL VOC 2012 and accuracy 80.2% on Cityscapes.

提出金字塔池化子產品,聚合不同區域的上下文資訊。即多尺度融合的思想,類比于GCN、BiSeNet的large kernel size和context path。

Introduction

基于語義分割的場景解析(Scene parsing)任務,目前state-of-the-arts大多基于FCN實作,但是研究發現目前主要的基于FCN的模型缺乏全局場景資訊的使用:

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

Mismatched Relationship:上下文關系比對對了解複雜場景很重要,例如在上圖第一行,在水面上的大很可能是“boat”,而不是“car”。雖然“boat和“car”很像。FCN缺乏依據上下文推斷的能力。

Confusion Categories: 許多标簽之間存在關聯,可以通過标簽之間的關系彌補。上圖第二行,把摩天大廈的一部分識别為建築物,這應該隻是其中一個,而不是二者。這可以通過類别之間的關系彌補。

Inconspicuous Classes:模型可能會忽略小的東西,而大的東西可能會超過FCN接收範圍,進而導緻不連續的預測。如上圖第三行,枕頭與被子材質一緻,被識别成到一起了。為了提高不顯眼東西的分割效果,應該注重小面積物體。

總結這些情況,許多問題出在FCN不能有效的處理場景之間的關系和全局資訊。本論文提出了能夠擷取全局場景的深度網絡PSPNet,能夠融合合适的全局特征,将局部和全局資訊融合到一起。并提出了一個适度監督損失的優化政策,在多個資料集上表現優異。

本文的主要貢獻如下:

1、We propose a pyramid scene parsing network to embed difficult scenery context features in an FCN based pixel prediction framework.

提出了一個金字塔場景解析網絡,能夠将難解析的場景資訊特征嵌入基于FCN預測架構中

2、We develop an effective optimization strategy for deep ResNet [13] based on deeply supervised loss.

在基于深度監督損失的ResNet上制定有效的優化政策

3、We build a practical system for state-of-the-art scene parsing and semantic segmentation where all crucial implementation details are included.

建構了一個實用的系統,用于場景解析和語義分割,并包含了實施細節

related work

受到深度神經網絡的驅動,場景解析和語義分割獲得了極大的進展。例如FCN、ENet等工作。許多深度卷積神經網絡為了擴大高層feature的感受野,常用dilated convolution(空洞卷積)、coarse-to-fine structure等方法。本文基于先前的工作,選擇的baseline是帶dilated network的FCN。

大多數語義分割模型工作基于兩個方面:

1)多尺度特征融合,高層特征具有更多的語義和全局上下文資訊,底層特征包含細節資訊;

2)CRF後處理優化邊界

網絡結構

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network
論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

該子產品融合了4種不同金字塔尺度的特征,第一行紅色是最粗糙的特征–全局池化生成單個bin輸出,後面三行是不同尺度的池化特征。為了保證全局特征的權重,如果金字塔共有N個級别,則在每個級别後使用1×1的卷積将對于級别通道降為原本的1/N(特征圖通道數2048 x 1/4 = 512)。再通過雙線性插值獲得未池化前的大小,最終concat到一起。

金字塔等級的池化核大小是可以設定的,這與送到金字塔的輸入有關。論文中使用的4個等級,核大小分别為1×1,2×2,3×3,6×6

完整pipeline:

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

基礎層經過預訓練的模型(ResNet101)和空洞卷積政策提取feature map,提取後的feature map是輸入的1/8大小

feature map經過Pyramid Pooling Module得到融合的帶有整體資訊的feature,在上采樣與池化前的feature map相concat

最後過一個卷積層得到最終輸出

基于ResNet的深度監督網絡

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

在ResNet101的基礎上做了改進,除了使用後面的softmax分類做loss,額外的在第四階段添加了一個輔助的loss,兩個loss一起傳播,使用不同的權重,共同優化參數。後續的實驗證明這樣做有利于快速收斂。

實驗部分(該部分參考https://blog.csdn.net/u011974639/article/details/78985130)

論文筆記-PSPNet-Semantic Segmentation--Pyramid Scene Parsing Network論文筆記-PSPNet-Semantic Segmentation–Pyramid Scene Parsing Network

繼續閱讀