【論文閱讀】Pyramid Scene Parsing Network

2021-07-14 22:35:00

解決的問題：(FCN)

Mismatched Relationship: 比對關系錯誤，如将在水中的船識别為車。

Confusion Categories: 模糊的分類，如 hill 和 mountain的區分。

Inconspicuous classes: 無視小尺寸物品。

這些錯誤與語義間的關系以及不同感覺區域的全局資訊有關。

通常情況下，我們可以粗略認為，卷積層卷積核大小（感覺域）能夠表示結構考慮了多大範圍的context。然而，在研究中表面，卷積層實際感覺域小于理論。是以，很多結構并不能很好地表現全局資訊。（即進行分割任務的時候，不能很好的利用全局資訊來限制分割效果）

PSPNet 結構

上圖結構首先将輸入圖檔(a)用<code>ResNet</code>提取成特征圖(b)。

通過pyramid pooling modules 來進行不同尺寸的池化。文章中将特征圖大小分别池化為：<code>1x1,2x2,3x3,6x6</code>。并通過一個卷積層将每個特征通道數變為feature map通道數的<code>1/N</code>，其中N為級數，此時N=4。

最後将池化結果上采樣(文中使用了雙線性插值)，與特征圖(b)連接配接後，通過卷積層輸出結果。

這個結構與FCN不同的是，它通過pyramid的池化層考慮了不同尺寸的全局資訊。而在FCN中隻考慮了某一個池化層，如FCN-16s 隻考慮pool4。

輔助loss

文中還提到了為了訓練使用了一個輔助的loss，網絡越深性能越好，但是也越難訓練.(ResNet solves this problem with skip connection in each block”。作者在網絡中間引入了一個額外的loss函數，這個loss函數和網絡輸出層的loss pass through all previous layers，圖示如下

其中loss1是最終的分割loss（softmax_loss），loss2是添加的輔助loss，二類分交叉熵函數，（多分類問題）

實作細節

圖檔輸入的CNN是ResNet，使用了dilated convolution

Pyramid Pooling Module中的conv是１×１的卷積層，為了減小次元和維持全局特征的權重

Pyramid Pooling Module中的pooling的數量以及尺寸都是可以調節的

上采樣使用的雙線性插值

poly learning rate policy

資料擴增用了：random mirror, random resize(0.5-2), random rotation(-10到10度), random Gaussian blur

選取合适的batchsize

【論文閱讀】Pyramid Scene Parsing Network

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡