本文授權轉載自公衆号:有三AI
專欄《圖像分割模型》正式完結了。在本專欄中,我們從編解碼結構入手,講到解碼器設計;從感受野,講到多尺度融合;從CNN,講到RNN與CRF;從2D分割,講到3D分割;從語義分割到執行個體分割和全景分割。這篇文章我們就一起回顧一下這些網絡結構。
作者 | 孫叔橋
編輯 | 言有三
FCN
Fully Convolutional Network(FCN)是神經網絡用于圖像分割任務的鼻祖,後續提出的大部分基于編解碼結構的圖像分割網絡都是從FCN上發展、改進而來的。
FCN用卷積層替換了分類網絡結構中的全連接配接層,進而得到稠密的分割結果,實作端到端訓練。
同時,網絡還将不同尺度下的特征資訊進行融合,實作更細節的圖像分割。

【圖像分割模型】從FCN說起
SegNet
SegNet在FCN的基礎上增加了解碼器,形成目前分割任務中最流行的編解碼結構,并給出了不同解碼器對效果的影響和原因。
此外,由于應用了基于位置資訊的加碼過程,相比較FCN而言,SegNet中的對應結構的體量要小得多。
【圖像分割模型】編解碼結構SegNet
空洞卷積
編解碼結構中,為了平衡空間尺寸與計算量,同時增大網絡結構的感受野,通常會對輸入圖像進行一定的下采樣。為了恢複分割結果的空間分辨率,解碼器往往需要應用上采樣或反卷積。
但是,基于插值的上采樣效果通常不理想,而反卷積操作則增加了計算量。基于此,DeepLab中就提出了“空洞卷積”的概念,在不增加參數個數的基礎上,實作感受野與分辨率的控制。
【分割模型解讀】感受野與分辨率的控制術—空洞卷積
ENet
圖像分割的任務最終還是要落腳于實際應用,而此前的網絡結構最快也隻能達到1fps,遠不及實時所需要的10fps。
ENet基于空洞卷積,實作了NVIDIA TX1上分辨率480x320下的21.1fps。
此外,文中還介紹了設計實時網絡結構所需要考慮的6個重要内容。
【圖像分割模型】快速道路場景分割—ENet
CRFasRNN
在許多計算機視覺任務中,後處理操作能夠有效提升算法的品質。而在衆多後處理方法中,條件随機場(CRF)的效果名列前茅。
然而,CRF的理論性強,應用起來不友善。是以,CRFasRNN中提出以RNN的形式實作CRF的解決方案,進而讓基于CRF的後處理變得簡單。
【圖像分割模型】以RNN形式做CRF後處理—CRFasRNN
PSPNet
不同感受野下所帶來的上下文資訊對圖像分割而言十分重要,往往感受野選擇的恰當性會直接影響最終的分割效果,這種影響對極端尺寸(極大和極小)目标表現地尤為明顯。
為了在同一級别下融合多尺度下的上下文資訊,PSPNet提出了池化金字塔結構,進而實作了可以了解目标所處環境的圖像分割。
【圖像分割模型】多感受野的金字塔結構—PSPNet
ParseNet
盡管從網絡結構看,有些網絡的理論感受野能夠達到非常大,但實際上,理論感受野并不能等同于實際感受野,其覆寫和利用的資訊也不夠完整。
基于這個發現,ParseNet提出了基于池化的全局特征利用,進而實作全局特征與局部特征融合下的圖像分割。
文中也介紹了如何有效融合兩種特征,并利用好融合特征。
【圖像分割模型】全局特征與局部特征的交響曲—ParseNet
RefineNet
盡管前面的特征融合方法能夠恢複在計算過程中被下降的空間分辨率,但是這種恢複往往沒有利用完整的原始空間資訊,進而導緻最終結果中的資訊丢失。
基于此,RefineNet設計了空間分辨率的恢複結構,實作了基于殘差卷積子產品(RCU)、多分辨率融合子產品(MRF)和串聯殘差池化子產品(CRP)下的高精度圖像分割。
【圖像分割模型】多分辨率特征融合—RefineNet
ReSeg
盡管CNN的效果不錯,但是其需要依賴人工指定的核函數實作計算,進而限制了上下文的處理能力。是以,ReSeg提出基于雙向循環神經網絡(BRNN)實作分割,來克服這種不足。
在ReNet的基礎上,ReSeg通過依次掃描互相垂直的兩個方向,實作不同時序下的特征提取。
【圖像分割模型】用BRNN做分割—ReSeg
LSTM-CF
除了單純基于2D的RGB圖像的分割外,圖像分割任務的完成還可以利用深度資訊進行輔助,進而實作紋理資訊下無法判斷的分割。
LSTM-CF基于ReNet和空洞卷積,實作結合了深度資訊的圖像分割。為精度提升和深度資訊利用提供了一種思路。
【圖像分割模型】BRNN下的RGB-D分割—LSTM-CF
DeepMask
除了語義分割,圖像分割中還有另外兩種類别的任務:執行個體分割和全景分割。
我們通過DeepMask,給出了執行個體分割下的網絡的設計思路。DeepMask可以同時實作前背景分割、前景語義分割和前景執行個體分割。
【圖像分割模型】執行個體分割模型—DeepMask
全景分割
語義分割與執行個體分割任務雖然相似,但是由于度量不同,二者無法直接結合。為了實作整圖内things類别和stuff類别的同時分割,全景分割任務提出了新的度量。
全景分割任務下,圖像内的每個像素點都有其對應的語義标簽和執行個體标簽(things類别),進而能夠最大程度上地了解整幅圖像。
【圖像分割模型】全景分割是什麼?
總結
希望經過這個專欄,想入門圖像分割的小夥伴們對這個領域已經有了基本的概念和了解,已經入門的小夥伴能夠找到自己的盲區繼續深入。
研究的路需要靜下心慢慢走,揪住一個點不斷精進,希望有我們的陪伴,這條路大家走得不那麼孤獨,也更順利。
就這樣啦,再見!