作者:WeisongZhao 來源:CSDN
連結:https://blog.csdn.net/weixin_41923961/article/details/80946586
CNN圖像語義分割基本上是這個套路:
1. 下采樣+上采樣:Convlution + Deconvlution/Resize
2. 多尺度特征融合:特征逐點相加/特征channel次元拼接
3. 獲得像素級别的segement map:對每一個像素點進行判斷類别
即使是更複雜的DeepLab v3+依然也是這個基本套路。
圖13 DeepLab v3+
Image Segmentation(圖像分割)網絡結構比較
FCNImage Segmentation(圖像分割)族譜
FCN
- DeepLab
- DeconvNet
-
- SegNet
- PSPNet
- Mask-RCNN
按分割目的劃分
普通分割
将不同分屬不同物體的像素區域分開。
如前景與後景分割開,狗的區域與貓的區域與背景分割開。
語義分割
在普通分割的基礎上,分類出每一塊區域的語義(即這塊區域是什麼物體)。
如把畫面中的所有物體都指出它們各自的類别。
執行個體分割
在語義分割的基礎上,給每個物體編号。
如這個是該畫面中的狗A,那個是畫面中的狗B。
論文推薦
圖像的語義分割(Semantic Segmentation)是計算機視覺中非常重要的任務。它的目标是為圖像中的每個像素分類。如果能夠快速準去地做圖像分割,很多問題将會迎刃而解。是以,它的應用領域就包括但不限于:自動駕駛、圖像美化、三維重建等等。
語義分割是一個非常困難的問題,尤其是在深度學習之前。深度學習使得圖像分割的準确率提高了很多,下面我們就總結一下近年來最具有代表性的方法和論文。
Fully Convolutional Networks (FCN)
我們介紹的第一篇論文是Fully Convolutional Networks for Semantic Segmentation,簡稱FCN。
這篇論文是第一篇成功使用深度學習做圖像語義分割的論文。論文的主要貢獻有兩點:
提出了全卷積網絡。将全連接配接網絡替換成了卷積網絡,使得網絡可以接受任意大小的圖檔,并輸出和原圖一樣大小的分割圖。隻有這樣,才能為每個像素做分類。
使用了反卷積層(Deconvolution)。分類神經網絡的特征圖一般隻有原圖的幾分之一大小。想要映射回原圖大小必須對特征圖進行上采樣,這就是反卷積層的作用。
雖然名字叫反卷積層,但其實它并不是卷積的逆操作,更合适的名字叫做轉置卷積(Transposed Convolution),作用是從小的特征圖卷出大的特征圖。
這是神經網絡做語義分割的開山之作,需徹底了解。
DeepLab
DeepLab有v1 v2 v3,第一篇名字叫做DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs。
這一系列論文引入了以下幾點比較重要的方法:
第一個是帶洞卷積,英文名叫做Dilated Convolution,或者Atrous Convolution。帶洞卷積實際上就是普通的卷積核中間插入了幾個洞,如下圖。
它的運算量跟普通卷積保持一樣,好處是它的“視野更大了”,比如普通3x3卷積的結果的視野是3x3,插入一個洞之後的視野是5x5。視野變大的作用是,在特征圖縮小到同樣倍數的情況下可以掌握更多圖像的全局資訊,這在語義分割中很重要。
Pyramid Scene Parsing Network
Pyramid Scene Parsing Network的核心貢獻是Global Pyramid Pooling,翻譯成中文叫做全局金字塔池化。它将特征圖縮放到幾個不同的尺寸,使得特征具有更好地全局和多尺度資訊,這一點在準确率提升上上非常有用。
其實不光是語義分割,金字塔多尺度特征對于各類視覺問題都是挺有用的。
Mask R-CNN
Mask R-CNN是大神何凱明的力作,将Object Detection與Semantic Segmentation合在了一起做。它的貢獻主要是以下幾點。
第一,神經網絡有了多個分支輸出。Mask R-CNN使用類似Faster R-CNN的架構,Faster R-CNN的輸出是物體的bounding box和類别,而Mask R-CNN則多了一個分支,用來預測物體的語義分割圖。
也就是說神經網絡同時學習兩項任務,可以互相促進。
第二,在語義分割中使用Binary Mask。原來的語義分割預測類别需要使用0 1 2 3 4等數字代表各個類别。在Mask R-CNN中,檢測分支會預測類别。這時候分割隻需要用0 1預測這個物體的形狀面具就行了。
第三,Mask R-CNN提出了RoiAlign用來替換Faster R-CNN中的RoiPooling。RoiPooling的思想是将輸入圖像中任意一塊區域對應到神經網絡特征圖中的對應區域。
RoiPooling使用了化整的近似來尋找對應區域,導緻對應關系與實際情況有偏移。這個偏移在分類任務中可以容忍,但對于精細度更高的分割則影響較大。
為了解決這個問題,RoiAlign不再使用化整操作,而是使用線性插值來尋找更精準的對應區域。效果就是可以得到更好地對應。
實驗也證明了效果不錯。下面展示了與之前方法的對比,下面的圖是Mask R-CNN,可以看出精細了很多。
U-Net
U-Net是原作者參加ISBI Challenge提出的一種分割網絡,能夠适應很小的訓練集(大約30張圖)。U-Net與FCN都是很小的分割網絡,既沒有使用空洞卷積,也沒有後接CRF,結構簡單。
圖9 U-Net網絡結構圖
整個U-Net網絡結構如圖9,類似于一個大大的U字母:首先進行Conv+Pooling下采樣;然後Deconv反卷積進行上采樣,crop之前的低層feature map,進行融合;然後再次上采樣。
重複這個過程,直到獲得輸出388x388x2的feature map,最後經過softmax獲得output segment map。總體來說與FCN思路非常類似。
為何要提起U-Net?
是因為U-Net采用了與FCN完全不同的特征融合方式:拼接!
圖10 U-Net concat特征融合方式
與FCN逐點相加不同,U-Net采用将特征在channel次元拼接在一起,形成更“厚”的特征。
是以語義分割網絡在特征融合時也有2種辦法:
1. FCN式的逐點相加,對應caffe的EltwiseLayer層,對應tensorflow的tf.add()
2. U-Net式的channel次元拼接融合,對應caffe的ConcatLayer層,對應tensorflow的tf.concat()
綜述介紹
圖像語義分割,簡單而言就是給定一張圖檔,對圖檔上的每一個像素點分類
從圖像上來看,就是我們需要将實際的場景圖分割成下面的分割圖:
不同顔色代表不同類别。經過閱讀“大量”論文和檢視 PASCAL VOC Challenge performance evaluation server,發現圖像語義分割從深度學習引入這個任務(FCN)到現在而言,一個通用的架構已經大概确定了。即:
- FCN-全卷積網絡
- CRF-條件随機場
- MRF-馬爾科夫随機場
前端使用FCN進行特征粗提取,後端使用CRF/MRF優化前端的輸出,最後得到分割圖。
前端
為什麼需要FCN?
我們分類使用的網絡通常會在最後連接配接幾層全連接配接層,它會将原來二維的矩陣(圖檔)壓扁成一維的,進而丢失了空間資訊,最後訓練輸出一個标量,這就是我們的分類标簽。
而圖像語義分割的輸出需要是個分割圖,且不論尺寸大小,但是至少是二維的。
是以,我們需要丢棄全連接配接層,換上全卷積層,而這就是全卷積網絡了。
具體定義請參看論文:
Fully Convolutional Networks for Semantic Segmentation
前端結構
FCN
此處的FCN特指Fully Convolutional Networks for Semantic Segmentation論文中提出的結構,而非廣義的全卷積網絡。
作者的FCN主要使用了三種技術:
- 卷積化(Convolutional)
- 上采樣(Upsample)
- 跳躍結構(Skip Layer)
卷積化
卷積化即是将普通的分類網絡,比如VGG16,ResNet50/101等網絡丢棄全連接配接層,換上對應的卷積層即可。
上采樣
此處的上采樣即是反卷積(Deconvolution)。當然關于這個名字不同架構不同,Caffe和Kera裡叫Deconvolution,而tensorflow裡叫conv_transpose。
CS231n這門課中說,叫conv_transpose更為合适。
衆所諸知,普通的池化(為什麼這兒是普通的池化請看後文)會縮小圖檔的尺寸,比如VGG16 五次池化後圖檔被縮小了32倍。為了得到和原圖等大的分割圖,我們需要上采樣/反卷積。
反卷積和卷積類似,都是相乘相加的運算。隻不過後者是多對一,前者是一對多。而反卷積的前向和後向傳播,隻用颠倒卷積的前後向傳播即可。
是以無論優化還是後向傳播算法都是沒有問題。圖解如下:
但是,雖然文中說是可學習的反卷積,但是作者實際代碼并沒有讓它學習,可能正是因為這個一對多的邏輯關系。代碼如下:
layer { name: "upscore" type: "Deconvolution" bottom: "score_fr" top: "upscore" param { lr_mult: 0 } convolution_param { num_output: 21 bias_term: false kernel_size: 64 stride: 32 }}
可以看到lr_mult被設定為了0.
跳躍結構
(這個奇怪的名字是我翻譯的,好像一般叫忽略連接配接結構)這個結構的作用就在于優化結果,因為如果将全卷積之後的結果直接上采樣得到的結果是很粗糙的,是以作者将不同池化層的結果進行上采樣之後來優化輸出。具體結構如下:
而不同上采樣結構得到的結果對比如下:
當然,你也可以将pool1, pool2的輸出再上采樣輸出。不過,作者說了這樣得到的結果提升并不大。
這是第一種結構,也是深度學習應用于圖像語義分割的開山之作,是以得了CVPR2015的最佳論文。但是,還是有一些處理比較粗糙的地方,具體和後面對比就知道了。
SegNet/DeconvNet
這樣的結構總結在這兒,隻是我覺得結構上比較優雅,它得到的結果不一定比上一種好。
SegNet
DeconvNet
這樣的對稱結構有種自編碼器的感覺在裡面,先編碼再解碼。這樣的結構主要使用了反卷積和上池化。即:
反卷積如上。而上池化的實作主要在于池化時記住輸出值的位置,在上池化時再将這個值填回原來的位置,其他位置填0即OK。
DeepLab
接下來介紹一個很成熟優雅的結構,以至于現在的很多改進是基于這個網絡結構的進行的。
首先這裡我們将指出一個第一個結構FCN的粗糙之處:為了保證之後輸出的尺寸不至于太小,FCN的作者在第一層直接對原圖加了100的padding,可想而知,這會引入噪聲。
而怎樣才能保證輸出的尺寸不會太小而又不會産生加100 padding這樣的做法呢?
可能有人會說減少池化層不就行了,這樣理論上是可以的,但是這樣直接就改變了原先可用的結構了,而且最重要的一點是就不能用以前的結構參數進行fine-tune了。
是以,Deeplab這裡使用了一個非常優雅的做法:将pooling的stride改為1,再加上 1 padding。這樣池化後的圖檔尺寸并未減小,并且依然保留了池化整合特征的特性。
但是,事情還沒完。因為池化層變了,後面的卷積的感受野也對應的改變了,這樣也不能進行fine-tune了。是以,Deeplab提出了一種新的卷積,帶孔的卷積:Atrous Convolution.即:
而具體的感受野變化如下:
a為普通的池化的結果,b為“優雅”池化的結果。我們設想在a上進行卷積核尺寸為3的普通卷積,則對應的感受野大小為7.而在b上進行同樣的操作,對應的感受野變為了5.感受野減小了。
但是如果使用hole為1的Atrous Convolution則感受野依然為7.
是以,Atrous Convolution能夠保證這樣的池化後的感受野不變,進而可以fine tune,同時也能保證輸出的結果更加精細。即:
總結
這裡介紹了三種結構:FCN, SegNet/DeconvNet,DeepLab。當然還有一些其他的結構方法,比如有用RNN來做的,還有更有實際意義的weakly-supervised方法等等。
後端
終于到後端了,後端這裡會講幾個場,涉及到一些數學的東西。我的了解也不是特别深刻,是以歡迎吐槽。
全連接配接條件随機場(DenseCRF)
對于每個像素
具有類别标簽
還有對應的觀測值
,這樣每個像素點作為節點,像素與像素間的關系作為邊,即構成了一個條件随機場。
而且我們通過觀測變量
來推測像素
對應的類别标簽
。條件随機場如下:
條件随機場符合吉布斯分布:(此處的
即上面說的觀測值)
其中的
是能量函數,為了簡便,以下省略全局觀測
:
其中的一進制勢函數
即來自于前端FCN的輸出。而二進制勢函數如下:
二進制勢函數就是描述像素點與像素點之間的關系,鼓勵相似像素配置設定相同的标簽,而相差較大的像素配置設定不同标簽,而這個“距離”的定義與顔色值和實際相對距離有關。
是以這樣CRF能夠使圖檔盡量在邊界處分割。
而全連接配接條件随機場的不同就在于,二進制勢函數描述的是每一個像素與其他所有像素的關系,是以叫“全連接配接”。
關于這一堆公式大家随意了解一下吧... ...而直接計算這些公式是比較麻煩的(我想也麻煩),是以一般會使用平均場近似方法進行計算。
而平均場近似又是一堆公式,這裡我就不給出了(我想大家也不太願意看),願意了解的同學直接看論文吧。
CRFasRNN
最開始使用DenseCRF是直接加在FCN的輸出後面,可想這樣是比較粗糙的。
而且在深度學習中,我們都追求end-to-end的系統,是以CRFasRNN這篇文章将DenseCRF真正結合進了FCN中。
這篇文章也使用了平均場近似的方法,因為分解的每一步都是一些相乘相加的計算,和普通的加減(具體公式還是看論文吧),是以可以友善的把每一步描述成一層類似卷積的計算。
這樣即可結合進神經網絡中,并且前後向傳播也不存在問題。
當然,這裡作者還将它進行了疊代,不同次數的疊代得到的結果優化程度也不同(一般取10以内的疊代次數),是以文章才說是as RNN。
優化結果如下:
馬爾科夫随機場(MRF)
在Deep Parsing Network中使用的是MRF,它的公式具體的定義和CRF類似,隻不過作者對二進制勢函數進行了修改:
其中,作者加入的
為label context,因為
隻是定義了兩個像素同時出現的頻率,而
可以對一些情況進行懲罰,比如,人可能在桌子旁邊,但是在桌子下面的可能性就更小一些。
是以這個量可以學習不同情況出現的機率。而原來的距離
隻定義了兩個像素間的關系,作者在這兒加入了個triple penalty,即還引入了
附近的
,這樣描述三方關系便于得到更充足的局部上下文。具體結構如下:
這個結構的優點在于:
- 将平均場構造成了CNN
- 聯合訓練并且可以one-pass inference,而不用疊代
高斯條件随機場(G-CRF)
這個結構使用CNN分别來學習一進制勢函數和二進制勢函數。這樣的結構是我們更喜歡的:
而此中的能量函數又不同于之前:
而當
是對稱正定時,求
的最小值等于求解:
而G-CRF的優點在于:
- 二次能量有明确全局
- 解線性簡便很多
感悟
FCN更像一種技巧。随着基本網絡(如VGG, ResNet)性能的提升而不斷進步。
深度學習+機率圖模型(PGM)是一種趨勢。其實DL說白了就是進行特征提取,而PGM能夠從數學理論很好的解釋事物本質間的聯系。
機率圖模型的網絡化。因為PGM通常不太友善加入DL的模型中,将PGM網絡化後能夠是PGM參數自學習,同時構成end-to-end的系統。
引用
[1]Fully Convolutional Networks for Semantic Segmentation
[2]Learning Deconvolution Network for Semantic Segmentation
[3]Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials
[4]Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
[5]Conditional Random Fields as Recurrent Neural Networks
[6]DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
[7]Semantic Image Segmentation via Deep Parsing Network
[8]Fast, Exact and Multi-Scale Inference for Semantic Image Segmentation with Deep Gaussian CRFs
[9]SegNet
猜您喜歡:
超100篇!CVPR 2020最全GAN論文梳理彙總!
拆解組新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多樣性圖像生成
附下載下傳 | 《可解釋的機器學習》中文版
附下載下傳 |《TensorFlow 2.0 深度學習算法實戰》
附下載下傳 |《計算機視覺中的數學方法》分享
《基于深度學習的表面缺陷檢測方法綜述》
《零樣本圖像分類綜述: 十年進展》
《基于深度神經網絡的少樣本學習綜述》