論文連結
http://openaccess.thecvf.com/content_ECCV_2018/papers/Changqian_Yu_BiSeNet_Bilateral_Segmentation_ECCV_2018_paper.pdf
動機
目前加速實時語義分割的方法:(1)限制輸入圖檔的分辨率以減少計算複雜度,但導緻了空間細節資訊丢失 (2)減少網絡通道數,但減弱了空間特征資訊容納能力 (3)減少下采樣操作,使得網絡結構更加緊湊,但是導緻感受野難以覆寫大目标。而目前廣泛使用的U-shape structure雖然可以減少空間細節損失,但是有兩個缺點:(1)額外的高分辨率的特征圖的計算減低了模型速度 (2)大部分在減少通道數或減小輸入圖檔分辨率時損失的空間資訊難以通過跳躍連接配接低層資訊進行恢複
貢獻
提出Bilateral Segmentation Network (BiSeNet),包含Spatial Path (SP) and Context Path (CP)。SP中隻有3個卷積層獲得邊長為原圖邊長的1/8的特征圖,用于保留豐富的空間資訊。在CP中,在xception網絡的尾部添加了全局平均池化層,以獲得最大的感受野。
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczX0xiRGZkRGZ0Xy9GbvNGL2EzXlpXazxyMFRUTwMmaOBTS6hFMG1mYw50MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLxgDNwQTNykTM0IzNwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
算法
Spatial path:儲存原始圖檔的空間尺度并編碼豐富的空間資訊
Context path:使用輕量級的xception網絡,加上全局平均池化,進而得到大的感受野,編碼高層的語義特征。最後融合全局平均池化後上采樣的特征和xception的特征。
Attention refinement module:使用全局平均池化捕捉全局語義資訊并計算一個注意力向量引導特征學習,計算量小
Feature fusion module:SP和CP的特征資訊是不同的,是以不能簡單地element-wise sum。SP中是低層抽象資訊,CP中是高層抽象資訊,是以設計了FFM進行兩個不同特征的融合
損失函數:除了分割損失函數,在CP添加了兩個輔助損失函數用于深度監督
實驗
資料集
Cityscapes,CamVid,COCO-Stuff
評價名額
參數總量、FPS、mIoU
結果
優缺點
優點
1.提出了spatial path和context path結合的思路
2.與其他一些實時分割方法相比,速度更快,效果更好
3.實驗非常充分
缺點
1.沒有解釋清楚兩個輔助損失函數的作用,也沒有對這兩個輔助損失函數的效果做比較實驗
2.圖中左邊的兩個箭頭沒有解釋清楚是什麼操作,如果是輸入FFM進行concat,應該需要upsample
反思
1.在語義分割中使用輔助的損失函數是否能夠提高效果?
2.既然可以分為spatial path和context path,是否可以分出更多path進一步提升效果?