天天看點

Improving Semantic Segmentation via Video Propagation and Label Relaxation

Improving Semantic Segmentation via Video Propagation and Label Relaxation

一篇使用視訊資訊提升semantic segmentation 精度的工作,可以看成合理的進行data augmentation方法,文章試驗做的很全面,總體來說非常紮實。文章繼承了英偉達該組之前的sdc net (見本文附錄)的工作。

Methodology

  1. 使用SDC-net 預測某片段前後k 幀圖像motion vectors進而得到相應的image和label,增加了網絡的訓練資料。
  2. 物體邊緣的分割曆來是分割任務中比較難的地方,使用motion vectors可能存在預測不準的case更是加重了這種問題,文章緩解這種問題的方法如下圖:
    Improving Semantic Segmentation via Video Propagation and Label Relaxation

其中C是某像素周圍3x3範圍gt存在的種類數,直覺來看softmax cross entropy中傾向于使單個類别的機率為1,本文中的label relaxation傾向于使得該像素成為相鄰gt中若幹類加在一起的機率為1,如果C隻取一類就是标準的cross entropy,如果取全部類别相當于ignore。

文章的cityscape baseline也比較強,使用了ma’pi’llary pretrin, Class Uniform Sampling,resnext 50 的deeplab v3 val集miou 79.46%,video propagation 和label relaxation各提高接近一個點。 在camvid 和kitti這種小資料集上提升更明顯。

Appendices

Improving Semantic Segmentation via Video Propagation and Label Relaxation

對于 video prediction,文中提到vector based 集kernel based的方法。 vector based方法根據之前幀出現的位置resample,相當于學到了某個像素在之前幀的位置,這種方法的缺點是不能很好的應對之前幀不存在的區域;另外 kernel based的方法根據之前幀相鄰範圍像素的關系得到目前幀的像素值,這樣由于kernal的限制不利于捕捉遠距離的移動關系。文中的sdc結合了以上兩者的優點,同時做vector 集kernel的學習。

Improving Semantic Segmentation via Video Propagation and Label Relaxation

模型結構:

Improving Semantic Segmentation via Video Propagation and Label Relaxation

loss function:

除了pixel的l1 loss還用了以下loss:

Improving Semantic Segmentation via Video Propagation and Label Relaxation

L perceptual是用vgg等model的feature來限制。

Lstyle 是考慮feature的channel之間的關系

可視化結果還是不錯的

繼續閱讀