![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2cswmVtNGM5YVWspkMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLyQTOwQDOyAjMyAjNwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
一篇使用視訊資訊提升semantic segmentation 精度的工作,可以看成合理的進行data augmentation方法,文章試驗做的很全面,總體來說非常紮實。文章繼承了英偉達該組之前的sdc net (見本文附錄)的工作。
Methodology
- 使用SDC-net 預測某片段前後k 幀圖像motion vectors進而得到相應的image和label,增加了網絡的訓練資料。
- 物體邊緣的分割曆來是分割任務中比較難的地方,使用motion vectors可能存在預測不準的case更是加重了這種問題,文章緩解這種問題的方法如下圖:
Improving Semantic Segmentation via Video Propagation and Label Relaxation
其中C是某像素周圍3x3範圍gt存在的種類數,直覺來看softmax cross entropy中傾向于使單個類别的機率為1,本文中的label relaxation傾向于使得該像素成為相鄰gt中若幹類加在一起的機率為1,如果C隻取一類就是标準的cross entropy,如果取全部類别相當于ignore。
文章的cityscape baseline也比較強,使用了ma’pi’llary pretrin, Class Uniform Sampling,resnext 50 的deeplab v3 val集miou 79.46%,video propagation 和label relaxation各提高接近一個點。 在camvid 和kitti這種小資料集上提升更明顯。
Appendices
對于 video prediction,文中提到vector based 集kernel based的方法。 vector based方法根據之前幀出現的位置resample,相當于學到了某個像素在之前幀的位置,這種方法的缺點是不能很好的應對之前幀不存在的區域;另外 kernel based的方法根據之前幀相鄰範圍像素的關系得到目前幀的像素值,這樣由于kernal的限制不利于捕捉遠距離的移動關系。文中的sdc結合了以上兩者的優點,同時做vector 集kernel的學習。
模型結構:
loss function:
除了pixel的l1 loss還用了以下loss:
L perceptual是用vgg等model的feature來限制。
Lstyle 是考慮feature的channel之間的關系
可視化結果還是不錯的