天天看点

WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配

WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配

本文由知乎作者青青韶华授权转载,不得擅自二次转载。

论文题目:Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures

论文地址:​​https://arxiv.org/abs/1903.04939v1​​

开源代码:​​https://github.com/ayanc/fdscs​​

本文介绍Amazon和华盛顿大学在WACV 2020上的论文《Fast Deep Stereo with 2D Convolutional Processing of Cost Signatures》,他们在这篇工作中提出了一个实时的深度立体匹配网络,在GPU上可以达到48FPS。

首先来看和其他SOTA实时网络的对比,借此机会可以简单回顾一下基于深度模型的实时立体匹配的进展。

WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配

从右往左看,[19]是MADNet,CVPR 2019的Oral,第一个自适应的实时立体匹配网络。所提方法和MADNet的速度差不多,不过准确率要更高,毕竟所提方法是基于全监督的,而MADNet在真实数据上是无监督的,性能会有所降低。

[10] 是2017年发表在MLSP上的一篇文章,它采用传统的匹配成本和传统的成本聚合流程,利用一个可学习的深度网络来控制不同区域的成本聚合参数。由于利用了传统匹配方法的快速性。虽然它的速度可达29FPS,不过精度却比较低。

[4]是Uber在ICCV 2019新提出的DeepPruner,借鉴传统的PatchMatch方法,将其设计为可导的RNN形式,来避免cost volume中大量重复的计算,速度可达62ms,大约16FPS。准确率较高,不过速度不是很快。

再往左是一些经典的深度立体匹配模型,DispNetC(CVPR 16),iRetNet(CVPR 18),SegStereo(ECCV 18),GA-Net(CVPR 19),这里不再一一介绍。

一、Motivation

当前基于深度模型的立体匹配网络虽然准确率很高,但是速度非常慢,这主要受限于计算代价过高的匹配代价体(cost volume)以及用来进行成本聚合的含参量较大的3D卷积。如果只采用2D卷积进行代价聚合,速度将会大大提升。

受之前工作的启发,在给定少量的稀疏深度度量和彩色参考图像后,就能够重构出准确率较高的深度图(KITTI其实就只给定了稀疏的视差标签,但是由此训练的模型可以预测准确的密集视差图)。这表明微弱的,带噪声的深度信息已经是足够的。

二、Method

WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配

上图是论文提出方法的框架图。主要分为三部分:

1. 利用传统算法快速得到初始的匹配代价;

2. 利用卷积层将其映射为成本签名(cost signature map);

3. 利用类似U-Net的2D卷积计算的编码-解码结构得到最终的视差图。

其中第1步是固定不变的,而后两步构成了可学习的端到端网络。

具体来说,第1步中首先将图像下采样到原图的一半分辨率。将图像从RGB图像转到YUV空间。对于亮度Y通道,采用基于汉明距离的传统匹配成本计算方法。对于颜色信息的U和V通道,采用两个通道的绝对值构成cost volume。

第2步中提出的成本签名可以看做是一种低维度的cost volume,因此第2步的目的就是使用1*1卷积进行cost volume的逐步降维。

第3步中利用基于2D卷积的U-Net结构,相比于之前的3D卷积,速度更快,参数量更少。并且使用彩色参考图像作为引导,最后将得到的1/2分辨率视差图经过上采样得到全分辨率的视差图。

三、Experiments

作者主要在KITTI 2012和2015数据集上进行实验,对于一个实时的网络,所提出的方法做到了在相同速度条件下的精度优势,和在相同精度下的速度优势。

WACV 2020 | 基于2D卷积处理成本签名的快速立体匹配

四、Conclusion

上述内容,如有侵犯版权,请联系作者,会自行删文。

继续阅读