天天看点

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

introduction

现在有很多使用深度学习来做超分辨率的,直接用这些方法做视频的超分辨率会有问题,忽略了时间的相关性,使画面闪烁。

现有的方法使用时域融合技术来提取时间信息,比如运动补偿(参考 Detail-revealing deep video super-resolution),但是会有巨大计算开销并要人为设计结构。

为了能自动计算时空的信息,就会使用三维卷积,但是会引入大量参数,所以导致深度不够,效果不好。

大量的使用残差连接在SR中,并没有很好的效果。

Fast spatio-temporal residual network

网络结构

FSTRN由四个部分组成:低分辨率图像的特征提取网络(LFENet),快速时空残差模块(FRBs),低分辨率特征融合和上采样超分辨率网络(LSRNet),全局残差学习(GRL)。第四部分由低分辨率空间残差学习(LRL)和交叉空间残差学习(CRL)组成

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

LFENet: 使用一个C3D层对初始的输入低分辨率图像做一个特征的提取,交给后面的FRBs处理

FRBS: 对前面那个LFENET的输出进一步处理,堆叠多个网络,里面有残差连接。

LSRNet: 就是对上采样后的图像的一个融合,如上图所示

Fast spatio-temporal residual blocks详解

FRB这个模块是从C3D演变而来,C3D使用了3维卷积,所谓三维卷积就是卷积核是三维的,比如对于视频序列,就会不仅卷积空间,而且会卷积相邻的好几帧图像,所以就会考虑时间的相关性。但C3D参数较多,本文就改成了连续两个3维卷积 ,1xkxk和kx1x1,这样两个分别考虑时间和空间,这样也降低了参数的数量。具体如下图

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解
Global residual learning

主要是加入了两个不一样的残差连接,LR space residual learning (LRL)和Cross-space residual learning (CRL)

LRL就是在多个FRB之后,将第一个FRB的输入和最后一个FRB的输出做残差连接,再加PRELU和Dropout。

CRL使用一个简单的超分辨率mapping,mapping可以用bilinear, nearest, bicubic, area, and deconvolution based interpolations,将最初的低分辨率图像提升到高分辨率的像素,然后直接残差连接到LSRNet的输出,这样降低了LSRNet的压力。

网络的训练

训练使用L1损失,就是计算生成图和目标图之间的像素差值的l1值,这里还加了一个惩罚项。公式如下

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解
Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

这里训练时,只优化每个序列中的中间那张图,所以损失只算那张就行了

疑问

文章提出的算法嵌套了三层残差网络,那么内层的网络学到的到底是什么,残差的残差?

继续阅读