Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

2023-08-06 08:11:05

introduction

现在有很多使用深度学习来做超分辨率的，直接用这些方法做视频的超分辨率会有问题，忽略了时间的相关性，使画面闪烁。

现有的方法使用时域融合技术来提取时间信息，比如运动补偿（参考 Detail-revealing deep video super-resolution），但是会有巨大计算开销并要人为设计结构。

为了能自动计算时空的信息，就会使用三维卷积，但是会引入大量参数，所以导致深度不够，效果不好。

大量的使用残差连接在SR中，并没有很好的效果。

Fast spatio-temporal residual network

网络结构

FSTRN由四个部分组成：低分辨率图像的特征提取网络（LFENet），快速时空残差模块（FRBs），低分辨率特征融合和上采样超分辨率网络（LSRNet），全局残差学习（GRL）。第四部分由低分辨率空间残差学习（LRL）和交叉空间残差学习（CRL）组成

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

LFENet：使用一个C3D层对初始的输入低分辨率图像做一个特征的提取，交给后面的FRBs处理

FRBS: 对前面那个LFENET的输出进一步处理，堆叠多个网络，里面有残差连接。

LSRNet：就是对上采样后的图像的一个融合，如上图所示

Fast spatio-temporal residual blocks详解

FRB这个模块是从C3D演变而来，C3D使用了3维卷积，所谓三维卷积就是卷积核是三维的，比如对于视频序列，就会不仅卷积空间，而且会卷积相邻的好几帧图像，所以就会考虑时间的相关性。但C3D参数较多，本文就改成了连续两个3维卷积，1xkxk和kx1x1，这样两个分别考虑时间和空间，这样也降低了参数的数量。具体如下图

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

Global residual learning

主要是加入了两个不一样的残差连接，LR space residual learning (LRL)和Cross-space residual learning (CRL)

LRL就是在多个FRB之后，将第一个FRB的输入和最后一个FRB的输出做残差连接，再加PRELU和Dropout。

CRL使用一个简单的超分辨率mapping，mapping可以用bilinear, nearest, bicubic, area, and deconvolution based interpolations，将最初的低分辨率图像提升到高分辨率的像素，然后直接残差连接到LSRNet的输出，这样降低了LSRNet的压力。

网络的训练

训练使用L1损失，就是计算生成图和目标图之间的像素差值的l1值，这里还加了一个惩罚项。公式如下

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

这里训练时，只优化每个序列中的中间那张图，所以损失只算那张就行了

疑问

文章提出的算法嵌套了三层残差网络，那么内层的网络学到的到底是什么，残差的残差？

Fast Spatio-Temporal Residual Network for Video Super-Resolution阅读理解

introduction

Fast spatio-temporal residual network

网络结构

Fast spatio-temporal residual blocks详解

Global residual learning

网络的训练

疑问

继续阅读

[论文笔记]ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks[论文笔记]ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

Enhanced Deep Residual Networks for Single Image Super-Resolution

【文章阅读】【超解像】--Image Super-Resolution via Deep Recursive Residual Network【文章阅读】【超解像】–Image Super-Resolution via Deep Recursive Residual Network

Visual Attention

Tensorflow Day19 Denoising Autoencoder

Tensorflow Day16 Autoencoder 實作

Tensorflow Day17 Sparse Autoencoder

基于keras的多GPU深度学习网络模型及参数保存-笔记

论文阅读——Parallel Multi-Resolution Fusion Network for Image Inpainting网络结构损失函数

A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs)

ICLR 2017 | GAN Missing Modes 和 GAN

Glove公式推导

【深度学习-基础知识】batchNormal原理及caffe中是如何使用的

《论文阅读》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation

目标检测系相关论文阅读基础网络检测算法框架优化方向

论文阅读笔记（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 论文简介二. 创新点和贡献：三. 相关领域的概述(related work)四. 作者的方案五. 主要的信息流（approach）六. 总结