天天看點

Fast Spatio-Temporal Residual Network for Video Super-Resolution閱讀了解

introduction

現在有很多使用深度學習來做超分辨率的,直接用這些方法做視訊的超分辨率會有問題,忽略了時間的相關性,使畫面閃爍。

現有的方法使用時域融合技術來提取時間資訊,比如運動補償(參考 Detail-revealing deep video super-resolution),但是會有巨大計算開銷并要人為設計結構。

為了能自動計算時空的資訊,就會使用三維卷積,但是會引入大量參數,是以導緻深度不夠,效果不好。

大量的使用殘差連接配接在SR中,并沒有很好的效果。

Fast spatio-temporal residual network

網絡結構

FSTRN由四個部分組成:低分辨率圖像的特征提取網絡(LFENet),快速時空殘差子產品(FRBs),低分辨率特征融合和上采樣超分辨率網絡(LSRNet),全局殘差學習(GRL)。第四部分由低分辨率空間殘差學習(LRL)和交叉空間殘差學習(CRL)組成

Fast Spatio-Temporal Residual Network for Video Super-Resolution閱讀了解

LFENet: 使用一個C3D層對初始的輸入低分辨率圖像做一個特征的提取,交給後面的FRBs處理

FRBS: 對前面那個LFENET的輸出進一步處理,堆疊多個網絡,裡面有殘差連接配接。

LSRNet: 就是對上采樣後的圖像的一個融合,如上圖所示

Fast spatio-temporal residual blocks詳解

FRB這個子產品是從C3D演變而來,C3D使用了3維卷積,所謂三維卷積就是卷積核是三維的,比如對于視訊序列,就會不僅卷積空間,而且會卷積相鄰的好幾幀圖像,是以就會考慮時間的相關性。但C3D參數較多,本文就改成了連續兩個3維卷積 ,1xkxk和kx1x1,這樣兩個分别考慮時間和空間,這樣也降低了參數的數量。具體如下圖

Fast Spatio-Temporal Residual Network for Video Super-Resolution閱讀了解
Global residual learning

主要是加入了兩個不一樣的殘差連接配接,LR space residual learning (LRL)和Cross-space residual learning (CRL)

LRL就是在多個FRB之後,将第一個FRB的輸入和最後一個FRB的輸出做殘差連接配接,再加PRELU和Dropout。

CRL使用一個簡單的超分辨率mapping,mapping可以用bilinear, nearest, bicubic, area, and deconvolution based interpolations,将最初的低分辨率圖像提升到高分辨率的像素,然後直接殘差連接配接到LSRNet的輸出,這樣降低了LSRNet的壓力。

網絡的訓練

訓練使用L1損失,就是計算生成圖和目标圖之間的像素內插補點的l1值,這裡還加了一個懲罰項。公式如下

Fast Spatio-Temporal Residual Network for Video Super-Resolution閱讀了解
Fast Spatio-Temporal Residual Network for Video Super-Resolution閱讀了解

這裡訓練時,隻優化每個序列中的中間那張圖,是以損失隻算那張就行了

疑問

文章提出的算法嵌套了三層殘差網絡,那麼内層的網絡學到的到底是什麼,殘差的殘差?

繼續閱讀