在去年10月,谷歌發表了一篇論文講述了他們推出的一項新技術RAISR(Rapid and Accurate Image Super-Resolution),利用機器學習将低分辨率圖像轉化為高分辨率圖像。這項技術能夠在節省帶寬75%的情況下分辨率效果達到甚至超過原圖,同時速度能夠提升大約10到100倍。于是很快RAISR成為該領域的行業标杆。
近日騰訊QQ空間聯合優圖實驗室也推出的他們在此領域的最新技術TSR(Tencent Super Resolution)。本項目采用深度神經網絡來識别圖檔内容并進行圖檔内容的細節重構,能夠通過機器學習來識别圖檔的内容與紋理,進而能夠将圖檔進行高清重建, 達到業界(NTIRE2017)領先水準,使用本技術可以極大的提高使用者體驗。本技術能夠在圖檔size隻有原來25%的情況下将圖檔還原到與原圖的同等效果,在空間的應用可以節省使用者75%的流量。本項目業界首創實作了一種多核異構GPU/CPU加速技術,能夠使用深度學習模型擺脫昂貴的GPU裝置,可以在普通的使用者手機端運作。
TSR:基于深度學習的超分辨率技術及應用
社交平台部 & 優圖實驗室
TSR(Tencent Super Resolution)是一種采用深度神經網絡來進行圖檔超分辨率的技術。在深度神經網絡的算法處理下,能夠通過識别圖檔的内容與輪廓高清重建圖檔的細節與局部特征,把一張模糊的圖檔變得非常清晰,進而達到很好的視覺效果。目前已經應用到QQ空間圖檔高清放大檢視。
同時TSR能夠保證圖檔大小隻有原來25%的情況下,完全重構圖檔的紋理與色彩,在節省帶寬75%的情況下通過智能算法重構達到與原來圖檔一樣的清晰度。目前應用到QQ空間大圖浏覽。
TSR是業界首次實作移動端使用深度神經網絡進行超分辨率,并保證圖檔能夠實時進行處理。即使在使用者的普通Andriod手機,也可以使用這項技術。
在空間的應用效果如下圖:

本項目是業界首次将深度學習的超分辨率技術實作落地應用地項目。在這之前,超分辨率技術的研究一直停留在學術界與實驗室。本項目是業界首創實作在移動端進行深度神經網絡學習學習即使在普通AND機器上也可以運作本模型。
TSR是目前業界領先的超分辨率技術,不管是在處理速度與處理效果上都超過之前行業的标杆GOOGLE的超分辨率技術RAISR。在處理速度在RAISR的基礎上提升40%。處理效果上的提升也很明顯。
TSR與RAISR的效果性能對比:
對于圖檔細節與紋理的處理來看,TSR對比RAISR在細節還原上有着更出色的表現:
其次,TSR是目前業界首創并且也是唯一能夠将基于深度學習的超分分辨率技術落地并應用到移動端的技術。在使用者的普通的手機上,也可以很好的運作TSR并取得不錯的效果。
最後,基于TSR衍生出來的深度學習架構RapidNet是目前業界最優的移動端深度學習架構,對比CAFFE2與TENSORFLOW架構,性能提升平均達到20倍。能夠把深度學習落地到普通手機。
TSR已經送出三項核心專利技術。相關研究結果已經投遞 CVPR 2018。
QQ空間相冊作為使用者主UGC資料的主要戰場與社交場合,我們一直在關注這裡的圖檔品質與流量優化。如何較大節省使用者流量的情況下,提高使用者的體驗與圖檔品質,特别是部分曆史老照片怎麼樣高清還原提供給使用者,一直是我們追求的目标。
随着深度學習在圖檔内容識别,分類中的應用,我們關注到學習界結合深度學習的超分辨率技術能夠達到較好的效果。同時去年7月,GOOGLE也發表了論文推出了超分辨率技術RAISR,怎麼樣把超分辨率技術應用到我們實際項目中來,成為我們的驅動力。
随着Jiayajia,yuwingtai,等一批學術大牛的加入,基于騰訊自己的超分辨率技術 (TSR)項目在Karl, Simon, Vincent等支援下正式立項。我們的目标是打造業界領先的超分辨率技術,并創造性的把超分辨率技術遷移到使用者普通的手機終端。使用使用者普通的AND手機也可以進行深度學習算法處理,進而實際節省使用者流量和提高使用者體驗。同時推動深度學習從背景向移動端演進。
經過半年的研究突破,TSR項目落地。不但對标學習界有較好的效果,而且創新性的把超分辨率技術在實際項目中落地,能夠節省使用者75%的流量,也是業界進行移動端跑深度神經網絡并達到實時效果的首創。
首先,我們訓練并實作了一個10層的深度卷積神經網絡,對比目前學術界研究的神經網絡,本網絡能夠很好的解決CheckerBoard Artifacts和對于部分圖檔處理文理不清晰問題。通過神經網絡能夠抽象出圖檔的整體特殊,識别圖檔的紋理與内容,根據圖檔的紋理與内容進行圖檔的高清細節重建,進而達到遠超過原圖的視覺效果。
通過控制卷積神經網絡的層數與每層的CHANEL數,在簡化整體計算量的情況下,能夠很好的解決圖檔過于平滑,紋理不清晰的問題。通過精簡化設計,TSR能夠保證模型在隻有4。6KB的基礎上有不錯的處理效果。
神經網絡結構圖如下:
TSR采用了二次插值對圖檔進行預處理,這樣能夠對比較模糊的UGC圖檔也能取得較好的效果。針對人眼對于顔色與亮度的敏感程度,對圖檔采用Cbcr與Y通道分離,隻對Y通道資料進行超分處理的方法提高處理速度。
針對個模型采用PRelu作為激活函數以得到更快的收斂速度與更好的網絡表達能力。采用基于Adam(Adaptive Moment Estimation)的梯度下降法求解神經網絡模型的具體參數。
具體的模型訓練上,我們先采用1W張使用者真實圖檔,通過調整圖檔顔色,高度,對比度,施轉,左右反轉等操作構造上百W個使用者訓練樣本集。采用壓縮的方法将訓練樣本圖檔寬高各壓縮到原來的1/2,這部分圖檔經過超分處理後再與原來的圖檔的效果進行比較,根據對比效果進行調整模型參數。
與業界的訓練該方法不同,除了對比圖檔的損失(PSNR)外,我們同時引入了可視化評測系統,使用使用者的真實圖檔進行可視化評測。已達到最佳的超分效果。
經評測,我們的模型在圖檔處理的兩項關鍵名額PSNR與處理速度上均達到業界領先水準。在處理速度上,TSR領先于目前主流的超分辨率技術。同時,對攝像效果不那麼好的圖檔,TSR也能取得不錯的效果。
TSR與學術界前沿超分辨率技術對比如下圖(NTIRE2017資料,400* 300 放大到 800 * 600,硬體環境:Titan XP workstation)。 可以看到在處理速度與圖檔效果來看,TSR都處于業界領先水準。
同時,TSR是業務首創的将超分辨率技術應用到移動端的技術。目前主流的深度神經網絡模型一般在背景的高性能GPU機器上運作,對機器性能要求比較高。TSR基于對超分技術與移動端手機架構的深入研究,提出基于手機端深度學習架構,能夠充分使用移動端的GPU和CPU資源,使用異構并行計算技術與資料并行處理技術進行加速。對比業務的主流架構如CAFFE2與TENSORFLOW ,性能提高10倍以上,記憶體消耗降低95%。是目前唯一能夠在普通的Andriod手機上也可以運作的技術。
深度學習從背景遷移到背景手機端,TSR主要首創了如下關鍵技術。
1) TSR獨創分塊加速技術,把圖檔分成很多小塊通過神經網絡進行處理。分塊加速技術充分使用CPU的多核特性,使用進行多核并行計算。使用算法對圖檔的紋理複雜度進行識别和智能處理,大大提高圖檔的處理速率。
如下圖示,通過智能識别可以加速藍框中圖塊的處理過程。
2)其次,TSR是業界首次采用異構多核CPU/GPU加速技術。能夠根據使用者手機的GPU與CPU能力進行任務的智能劃分,聯合GPU/CPU進行處理以達到較好的處理效果。
3)第三,TSR打造了統一移動端并行加速架構RapidNet。深度融合了基于AND平台的opencl GPU并行計算加速技術與基于IOS平台的METAL 加速技術。對于基于ARM結構的CPU,充分利用neon SIMD技術和線程池技術。對比業界主流的機器學習平台,速度提高10倍以上。
TSR/RapidNet架構如下圖所示:
TSR對比業界的處理效果:
4)第四,TSR采用了動态探測與模型動态加載技術,保證了手機端全覆寫。TSR會動态探測手機的處理能力,針對不同手機實時加載不同的模型,進而能夠保證所有性能的手機用戶端都可以使用這種技術,保證了手機端的全覆寫。
通過超分辨率技術在QQ空間的項目實施,可以達到節省空間75%的圖檔流量,同時預計可以節省存儲150P。
1)可以應用到業界所有的圖檔處理,使用本技術能夠給使用者節省75%流量,大大降低圖檔傳輸的帶寬。目前已經應用的QQ使用者普通的圖檔浏覽,達到節省75%流量的情況下達到同等視覺效果。
同時,在如QQ,微信,天天P圖,動漫業務都是TSR的目标使用場景。
2)本技術可用于所有對圖檔品質要求較高的場景,通過基于TSR的超分辨率技術可以智能修複使用者的老照片,模糊的圖檔,能夠把普通圖檔變成清晰圖像。目前已在最新版QQ上使用,使用者進行放大檢視圖檔細節時可以達到“無限”縮放的高清效果
3)同時本技術帶來的另一個收益是打開了移動端進行AI相關的深度機器模型學習的大門。在此之前需要采購昂貴GPU裝置才可以運作的深度神經網絡,現在在使用者的普通手機上也可以運作,這項技術可以極大的推動手機端進行神經網絡處理的程序,對于像人臉識别,OCR識别,背景識别,人物美妝等實時應用可以達到同等效果。
使用者原圖與經TSR處理後的圖檔對比(左邊是原圖,右邊是超分辨率(TSR)處理的圖檔)
細節對比:
TSR處理後效果對比
TSR處理後效果對比:
使用者普通圖檔壓縮75%再進行TSR處理後跟原圖進行對比效果(左邊是原圖,右邊是SIZE壓縮到25%後使用TSR進行還原的圖檔效果):