優酷釋出最大工業級超高清視訊資料集，超分辨率算法大賽落幕

在剛剛結束的 2019 雲栖大會上，我們看到了阿裡平頭哥首款 AI 晶片「含光 800」、青橙獎和阿裡數字經濟的新布局。在會場的另一端，9 月 27 日，一場頗具挑戰性的 AI 算法大賽也落下了帷幕。

僅依靠算法，我們就可以把 270p 的視訊「重建」成 1080p 的畫質嗎？在人工智能技術發展的今天，被稱為「超分辨率」技術正逐漸走向實用化。「阿裡巴巴優酷視訊增強和超分辨率挑戰賽」就是一場尋找最強視訊超分算法的比賽。

本次大賽自今年 5 月開始共曆時 6 個月，吸引了 1514 支隊伍參賽。最終有 6 支隊伍進入決賽，在杭州的雲栖大會上進行了最後的比拼。昨天，比賽決出了冠軍：來自中國科學技術大學的陳嘉樂、單超炜成為了本屆大賽的冠軍。

對于視訊内容進行圖像增強，在超分辨率資料競賽上開創了一個全新的領域。在這場比賽之後，優酷還開源了業内最大的視訊超分辨率資料集。

最接近實際的超分辨率挑戰賽

超分辨率是計算機視覺的經典研究方向，有關圖像增強的論文經常出現在 AI 頂會上。人們總是希望能夠「還原」低品質視訊的細節内容，提高視訊的清晰度，或在保證視訊品質的情況下降低網絡帶寬的占用。該技術在工業界有着重要的實用意義，它甚至能夠幫助我們改善早期膠片視訊的品質和清晰度。

雖然可供使用的方法很多，本次比賽依然為參賽選手們帶來了很大挑戰。在決賽前，所有選手都接受了采訪，大家對于比賽的感受達成了一緻：「這次比賽非常真實、需要處理的資料量巨大——比之前參加的其他資料競賽的資料要多幾個數量級。完成這樣的任務，非常有成就感。」

在資料集上，選手們在這裡面對的是 1000 個視訊，每個視訊的時間長度為 4-6 秒。每個樣本由低分辨率視訊和高分辨率視訊組成的視訊對構成。低分辨率視訊為算法的輸入，高分辨率視訊為增強和超分後的真值。其中，初賽視訊 250 個，複賽視訊 750 個。

阿裡文娛資深算法專家，摩酷實驗室負責人王曉部落客持了決賽答辯

這場挑戰賽還原的現實世界場景，也是衆多參賽選手此前從未見到的——在視訊中的台标、字幕對于超分辨率算法來說是非常難以還原的内容。但正是貼近真實情況的内容才能帶來成就感：選手們提出的算法都是能夠真正落地的技術。

在這次比賽中，選手們需要訓練樣本對視訊增強和超分模型進行模組化，對測試集中的低分辨率視訊樣本預測高分辨率視訊。其中，高分辨率視訊來自優酷高清媒體資源庫。低分辨率視訊的生成模型是模拟實際業務中的噪聲模式。

對于算法恢複的視訊和抽幀結果，本次比賽采用 PSNR 和 VMAF 兩種評價名額。對于上傳的完整視訊，評估程式将計算 PSNR 和 VMAF 兩種名額，均采用逐幀計算：PSNR 名額得分占 80%，VMAF 名額占 20%。另外還需要在限定的時間内輸出結果，這對模型處理的效率提出了要求。

在決賽階段，組委會還為每支隊伍單獨提供了阿裡雲 ECS 的執行個體，配置為 8 CPU, 60G 記憶體，雙 GPU NVidia P100。參賽隊伍需要在标準硬體條件下複現從訓練到預測的代碼及模型，保證預測過程能在 ECS 上獨立運作。

本次競賽的評委包括阿裡巴巴達摩院進階研究員，IEEE Fellow 張磊、阿裡文娛資深算法專家，摩酷實驗室負責人王曉博、阿裡巴巴資深算法專家任海兵、哈工大教授左旺孟、阿裡視訊雲總經理朱照遠、阿裡資深技術專家江文斐等人。

張磊點評道：「本次大賽完成了開創性的探索，将實際應用場景帶入了學術界的經典問題上，為學術界帶來了很好的啟發，彌補了學術界相關研究的不足。」

中科大奪冠

在本次比賽中奪冠的隊伍是來自中國科學技術大學的「Avengers Assemble」。該團隊在初賽和複賽中一直保持領先，并順利取得了最後的冠軍。

這支隊伍的兩名成員均為中國科學技術大學智能媒體計算實驗室的研三學生。其中，陳嘉樂主要研究強化學習和計算機視覺，單超炜主要研究圖像處理和增強。他們的研究也得到了中國科學技術大學陳志波教授、劉森博士，微軟亞研進階研究員譚旭等人的指導。

在決賽答辯中，陳嘉樂對于團隊采用的方法，以及目前超分辨率技術的現狀進行了介紹。目前在業内，超分辨率方向上的算法主要從殘差結構、多分支結構等方法通過增加參數量提升效果。與此同時，也有研究者提出了循環結構的模型希望通過參數共享降低計算開銷，而漸進式結構模型則通過分階段的方式進一步提升了超分辨率的處理效果。最近，人們也在研究注意力機制和基于 GAN 的超分辨率方法。

與圖檔的超分辨率不同，視訊的超分辨率中，由于圖像本身帶有運動資訊，參考幀和目标幀存在一定偏差，是以在進行處理時我們必須要尋求對齊。另外，視訊模糊和場景切換問題也需要得到妥善解決。

「目前超分辨率與去噪方向的研究現狀主要是：三維卷積、循環結構、濾波器預測。」陳嘉樂說道。

冠軍團隊使用的方法基于目前最為先進的超分辨率算法：在今年的計算機視覺頂會 CVPR 2019 上，商湯提出了 EDVR，相對于此前的業内最佳方法（RCAN），EDVR 算法視訊超分辨率的結果能讓我們看到更多細節，這一方法也實作了業内頂尖水準。作者提出了一種新的網絡子產品「PCD 對齊子產品」，使用 Deformable 卷積進行視訊的對齊，整個過程可以端到端訓練。而在挖掘時域（視訊前後幀）和空域（同一幀内部）的資訊融合時，作者提出了一種時空注意力模型進行資訊融合。

陳嘉樂等人認為，在競賽任務中，EDVR 還存在感覺能力不夠強、時序資訊不充分、特征表達不高效等問題。中科大團隊針對這三個方向進行了自己的改進：

在對齊子產品中，EDVR 采用了多尺度的可變卷積，冠軍團隊借鑒了何恺明等人提出的 Non Local Neural Network，采用 Separate Non Local 把次元進行了分離，進而減少參數量，提升網絡的感受野。
在時序資訊問題中，冠軍團隊的算法在融合子產品中使用 Temporal and Spatial Attention + 3D Convolution，加入了 3D 卷積，進而捕獲時序上的資訊。
在特征表達的問題上，展現在重模組化塊上，給 ResNet Block 增加了 Channel Attention，提升了 0.3db 的名額。

其他決賽隊伍

獲得第二名的團隊由清華大學的金侃、廈門大學的詹文鵬、江西财經大學的張東陽組成。他們采用了 RCAN 模型的改進算法，通過損失函數的調優和對于資料集的處理實作了很好的效果，在複現比賽中排名第二。他們提出在視訊場景切換幀位置通過資料增強方式，訓練類似幀的方法引起了評委們的關注。

金侃在決賽答辯中介紹了自己團隊的方法

這次比賽中使用到的模型存在台标和字幕，這對于所有團隊來說都是很大的挑戰：不斷變化的文字和背景圖像毫無關聯，差別明顯，這會導緻深度學習算法難以對其進行學習。金侃等人認為，在未來的研究中應當使用自然語言處理的方式對文字單獨進行處理。這一思路得到了來自優酷的評委們的肯定。

此外，入圍決賽的另一支團隊「我的聖光啊」格外引人關注，參加決賽答辯的梅康夫年僅 18 歲，是來自香港中文大學（深圳）的研一學生。他所在的團隊五位成員來自五所不同大學，平均年齡僅為 23 歲。最終這一組選手獲得了「極客獎」。

梅康夫在決賽答辯中

除梅康夫以外，該團隊的其他四個成員是隊長雷天悟（來自多倫科技）、副隊長高曉東（華南理工大學在讀碩士），以及華東師範大學的李俊誠和上海大學在讀碩士朱雅琴。

這支團隊采用 RCAN 方案作為主體結構的視訊超分辨率增強模型。其創新點在于引入自擴充殘差學習，同時也引入了對于視訊任務的 YUV 損失函數。值得一提的是，雖然需要對視訊進行處理，該隊伍并沒有考慮時域的問題，隻進行單幀的圖像增強。選手認為多幀關聯的考慮會降低網絡性能，是以希望把單幀的網絡做到極緻。隻用單幀處理就能打入決賽（前六）不得不說是非常亮眼的成績。

推出視訊超分和增強資料集

本次競賽中，優酷不僅為大家展示最前沿超分辨率算法提供了平台，而且還提出了出了業界最大、最具廣泛性的資料集，包括不同内容品類，不同噪聲模型、不同難度等。

資料集位址： https://tianchi.aliyun.com/dataset/dataDetail?datald=39568

優酷表示，該資料集包含 10,000 個樣本，資料總量達到 3T。其中采用的噪聲參數完全是模拟實際業務中的噪聲模式，研究人員可以真正的在實際場景中打磨算法。

「增強和超分辨率在多媒體内容裡是較為經典的問題，」王曉博表示。「我們希望通過打造這一資料集促進工業界和學術界研究的發展，讓工業界和學術界更加緊密地結合。讓視訊更加清晰。」

這些視訊均來自優酷高清媒資庫，優酷擁有這些視訊的知識産權。據悉，該資料集的樣本計劃分 3 次對外公開：第一批資料集在 1000 個視訊左右，已在本次比賽中使用；比賽結束後，即将公開的約有 2000 條視訊；剩餘的 7000 個視訊将在後續公開。

本資料集包括超分和增強視訊資料、評測程式和資料說明三個部分。資料每個樣本由低分辨率視訊和高分辨率視訊組成的視訊對構成。低分辨率視訊為算法的輸入，高分辨率視訊為增強和超分後的真值。每個視訊的時間長度為 5 秒左右。絕大部分高清資料的分辨率是 1080P，大約 300M。由于是 4 倍超分辨率，低質視訊分辨率為 270P，大約 19M。少量高清資料的分辨率是 2048×1152，低質視訊分辨率為 512×288。視訊資料為無壓縮的 y4m 格式。

本次賽事上第一批公開的 1000 個視訊，總共資料量就已超過 300GB。

示例樣本截圖，左邊為高清視訊截幀，右邊為低質視訊截幀。

評測程式代碼示例也已包含在資料集中。

在本次比賽中，選手們也發現了在實際業務場景中，PSNR 和 VMAF 名額并不能真實反應人眼對于視訊品質的感覺。PSNR 的少量提升也許意味着人眼對其并無體感差别。這也是當下視訊處理行業普遍遇到的問題。

目前，優酷正着眼于研發更符合人類視覺特性的品質評價名額。在未來，優酷超分大賽的評價準還會進行新的變革，人眼真實感覺将會成為算法評價标準，這對于參賽隊伍來講會更具挑戰，但也更有意義。

本文為機器之心報道，轉載請聯系本公衆号獲得授權。

優酷釋出最大工業級超高清視訊資料集，超分辨率算法大賽落幕

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希