高低分辨率全都要！8位華人聯合釋出史上規模最大、最高清視訊資料集

新智元報道

編輯：LRS

【新智元導讀】視訊語言資料集的規模又重新整理記錄了！來自MSRA的8位華人聯合釋出史上最大的視訊語言資料集HD-VILA-100M，也是首個高分辨率大規模資料集！文中還提出一個訓練模型，基于這個資料訓練的模型性能直接提升53.6%！

回想幾年前網上資訊大部分還是靜态的，例如圖檔、小說。

但随着各大視訊網站和短視訊的興起，使用者在網際網路上浏覽視訊的數量近年來顯著增加，并且視訊創作的品質、分辨率和内容多樣性也越來越高！

把旅遊、體育、音樂等日常生活拍成視訊分享已經成為了新常态，并且通常還會配上一段文字。

是以AI研究也是緊随其後，進入文本+視訊的多模态時代，例如視訊搜尋，視訊推薦，視訊編輯都需要這種多模态模組化的能力！

然而，現有的視訊語言了解模型（video-language understanding models）的發展實際很大程度上是受到了資料集的規模和覆寫範圍的限制。

早期的資料集如MSR-VTT、DiDeMo、EPIC-KITCHENS都是由人類手工标注的視訊和文本描述組成，由于引入了人工标注，是以資料集的構造成本也是急劇上升，導緻這些資料集的規模也無法做的很大。

此外這些資料集中隻包含了一些描述性的語句，那麼資料集的複雜性和多樣性也受到了很大限制，間接影響了後續開發模型的泛化性能。

也有一些研究人員直接使用經過語音識别（ASR）後的視訊一起進行訓練，由于省去了人工标注視訊文本的過程，資料集的規模得到了大大提升。一個最有代表性的例子就是HowTo100M資料集，包含了百萬級的視訊文本語料。

雖然資料集的規模是上去了，但品質卻下來了。

自動标注的視訊資料不管是在品質上，還是語義多樣性上都和真實場景中的視訊存在着很大差距。

為了更好地了解視訊和解決上面提到的資料問題，來自微軟亞洲研究院MSRA 的8位華人最近共同發表了一篇論文，主要研究了聯合視訊和語言（joint video and language）的預訓練并提出了一個新的資料集HD-VILA-100M（High-resolution and Diversified VIdeo and LAnguage）。

資料集中的視訊類别（video category）覆寫範圍十分廣泛，對後續的應用如文本到視訊的檢索（text-to-video retrieval）和視訊問答（video QA）場景十分有用。

這個資料集具有三個主要的特點：

1. 規模特别大

資料集中包含了來自300萬個視訊中的1億個視訊文本對，視訊時長合計達到了37萬個小時，比前面提到的HowTo100M的視訊時間還要長2.8倍，平均句子長度也比HowTo100M長8倍。

前面提到ASR生成的視訊字幕普遍品質不高，并且沒有标點符号。為了克服這個問題，研究人員使用GitHub的一個工具puntuator2将字幕切分成多個完整的句子，然後通過動态時間規整（Dynamic Time Warping）使用Youtube自帶的字幕時間戳對視訊片段和句子進行對齊。

處理後，HD-VILA-100M資料集中視訊片段的平均時長為13.4秒，每個句子平均包含32.5個詞。

2. 分辨率特别高

資料集中的所有視訊分辨率都是720p，而目前主流的視訊文本資料集的分辨率隻有240p和360p。

3. 多樣性特别高

資料集涵蓋了YouTube上的15個最流行的視訊類别，例如體育、音樂、汽車等。并且研究人員還對各個類别下的視訊數量進行了平衡。

高、低分辨率全都要的模型

有了資料以後就要開始進行訓練了！

但由于記憶體、計算能力等多種現實因素上的限制，以前的工作要麼采用簡單的基于視訊幀的端到端的編碼器來進行視覺編碼和多模态融合，要麼使用一些訓練好的時空（spatio-temporal）編碼器來一步步實作對視覺編碼和多模态資訊的融合。

幾乎沒有研究工作在端到端視訊語言預訓練模型中對時空視訊進行聯合編碼（joint spatio-temporal video representation）。

這創新點不是送上門來了嗎？

研究人員提出了一個新的模型，模型的輸入是混合圖像序列（hybrid image sequence），序列中包含少量高分辨率（HR）視訊幀和大量的低分辨率（LR）的視訊幀來進行多視訊學習的任務（multiple video learning task）。

這樣的模型設計能夠實作高分辨率時空視訊表征的端到端訓練，并且在模型設計中解決了兩個主要的問題：

1. 哪些HR和LR的視訊幀應該被提取出來？

研究人員首先随機從一個視訊片段（video clip）中随機采樣一些HR視訊幀來確定最終學習到的視訊特征具有足夠的魯棒性。

LR視訊幀從HR視訊幀的附近幀中平均采樣抽取得到，也保證了中間的HR視訊幀包含了和LR相似的空間資訊，這個操作對于時序特征的學習也是非常關鍵。

2. 如何從混合圖像序列中學到時空特征？

研究人員對HR和LR視訊幀分别編碼，并且使用一個hybrid Transformer将把編碼後的HR特征和LR特征映射到同一個embedding空間。這種設計方式也能確定視訊中的時空資訊能夠以一種可學習的方式同時覆寫HR和LR視訊幀。

研究人員對video-text retrieval任務進行了實驗，可以看到文中提出的HD-VILA模型在MSR-VTT資料集上以極大的優勢超越了以往在HowTo100M資料集上訓練的模型。

在zero-shot的設定下，HD-VILA甚至比VideoCLIP的R@1的性能好38.5%（10.4->14.4），也表明了模型學習到的視訊表征具有足夠的泛化能力，并且微調後的模型已然超越了所有的基線模型。

在電影資料集LSMDC中，模型相對其他基線模型甚至取得了更大的性能收益（53.6%）。由于電影與HowTo100M裡的視訊風格可以看出明顯不同，是以在HowTo100M上預訓練的模型很難适應電影領域。并且由于LSMDC中的視訊資料分辨率普遍較高，而HD-VILA相對其他模型處理高分辨率視訊的效果也更好，是以性能提升也更大。

在DiDeMo和ActicityNet資料集上的實驗中，HD-VILA也取得了更好的性能。這兩個資料集的主要特點就是規模更大、視訊類别更豐富，每個視訊的時間也更長，在這種情況下，模型需要更好的時序了解能力才能召回正确的結果，也符合HD-VILA的訓練目标。

在text-to-visual生成實驗中，研究人員對比的模型為StyleCLIP和TediGAN，這兩個模型都是利用跨模态的預訓練來完成語言引導的圖像生成任務，并且圖像生成品質在業界也是廣受好評。視覺生成結果的品質一定程度上也可以反映跨模态embedding的品質。

在text-guided manipulation任務的第一個例子中，雖然三個模型都成功将頭發變得更加大波浪，但HD-VILA是唯一一個遵循文本的要求給人物塗上口紅的模型。

在圖像超分辨率（super-resolution）任務中， HD-VILA和SR3, pSp模型同時從16×16的超低分辨率中生成1024×1024的圖像，由于輸入圖像的分辨率特别低，是以任務也是相當有挑戰性。

實驗結果中可以看到，SR3和pSp僅利用視覺資訊并不能重建高品質的人臉，而HD-VILA能夠在預訓練模型的支援下，借助文本描述能夠準确地重建口紅、直發等人臉特征。

文章的作者郭百甯博士現為微軟亞洲研究院常務副院長，負責圖形圖像領域的研究工作。于1999年加盟微軟中國研究院（即微軟亞洲研究院前身）。此前他是美國英特爾公司矽谷總部研究院的資深研究員，擁有美國康奈爾大學碩士和博士學位，北京大學學士學位。

郭百甯博士的研究興趣包括計算機圖形學、計算機可視化、自然使用者界面以及統計學習。他在紋理映射模組化、實時渲染以及幾何模型等領域取得的研究成果尤為突出。

參考資料：

https://arxiv.org/abs/2111.10337

高低分辨率全都要！8位華人聯合釋出史上規模最大、最高清視訊資料集

繼續閱讀

軟/硬體皆為拔尖水準林肯Z車機體驗

分毫盡顯！關于CineAltaV2 8K和4K分辨率的優選路徑

谷歌開放俄戰略目标高分衛星圖：0.5米分辨率！問題究竟多嚴重？

全新統計2K取代1080P成主流，很多人算是反向更新了

有哪些提升日常生活幸福感的小妙招？靈映偷偷告訴你！

直接影響VR眼鏡觀影體驗的因素！

掃描電鏡加速電壓提高分辨率，但可能出現這些問題！

選購小間距LED顯示屏，切忌片面關注分辨率！

4K電視普及，超清片源不足痛點如何破？華為智慧屏新一代畫質技術來了

Android 13隐藏功能曝光：可降分辨率讓續航再度提升

2K屏在智能手機上普及慢？這鍋今後要谷歌來背

3款顯示器大促：28寸4K隻要1099元

vivo X Fold折疊屏适配官方指南釋出

200萬年薪！西交大2位計算機博士入選華為天才少年

比亞迪銷量暴增、新造車集體折戟，車企“生存”究竟需要什麼？

怎樣用手機拍出高清視訊