AI根據視訊畫面自動配音，真假難辨 !（附資料集）視聽關聯加工資料集準備模型

先來做個“真假美猴王”的遊戲。

你将看到兩段畫面相同的視訊，請判斷哪段來自視訊原聲，哪段是AI根據視訊畫面配上的假聲？

莫非兩個都是真的？不可能，答案文末揭曉。（還有更多真假難辨的視訊原聲和配音大對比）

真假難辨，簡直讓人懷疑耳朵。模型合成的假音效，什麼時候都這麼逼真了？一切還得從這個自動為自然環境下的視訊配音的項目說起。

看閃電，知雷聲。

對人類來說，聲音和視覺通常會打包出現傳遞資訊。就像一個孩子看到閃電會下意識捂住耳朵，看到沸騰的水會想起水汽呼呼的聲音。

在論文（Visual to Sound: Generating Natural Sound for Videos in the Wild）中，北卡羅來納大學的博士生Yipin Zhou，其導師Tamara L. Berg聯合Adobe公司的Zhaowen Wang、Chen Fang和Trung Bui三人，想做出一個計算模型來學習視覺和聲音間的關系，減少繁瑣的音頻編輯流程。

論文一作Yipin Zhou

要做出這樣一個模型，那第一步肯定是找出一個合适的資料集來訓練。

這個資料集可沒有那麼好找。

研究人員掐指一算，覺得AudioSet不錯。

這是今年3月谷歌開放的一個大規模的音頻資料集，包含了632個類别的音頻及2084320條人工标記的音頻，每段音頻長度均為10秒。人與動物、樂器與音樂流派、日常環境的聲音均覆寫在資料集内。

資料集代碼位址：

https://github.com/audioset/ontology

但由于AudioSet中很多的音頻與視訊的關聯松散，目标聲音可能被音樂等其他聲音覆寫，這些噪音會幹擾模型學習正确的聲音和圖像間的映射（mapping），是以也不是很理想。研究人員先清理了資料的一個子集，讓它們适應生成任務。

研究人員從AudioSet中選擇10個類别進行進一步的清理，分别為嬰兒啼哭、人打鼾、狗、流水、煙火、鐵路運輸、列印機、打鼓、直升機和電鋸。每個類别中包含1500-3000個随機抽取的視訊。

其中4個類别的視訊幀及相應波形。圖像邊界顔色與波形上的标記标記一緻，表示整個視訊中目前幀的位置

之後，研究人員用亞馬遜衆包平台Mechanical Turk(AMT)清理資料。值得一提的是，李飛飛在建立ImageNet資料集時，也是借助這個可以把任務分發給全世界坐在電腦前的人的平台做起來的。

在這個任務中，研究人員借助AMT上兼職的力量驗證在圖像和音頻形态下，視訊片段中關注的物體或動作是否存在。如果在視聽兩種環境下都存在，則認為它是一個噪音較少的可用視訊。為了盡可能保留更多資料，研究人員将每段視訊分割成兩秒鐘的短視訊，分别标注标簽。

這樣一來，圖像和音頻模式上共标注了132209個片段，每個都被3個兼職做了标記，并從原始資料中删除了34392個片段。研究人員在合并相鄰的短片段後，總共得到了28109個篩選後的視訊。這些視訊平均長度為7秒，總長度為55小時。

下圖左表顯示了視訊數量和每個類别的平均長度，而餅圖展示了長度的分布。由圖中可見大多數視訊的長度超過8秒。

左：每個類别視訊數量及平均長度/右：視訊長度的分布

研究人員将這個資料集命名為VEGAS（Visually Engaged and Grounded AudioSet ）。

資料集搞定後，研究人員開始了模型研究。

研究人員将任務當成一個條件生成問題，通過訓練條件生成模型從一個輸入視訊合成原始波形樣本。條件機率如下：

在這個機率中，x1，……，Xm為輸入視訊幀的表示，y1，……，yn為輸出的波形值，是0到255之間的整數序列。值得注意的是，m通常遠遠小于n，因為音頻的采樣率遠高于視訊的采樣率，是以音頻波形序列比同步視訊的視訊幀序列長得多。

大體來說，這個模型由兩部分構成，即聲音生成器和視訊編碼器。

研究人員想直接用生成模型合成波形樣本。為了得到音效說得過去的音頻，他們選用了16kHz的音頻采樣頻率。這就導緻序列相當長，給生成器出了個難題。最後，研究人員選擇了Yoshua Bengio團隊在去年發表的論文《SampleRNN: An Unconditional End-to-End Neural Audio Generation Model》中提出的SampleRNN來合成聲音。

論文位址：

https://arxiv.org/abs/1612.07837

SampleRNN是一種遞歸神經網絡，它由粗到細的結構使模型産生極長的序列，而且每一層的周期性結構都能捕捉到關聯不緊密的樣本間的依賴關系。

SampleRNN已經應用于語音合成和音樂生成任務。在這個項目中，研究人員用它來為自然條件下的視訊生成聲音。這意味着變化更大、結構模式更少和比語音或音樂資料更多的噪音。

确實是個挑戰。

SampleRNN模型的簡化結構如下圖所示。

聲音生成器的簡化架構

圖中将示例結構簡化到2層，但在實際操作中可能包含更多層次。該模型由多個層、細層（底層）是一個多層感覺器（MLP），它從下一個粗層（上層）和前一個k樣本中輸出，生成一個新樣本。

之後，研究人員提出了三種類型的編碼器-解碼器結構，這些資訊可以與聲音生成網絡相結合，形成一個完整的架構。這三種變體分别為幀到幀法（Frame-to-frame method）、序列到序列法（Sequence-to-sequence method）和基于流的方法（Flow-based method）。

原文釋出時間為：2017-12-13

本文作者：文婧

AI根據視訊畫面自動配音，真假難辨 !（附資料集）視聽關聯加工資料集準備模型

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普

AI根據視訊畫面自動配音 ，真假難辨 !（附資料集）視聽關聯加工資料集準備模型

繼續閱讀

AI根據視訊畫面自動配音，真假難辨 !（附資料集）視聽關聯加工資料集準備模型