天天看點

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

Adobe Audition的音頻剪輯霸主地位可能不保了。

最近,MIT的計算機科學與人工智能實驗室(CSAIL)研發出一種名為Pixel Player系統,能夠通過大量無标簽的視訊來學習聲音定位,更強大的是,Pixel Player能夠把聲音與聲源的像素點進行分離,并完美做到視覺與聲音的同步,“想聽哪裡點哪裡”。

同時,利用Pixel Player系統,使用者能夠對圖像中不同的聲音分别進行音量調節,實作簡單的音頻編輯。

論文位址:https://arxiv.org/abs/1804.03160

像素之聲:完美分離聲與畫,“圖檔版Adobe Audition”冉冉升起

通常來講,人類依靠強大的聽覺和視覺能力組合,能夠輕松識别和分辨聲音與發出聲音的聲源物體,但對機器來講比較困難,其視覺能力與聽覺能力組合起來達到的識别水準并不如人類。

CSAIL制作了一個視訊Demo,展示了Pixel Player是如何通過點選圖檔就能實作視訊聲音的分離與調節,進而“讓像素發聲”。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

簡單來說,Pixel Player首先通過大量視訊學習定位聲音産生的像素區域,然後将視訊的聲音與發聲的像素點進行分離。這樣,點選圖檔中聲源的位置,就能發出相應的聲音。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

如視訊中所示,點選圖檔中相應的樂器,就能發出6對應的聲音,但點選牆壁、人體等位置則不會發聲(有輕微噪聲)。

Pixel Player系統更強大的地方在于,它不僅能分離圖檔與聲音,還能夠對聲音的音量進行調節。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

在上面的視訊中,Pixel Player能夠對畫面中樂器演奏的音量進行大小調節,若調到最小位置,則實作消音,起到類似Adobe Audition中的聲音移除效果。

Pixel Player系統像是“圖檔版”Adobe Audition,雖然目前功能還遠遠不及後者強大,但其應用前景廣泛。例如,在視訊制作中,可以直接通過對圖像的編輯實作音畫分離,省去了單獨剪輯音頻的過程。

定位視訊、分離音頻,PixelPlayer監聽視訊中每個像素發出的聲音

摘要

本文提出PixelPlayer,這個系統通過利用大量無标簽的視訊來學習如何定位産生聲音的圖像區域,并将輸入的聲音根據發聲的像素點進行分離。我們的方法利用了可視化和音頻模式的自然同步,在無監督的情況下學習了聯合解析聲音和圖像的模型。在新收集的MUSIC資料集上的實驗結果表明,我們提出的混合-分離架構比将基線系統效果更好。一些定性的結果表明,我們的模型在視覺上學習了真實的聲音,使應用程式能夠獨立地調整聲音源的音量。

1.介紹

這個世界蘊含着豐富的視覺和聽覺信号。我們的視覺和聽覺系統能夠識别世界上的物體,分割被物體覆寫的圖像區域,并将不同物體産生的聲音進行隔離。雖然聽覺場景分析在環境聲音識别領域得到了廣泛的研究,但在視覺和聲音的自然同步可以為視覺提供一個豐富的監控信号。通過視覺或聲音來識别物體的系統通常需要大量的有标簽資料來訓練。然而,在這篇論文中,我們利用聯合視聽學習來實作在無監督的條件下,通過音頻和視訊的結合來識别産生聲音的物體,并分離來自每個物體的音頻成分。我們将系統命名為PixelPlayer。在一個輸入視訊中,PixelPlayer将相應的音頻分離,并在視訊中對它們的發聲進行空間定位。PixelPlayer使我們能夠監聽視訊中每個像素發出的聲音。

本文通過利用視覺和聲音之間的自然同步來學習基于視覺的視聽模型。PixelPlayer的輸入是音頻的波形資料,用于預測與此音頻對應的視訊中發聲物體的位置。

圖1顯示了一個本文提出的處于工作狀态的PixelPlayer。在這個例子中,系統使用大量的視訊資料進行訓練,其中包含了使用不同的樂器進行演奏的場景,包括獨奏和二重奏。在每一段視訊中,樂器的種類,它們的位置以及它們如何發聲都沒有任何标簽提供。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

圖1

在測試階段,輸入(圖1.a)是一段包含幾個不同樂器演奏場景的的視訊I(x,y,t)和單聲道音頻S(t)。PixelPlayer執行視訊和聲音的分離以及發聲定位,将輸入聲音信号分解為不同的聲音組成部分Sout(x,y,t),每一個聲音對應于來自視訊幀中的一個空間位置(x;y)。作為一個例子,圖1.c顯示了從11個像素中恢複的音頻信号。平坦的藍色線條對應于被系統預測無聲的像素。有聲的信号與每個樂器産生的聲音相對應。圖1.d顯示了預測的聲音能量,或來自每個像素的音頻信号的音量。請注意,系統正确地檢測到聲音來自于兩個樂器的位置,而不是來自于背景。圖1.e顯示了像素是如何聚集在聲音信号周圍的。同樣的顔色被配置設定給産生相似聲音的像素。

将聲音融入視覺的能力将對一系列與視訊識别和處理相關的應用産生重大影響。PixelPlayer分離和聲源定位的能力将可以對每個物體的聲音進行獨立的處理,這有助于聽覺識别。我們的系統還可以促進對視訊進行聲音編輯,例如,對特定對象的音量進行調整,或者删除來自特定聲源的音頻。

最近有兩篇論文提出通過視音頻結合來對不同源的音頻進行分離。其中一篇提出了如何通過人的外表來解決語音領域的雞尾酒會問題。例外一篇論文示範了一個視聽系統,它将螢幕上場景對應的聲音和螢幕上不可見的背景音相分離。

2.視聽分離與定位

在本節中,我們将介紹PixelPlayer的模型架構,并提出可以根據視訊來分離聲音的混合-分離訓練架構。

2.1 模型結構

本文提出的模型由三部分組成:一個視訊分析網絡、一個音頻分析網絡和一個音頻合成網絡,如圖2所示:

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

圖2

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

視訊分析網絡:它主要通過視訊幀提取視訊特征,它可以是用于可視化分類任務的任意網絡架構。本文中應用的是ResNet-18的擴充版本,關于這個網絡的具體細節會在實驗部分進行詳細的描述。對于一個大小為TxHxWx3的視訊,ResNet模型對每一幀提取Tx(H/16)X(W/16)xK的特征,在應用temporal池化處理後,可以獲得大小K的幀特征ik(x,y)。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

音頻分析網絡:音頻分析網絡使用的是U-Net結構,将輸入聲音分割為K個部分,用Sk(K=1,…,k)表示。經驗發現,使用語譜圖比使用原始波形的效果更好,是以本文所提出的網絡使用了聲音的時頻(T-F)特征。首先,對輸入的混合音頻使用短時傅裡葉變換(STFT)以獲得其語譜圖,然後将語譜圖轉換到數頻域,并将獲得的特征輸入到U-Net網絡中,以獲得包含不同聲源的特征圖譜。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

聲音合成網絡:聲音合成網絡最終通過獲得的像素級視訊特征ik(x,y)和音頻特征sk來預測待預測聲音。輸出的語譜圖是通過基于視訊的光譜圖掩膜技術獲得的。具體地說,一個掩膜M(x, y)可以将像素的聲音從輸入的音頻中分離出來,并與輸入譜圖相乘。最後,為了得到預測的波形,我們将語譜圖的預測振幅與輸入譜圖相結合,并利用Griffin-Lim算法來重建。

2.2半監督訓練的混合-分離模型

訓練混合-分離描寫的想法是人為地建立一個複雜的聽覺場景,然後解決聲音分離和真實的聽覺場景分析問題。 利用音頻信号具有疊加性的事實,我們通過混合來自不同視訊的聲音來生成複雜的音頻輸入信号。 該模型的學習目标是從輸入的音頻中分離出一個以與視覺輸入相關的音頻。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

圖3

圖3顯示了在兩個視訊混合情況下的訓練架構。訓練階段與測試階段不同,主要展現為以下兩個部分:1)我們從訓練集中随機抽取多個視訊,并混合它們的音頻部分,目的是根據相應的視覺輸入來恢複出每一個音頻;2)視訊特征是通過時空(spatial-temporal)的最大池化方法(max pooling)獲得的,而并非像素級的特征。值得注意的是,盡管訓練過程中有明确的目标,但仍然是無監督的,因為我們不使用資料标簽,也不對采樣的資料做出假設。

我們系統中的學習目标是語譜圖的掩膜,它們可以是二進制掩膜或比率掩膜。對于而進制掩模,通過觀察目标聲音在每個T-F單元中混合聲音的主要成分,計算出第N個視訊的目标掩膜的值。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

其中(u,v)表示以T-F為機關的坐标軸,S表示的語譜圖。每一個像素點的sigmoid交叉熵損失函數用來作為學習的目标函數。對于比率掩膜,視訊的真實掩膜是通過目标聲音和混合聲音的振幅比例來計算的。

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

在這裡,每一個像素點L1損失是用來訓練的。要注意的一點是,真實的掩膜值由于一些幹擾,不一定一直在[0,1]範圍内。

3.實驗過程與分析

3.1實作細節

我們在模型訓練中的目标是能夠在自然的視訊上學習(包括solos和duets),對驗證集進行定量評估,最後用混合資料解決自然視訊的源分離和定位問題。是以,我們将我們的音樂資料集分成500個視訊進行教育訓練,130個視訊用于驗證,還有84個用于測試的視訊。其中,500個訓練視訊包含了二重奏和獨奏,驗證集隻包含獨奏,而測試集隻包含二重奏。

在訓練過程中,我們從MUSIC資料集中随機抽取N=2個視訊,這些視訊可以是solos、duets或靜默背景。無聲的視訊是通過将無聲的音頻波形與包含自然環境圖像的ADE資料集的圖像随機配對的。這種技術通過引入更多的無聲視訊,使模型更适合于對象的定位。總而言之,輸入混合音頻可以包含0到4個樂器。我們也嘗試了混合更多的聲音,但這使得這項任務更具挑戰性,而且模型也沒有訓練得更好。

在優化過程中,我們使用一個動量=0.9的SGD優化器。因為我們在ImageNet上采用了預訓練的CNN模型,是以将音頻分析網絡和音頻合成器的學習速率設定為0.001,并将視訊分析網絡的學習速率設為0.0001。

3.2模型的訓練效果

為了對模型的性能進行定量的評估,我們還使用混合-分離的過程來制作合成混合音頻的驗證集,然後進行分離。

如表1所示,在所有的模型中,NMF通過使用音頻和真實的标簽來進行源分離。其餘的模型都是基于和我們所描述架構相同的深度學習的,通過輸入的視訊和音頻來進行模型學習。光譜回歸是指基于輸入的混合語譜圖,直接通過回歸輸出語譜圖的值,而非輸出語譜圖的掩碼值。從圖中可以看出,二值掩膜的效果最好。

表1

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

如表2所示,是對聲分離性能的主觀評價。從表中可以看出基于二值掩膜在聲音分離中優于其他模型

表2

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

如表3所示,是對視訊-聲音一緻性的主觀評價。基于二值掩膜的模型可以最好的地将視覺和聲音聯系起來。

表3

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

4.結論

在這篇文章中,我們介紹了PixelPlayer,這個系統可以學習如何對輸入的聲音進行分離,并在輸入的視訊中定位對應的發聲源。PixelPlayer是在MUSIC這個資料集上訓練的,它收集了與樂器相關的大量的無标簽視訊。通過使用定量、定性的結果和主觀的使用者研究,證明了我們的多模态學習系統的有效性。希望我們的工作能夠開辟新的研究途徑,通過視覺和聽覺信号來了解聲音源分離的問題。

原文釋出時間為:2018-04-12

本文作者:小潘、克雷格

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:

逆天!MIT新“像素發聲”系統,完美分離聲與畫(附視訊)

繼續閱讀