天天看點

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

abstract

單聲道信号源分離對于許多實際應用而言都是有用的,盡管這是一個具有挑戰性的問題。 在本文中,我們研究了用于單聲道語音分離的深度學習。 我們提出了使用額外的屏蔽層對深度學習模型(深度神經網絡和遞歸神經網絡)進行聯合優化的方法,該方法會強制執行重構限制。 此外,我們探索了神經網絡的判别訓練準則,以進一步提高分離性能。 我們使用TIMIT語料對單聲道語音分離任務進行評估。 與NMF模型相比,我們提出的模型可實作約3.8⇠4.9dB的SIR增益,同時保持更好的SDR和SAR。

1. INTRODUCTION

音頻信号的源分離對于幾種實際應用很重要。 例如,從語音信号中分離噪聲可提高自動語音識别(ASR)的準确性[1,2]。 将歌聲與音樂分開可以提高和弦識别的準确性[3]。 但是,目前的分離結果仍然遠遠落後于人的能力。 單聲道信号源分離更加困難,因為隻有一個單通道信号可用。

最近,已經提出了幾種解決單聲道源分離問題的方法[4、5、6、7]。 廣泛使用的非負矩陣分解(NMF)[4]和機率潛在語義索引(PLSI)[5,6]通過學習非負重構基數和權重來分解時頻頻譜表示。

NMF和PLSI模型是具有非負限制的線性模型。 每個可以看作是一個具有非負權重和系數的線性神經網絡。 此外,NMF和PLSI通常直接在光譜域内運作。 在本文中,為了增強模型的可表達性,我們研究了基于非線性模型的源分離,特别是深度神經網絡(DNN)和遞歸神經網絡(RNN)[8,9,10]。 可以将網絡視為通過多層非線性層學習最佳隐藏表示,而不是直接使用頻譜表示進行分離,并且輸出層将根據學習到的隐藏表示來重構頻譜域信号。

在本文中,我們探讨了在監督環境中DNN和RNN在單聲道語音分離中的使用。 我們提出了具有軟掩碼功能的網絡聯合優化。 此外,還探索了區分訓練目标。 提出的架構如圖1所示。

本文的組織結構如下:第2節讨論與先前工作的關系。 第三部分介紹了所提出的方法,包括深度學習模型和軟時頻掩蔽函數(soft time-frequency masking function)的聯合優化以及判别性訓練目标。 第4節介紹使用TIMIT語音語料庫的實驗設定和結果。 我們在第5節中總結了這篇論文。

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

2. RELATION TO PREVIOUS WORK

深度學習方法通過用多個非線性層表示不同級别的抽象[8、11、12],已經産生了許多最新技術成果。 最近,深度學習技術已應用于相關任務,例如語音增強和理想的二進制掩碼估計[2、13、14]。

Narayanan和Wang [13]以及Wang和Wang [14]提出了使用深度神經網絡預測理想二進制掩碼的2階段架構。作者首先嘗試使用K神經網絡分别預測每個特征維,其中K為特征維,然後在第一階段使用相鄰的時頻預測訓練另一個分類器(一層感覺器[13]或SVM [14])。作為輸入。當輸出次元較高時,針對每個輸出次元訓練一個DNN的方法無法擴充。例如,如果我們要使用光譜作為目标,則1024點FFT的尺寸為513。訓練如此大的神經網絡通常是不切實際的。另外,在相鄰頻率的神經網絡之間有許多備援。在我們的方法中,我們提出了一個通用架構,可以使用一個神經網絡同時訓練所有特征維,并且還提出了一種直接與網絡一起訓練掩蓋功能的方法。

Maas等在[2]中提出在穩健的自動語音識别中使用RNN進行語音降噪。 給定噪聲信号x,作者應用RNN來學習清晰語音y。 在源分離場景中,我們發現,與對所有源進行模組化的架構相比,直接對降噪架構中的一個目标源進行模組化是次優的。 此外,我們可以使用來自不同預測輸出的資訊和限制條件來進一步執行掩蔽和判别訓練。

3. PROPOSED METHODS

3.1. Architecture

我們探索使用深度神經網絡和遞歸神經網絡來學習最佳隐藏表示以重建目标光譜。 圖2給出了使用RNN提出的架構的示例。 在時間t,網絡的訓練輸入xt是來自視窗内混合物的特征(光譜或對數-mel濾波器組特征)的串聯。 網絡的輸出預測Y1tY2t是不同來源的譜。 在RNN中,根據目前輸入xt和前一時間步長h (l)(xt1)的隐藏激活來計算lth隐藏層l> 1。

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION
論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中Wl和Ul是權重矩陣,bl是偏差矢量。 對于DNN,時間權重矩陣Ul為零。 計算第一隐藏層為h1(xt)= f(W1xt + bl)。 函數f()是非線性函數,在這項工作中,我們将使用整流線性機關f(x)= max(0,x)進行探索。 輸出層是線性層,其計算公式為:

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中c是偏差向量,y^是兩個預測源y1t和y2t的串聯(output的輸出)。

3.2. Time-Frequency Masking

直接訓練前面提到的網絡并沒有限制,即預測結果的總和等于原始混合。 強制執行限制的一種可能方法是對原始混合物進行時頻屏蔽。 為了強制執行此限制,本文探讨了兩種常用的屏蔽功能:二進制(硬)和軟時頻屏蔽方法。

給定混合xt,我們通過網絡獲得輸出預測(output) y1t和y2t。 二進制時頻掩碼Mb定義如下:

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中f = 1 … F,代表不同的頻率。 我們還可以如下定義軟時頻掩碼Ms:

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中f = 1 … F,代表不同的頻率。

一旦計算了時頻掩模M(Mb或Ms),便将其應用于混合物xt的譜Xt,以獲得估計的分離譜ˆs1t和ˆs2t,它們分别對應于源1和2,如下所示:

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

此外,除了從網絡中擷取輸出并計算掩蔽結果外,我們還可以将掩蔽功能直接內建到神經網絡中。 由于二進制屏蔽函數不平滑,是以我們建議直接內建軟時頻屏蔽函數。 我們向神經網絡的原始輸出添加一個額外的層,如下所示:

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中的運算符是逐元素乘法(Hadamard乘積)。 這樣,我們可以将限制條件內建到網絡中,并通過屏蔽功能共同優化網絡。 注意,盡管該額外層是确定性層,但是使用反向傳播針對〜y1t,〜y2t和y1t,y2t之間的誤差度量優化網絡權重。 為了進一步平滑預測,

我們可以将掩蔽函數應用于y1t和y2t,如等式所示。(3),(4)和(5),以獲得估計的分離譜〜s1t和〜s2t。 基于估計頻譜的短時傅立葉逆變換(ISTFT)重建時域信号。

3.3. Discriminative Training

給定原始源y1t和y2t的輸出預測ˆy1t和ˆy2t(或y1t和y2t,式6左),我們可以通過最小化平方誤差來優化神經網絡參數。

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中|| · || 2是兩個向量之間的L2範數。

此外,最小化公式(7)等同于增加預測與目标之間的相似性。 對于信号源分離問題,目标之一就是要有較高的信噪比(SIR); 也就是說,在目前的源預測中,我們不希望來自其他源的信号。 是以,我們提出了一個判别目标函數,該函數考慮了預測與其他來源之間以及預測與目前目标之間的相似性。

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

其中r是由開發集合的性能選擇的常數

4. EXPERIMENTS

4.1. Setting

我們評估使用TIMIT語料庫為單聲道語音分離提出的方法的性能。 分别使用男性和女性說話者的八個TIMIT句子進行訓練。 對于其餘的句子,将男性的一個句子和女性的一個句子用作開發集,将其他句子用作測試集。 将測試語句加起來以形成SNR為0 dB的混合信号。 對于神經網絡訓練,為了增加訓練樣本的種類,我們循環移動(在時域内)男性說話者的信号,并将其與女性說話者的話語混合。

4.1.1. Features

在實驗中,我們探索了兩種不同的輸入功能:頻譜和對數梅爾濾波器組功能。 使用具有50%重疊的1024點短時傅立葉變換(STFT)提取譜表示。 在語音識别文獻[15]中,與梅爾頻率倒譜系數(MFCC)和對數FFT箱相比,發現對數梅爾濾波器組提供了更好的結果。 實驗還探讨了40維log-mel表示以及一階和二階導數特征。 根據經驗,我們發現使用32 ms的視窗和16 ms的幀偏移效果最佳。 輸入幀速率對應于使用512點STFT提取的輸出頻譜。

4.1.2. Metric

根據BSS-EVAL名額,使用三個定量值來測量源分離評估:源幹擾比(SIR),源僞像比(SAR)和源失真比(SDR)。 SDR,SAR和SIR值越高,分離品質越好。 幹擾的抑制反映在SIR中。 分離過程中引入的僞影反映在SAR中。 總體績效反映在SDR中。

4.2. Experimental Results

我們将标準NMF與廣義KL散度度量結合使用,以512點和1024點STFT作為基準。我們首先分别從男性和女性訓練資料中訓練出一組基礎向量Wm,Wf。在求解系數Hm和Hf之後,将二進制和軟時頻屏蔽函數應用于預測的幅度譜圖。圖3顯示了使用二進制和軟掩碼針對不同數量的基向量(10、30、50)和不同STFT視窗大小的NMF結果。在10個不同的随機初始化中對結果取平均值。對于我們提出的神經網絡,我們通過相對于訓練目标反向傳播梯度來優化模型。有限記憶體的Broyden-Fletcher-GoldfarbShanno(L-BFGS)算法用于從随機初始化中訓練模型。我們使用150個隐藏單元的兩個隐藏層訓練模型。為了進一步了解模型的強度,我們在幾個方面比較了實驗結果。

為了檢查在有或沒有相鄰幀的情況下使用輸入的有效性,我們分别在圖4和5中報告了結果。兩種情況之間的差異不明顯。圖4和5的頂部和底部分别顯示了二進制和軟時頻屏蔽的結果。與NMF中的結果相似,如圖3所示,二進制掩碼會做出艱難的決定來強制執行分離,進而導緻更高的SIR,但也會導緻SAR更低的僞影。相反,軟掩膜可實作更好的SDR和SAR,但SIR較低。在前兩列中,我們比較了DNN和RNN使用譜作為特征。我們發現DNN和RNN之間的差異很小。使用其他功能或其他教育訓練标準的差異也很小。由于篇幅所限,我們僅在此處報告RNN的結果。在第2、3、6和7列與第4、5、8和9列之間,我們使用光譜和logmel濾波器組作為輸入特征進行比較。在沒有進行聯合訓練的情況下,第2、3、4和5列的光譜特征比對數-mel濾波器組特征更好。另一方面,在聯合訓練案例中,第6、7、8和9列的log-mel濾波器組功能可獲得更好的結果。在第2列和第3列,第4列和第5列,第6列和第7列以及第8列和第9列之間,我們比較了使用區分式訓練準則(即等式> 0)的有效性。 (8)。在大多數情況下,SIR都會得到改善。設計目标函數時,結果符合我們的預期。但是,這也會導緻某些僞像,在某些情況下會導緻SAR稍低。根據經驗,該值在0.05~0.2的範圍内實作SIR改進并保持SAR和SDR。比較第2列,第3列,第4列和第5列以及第6列,第7列,第8列和第9列,我們可以看到,結合使用具有屏蔽功能的網絡進行訓練可以獲得很大的改進。由于訓練了标準NMF時沒有将相鄰特征連接配接在一起,是以,我們将NMF結果與圖5中的結果進行比較。我們的最佳模型分别通過二進制和軟時頻屏蔽實作3.8到4.8dB和3.9到4.9dB SIR增益。 ,而該模型可實作更好的SDR和SAR。聲音示例和此項工作的更多詳細資訊可線上獲得。

論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION
論文研究7:DEEP LEARNING FOR MONAURAL SPEECH SEPARATION

5. CONCLUSION

在本文中,我們使用深度學習模型進行單聲道語音分離。 具體來說,我們提出對軟掩蔽功能和深度學習模型(DNN和RNN)進行聯合優化。 通過提出的區分訓練标準,我們進一步提高了SIR。 總體而言,與NMF基準相比,我們提出的模型實作了3.8~4.9dB的SIR增益,同時保持了更好的SDR和SAR。 對于将來的工作,使用神經網絡探索更長的時間資訊非常重要。 我們提出的模型還可以應用于許多其他應用,例如健壯的ASR。

繼續閱讀