天天看點

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

論文位址:http://www.interspeech2020.org/uploadfile/pdf/Thu-1-10-5.pdf

基于GAN的回聲消除

摘要

  生成對抗網絡(GANs)已成為語音增強(如噪聲抑制)中的熱門研究主題。通過在對抗性場景中訓練噪聲抑制算法,基于GAN的解決方案通常會産生良好的性能。在本文中,提出了卷積循環GAN架構(CRGAN-EC),以解決線性和非線性回聲情況。所提出的體系結構在頻域中進行了訓練,并預測了目智語音的時頻(TF)掩碼。部署了幾種度量損失函數,并研究了它們對回聲消除性能的影響。實驗結果表明,所提出的方法在回聲回聲損耗增強(ERLE)和語音品質感覺評估(PESQ)方面優于看不見的說話者。此外,多個度量損失函數提供了實作特定目标的更大自由度,例如,更多的回聲抑制或更少的失真。

關鍵字:非線性回聲消除,深度學習,生成對抗網絡,卷積循環網絡

1 引言

  聲音回聲産生于本地音頻回路,當(近端)麥克風從揚聲器接收音頻信号,并将其發送回(遠端)參與者時發生。回聲會極大地幹擾談話,讓通話變得非常不愉快和分散注意力。回聲消除(AEC)或回聲抑制(AES)的目的是抑制麥克風信号的回聲,同時使近端通話者的語音失真最小。傳統的回聲消除算法在假設遠端信号與回聲呈線性關系的情況下,利用自适應濾波器[1]來估計回聲路徑。在實踐中,這種線性假設并不總是成立的,是以經常使用[2][3]後置濾波器來抑制殘差回聲。然而,當引入非線性時,這種AEC算法的性能會顯著下降。雖然提出了一些非線性自适應濾波器,如Volterra濾波器[4],但它們太昂貴而難以實作。

  随着深度學習技術的發展,利用深度神經網絡完成了語音識别[5]、噪聲抑制[6][7]、語音分離[8][9]等語音處理任務。提出了幾種消除回聲的方法。Lee等人[10]使用三層受限玻爾茲曼機(RBM)深度神經網絡來預測殘差回聲抑制的增益。Muller等人[11]建議在雙講過程中使用近端非活躍頻率來适應聲傳遞函數,使用兩個全連接配接層網絡來檢測近端信号的活動。Zhang和Wang[12]提出了一種雙向長短時記憶(BLSTM)算法,該算法從麥克風信号中預測出理想的比例掩碼,然後利用該掩碼重新合成近端語音。這種解決方案不需要雙講檢測而傳統方法做。Carbajal等[13]建構了兩層網絡來預測殘差回聲抑制的相敏濾波器。Zhang等人[14]利用卷積循環網絡和長短期記憶将近端語音從麥克風錄音中分離出來。Fazel等人[15]提出了帶多任務學習的深度遞推神經網絡來學習估計回聲的輔助任務,以改進估計近端語音的主要任務。

  近年來,生成對抗網絡在語音增強中的應用得到了研究。許多基于GAN的語音增強算法已經被提出。一些是端到端解決方案,直接映射噪音語音到增強信号[16][17]。其他GANs在T-F域[18][19]工作,預測掩碼,然後在時域重新合成目智語音。

  在本文中,我們提出了一種基于GAN的回聲消除算法,适用于線性和非線性回聲場景。在發生器網絡中,将傳聲器信号和參考信号的對數幅值譜作為輸入,預測譜的T-F掩模作為輸出。編碼器由卷積層組成,解碼器相應由反卷積層組成。它們之間是一個兩層的BLSTM。利用卷積層提取麥克風信号和參考信号之間的局部相關性,以及它們之間的映射關系。BLSTM層位于G網絡的中心,可以捕獲長期的時間資訊。鑒别器D網絡有卷積層和全連接配接層。鑒别器的輸入為一對ground-truth 信号和增強信号,輸出為[0,1]縮放分數,而不是真/假。

  本文的其餘部分組織如下。第2節介紹背景知識。在第3節中,我們介紹了基于GAN的算法,然後在第4節給出了實驗設定和結果。最後的結論在第五部分給出。

2 背景知識

2.1 回聲消除

  聲波回聲是由麥克風和揚聲器耦合而産生的,如圖1所示。遠端信号(或參考信号)\(x(t)\)從揚聲器通過各種反射路徑\(h(t)\)傳播,與近端信号\(s(t)\)在麥克風\(d(t)\)混合。聲學回聲是\(x(t)\)的修改版本,包括回聲路徑\(h(t)\)和揚聲器失真。

圖1 回聲生成和聲學回聲消除的示例

  傳統的AEC算法利用自适應濾波器估計回聲路徑\(h(t)\),并從麥克風信号\(d(t)\)中減去估計回聲\(y(t)=\hat{h}(t) * x(t)\)。在雙講期間需要一個單獨的雙講檢測來當機濾波器自适應。該線性回聲消除器是在參考信号與聲波回聲呈線性關系的假設下實作的。然而,由于揚聲器等硬體限制,通常會引入非線性。是以,需要一個後置濾波器來進一步抑制殘留回聲。傳統AEC算法框圖如圖2中上圖所示。

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

圖2 傳統AEC的示例(頂部)和基于神經網絡的AEC(底部)

  近年來,基于深度學習的AEC算法顯示出了巨大的潛力。在有足夠的訓練資料的情況下,無論是在比對的還是不比對的測試用例中,基于神經網絡的解決方案都比傳統的解決方案具有更好的性能。圖2底部是基于DNN算法的一個例子。模型輸入由參考信号和傳聲器信号的對數幅度譜組成。該模型旨在估計增強的幅度譜(類似于LEC和後置濾波器組合)。最後,麥克風信号相位用于在時域中重新合成增強信号。

  評價AEC性能的一般名額包括ERLE和PESQ,這兩個名額也被用于本實驗。

  ERLE常用于測量系統在近端通話不活躍的情況下實作的回聲減少。ERLE的定義是

\[E R L E(d B)=10 \log _{10} \frac{E\left\{d^{2}(t)\right\}}{E\left\{q^{2}(t)\right\}}  (1)

\]

其中,E{}表示統計期望。

  PESQ評估雙講期間增強的近端語音的感覺品質。PESQ評分通過對比增強信号與ground-truth信号計算,評分範圍為(-0.5,4.5),評分越高品質越好。

2.2 生成對抗網絡

  GAN由兩個網絡組成:一個生成網絡G和一個辨識器網絡D。這形成了一個極大極小博弈方案(minimax game scenario),G試圖生成假資料來愚弄D,而D正在學習辨識真資料和假資料,重要的是,G并不記憶輸入輸出對,而是學習将資料分布特征映射到先驗Z中定義的流形。D通常是一個二進制分類器,其輸入要麼是來自G模仿資料集的真實樣本,要麼是由G組成的假樣本。如[20]所述,傳統GAN中D和G的損失函數可以表述為

\[\begin{aligned}

\min _{G} \max _{D} V(D, G)=& \mathbb{E}_{y \sim}[\log D(y)] \\

&+\mathbb{E}_{z \sim z}[\log (1-D(G(z)))]

\end{aligned}  (2)

式中,\(\mathbb{E}_{y \sim Y}\)表示Y來自分布T的期望。

  

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

圖3 GAN訓練過程

  圖3顯示了GAN訓練過程。G調整它的參數,使D将G的輸出分類為實數。在反向傳播過程中,D在輸入中輸入真實特征方面得到改進,反過來,G糾正其參數向前移動。

3 提出方法

  定義回聲消除問題是為了讓我們有一個輸入回聲已損壞的信号\(d(t)\),并想要清除它以獲得增強信号\(q(t)\)。我們建議用GAN模型來完成這項工作。在該方法中,G網絡進行增強。它的輸入分别是麥克風信号\(d(t)\)和參考信号\(x(t)\)的對數幅度譜\(D(n,k)\)和\(X(n,k)\)以及潛在表示z,它的輸出是用于重新合成增強版本\(Q(n,k)=M(n,k)*D(n,k)\)的T-F掩模\(Mask(n,k)=G\{D(n, k), X(n, k)\}\)。G網絡具有類似于自動編碼器的形狀,如圖4所示。在編碼階段,有三個二維卷積層,然後是一個reshape layer。卷積使網絡專注于輸入信号中的時間密切相關性,并且顯示出在GAN訓練[21]時更加穩定。相應的,解碼階段是編碼的相反版本,它由三個反卷積層組成。編碼器和解碼器之間有兩個雙向LSTM層來捕獲額外的時間資訊。批處理歸一化(BN)[22]應用于除輸出層外的每個卷積層之後。除輸出層使用sigmoid激活函數預測T-F掩模外,其他層均使用指數線性單元(ELU)[23]作為激活函數。

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

圖4 G網絡的編解碼器架構

  G網絡還具有跳躍連接配接的特點,将每個編碼層連接配接到其對應的解碼層,并将輸入譜的細粒度資訊傳遞給解碼器。此外,它們提供了更好的訓練行為,因為梯度可以在整個[24]結構中流動得更深。

  另一方面,D負責向G傳遞真實和虛假的資訊,G可以根據真實的分布對輸出進行輕微的修正,去掉被認為是假的回聲分量。D可以表示為學習某種損失,使G的輸出看起來真實。D的結構與G中的編碼器相似,有三個卷積層,一個平坦層,然後是三個完全連接配接的層。

  向更高的客觀度量分數更新權重已經被證明是有效的[19]

\min _{D} V(D) &=\mathbb{E}_{(z, y) \sim(z, \Upsilon)}\left[(D(y, y)-Q(y, y))^{2}\right] \\

&+\mathbb{E}_{(z, y) \sim(z, \Upsilon)}\left[(D(G(z), y)-Q(G(z), y))^{2}\right] \\

\min _{G} V(G) &=\mathbb{E}_{z, y \sim(z, Y)}\left[(D(G(z), y)-1)^{2}\right]  (3)

\end{aligned}

其中Q表示标準化的評估名額,其輸出範圍為0,1,是以Q(y,y)=1。此外,我們發現通過在V(G)中添加L2範數可以得到更好的結果:

\min _{G} V(G) &=\mathbb{E}_{z, y \sim(z, \Upsilon)}\left[(D(G(z), y)-1)^{2}\right] \\

&+\lambda\|G(z)-Y\|^{2}  (4)

  該算法采用對數幅度譜作為輸入特征。我們應用的FFT大小為512,視窗長度為25毫秒,步長為10毫秒。較高的客觀名額為PESQ和ERLE, \(\lambda=10\)。

  在G的編碼器中,卷積層的特征映射數量被設定為:16,32和64。第一層的核心大小為(1,3),其餘層為(2,3),步長設定為(1,2)。BLSTM層共包含256個神經元,每個方向128個,時間步長為100。G的解碼器部分遵循與編碼器相反的參數設定。

  在D中設定卷積層的特征映射個數為:10,20,20,完全連接配接層的神經元個數為:30,10,1。所有模型都使用Adam優化器[25]進行60個epoch的訓練,學習率為0.002,批處理規模為1。時間步長随每句話的幀數而變化。D的輸入是一對ground-truth信号和增強信号,輸出是[0,1]的縮放分數,而不是真/假。對于PESQ 損失函數, ground-truth信号是幹淨的近端語音,對于ERLE損失函數, ground-truth信号是噪聲信号(或麥克風信号)。PESQ和ERLE的度量損失都是基于話語水準的(utterance level)。

4 實驗評價

4.1 實驗設定

  TIMIT資料集[26]用于評估回聲消除性能。我們建立了類似于[14] [15]中報告的資料集:從TIMIT的630位說話人中,我們随機選擇100對說話人(40位男女,30位男女,30位女性-女性)作為遠端說話人。末端和近端揚聲器。随機選擇同一遠端揚聲器的三種發音,并将其串聯起來以生成遠端信号。然後,通過後端的零填充将近端揚聲器的每個發聲擴充到與遠端信号相同的大小。近端揚聲器的七種發音用于生成3500種訓練混合信号,其中每個近端信号都與五個不同的遠端信号混合。從剩餘的430個揚聲器中,随機選擇另外100對揚聲器作為遠端和近端揚聲器。我們按照與上述相同的步驟進行操作,但是這次僅使用了三種話音的近端揚聲器來生成300種測試混合音,其中每個近端信号都與一個遠端信号進行了混合。是以,測試混合物來自未經訓練的說話人。

  對遠端信号采用以下過程來模拟[27]中的非線性聲路徑。對于聲路徑的非線性模型,我們首先使用硬裁剪來模拟揚聲器飽和度(Thr =輸入信号最大音量的80%):

\[x_{c l i p}(t)= \begin{cases}-x_{\max }, & \text { if } x(t)<-T h r \\ x(t), & \text { if }|x(t)| \leq T h r \\ x_{\max }, & \text { if } x(t)>T h r\end{cases}  (5)

  然後,我們應用下面的sigmoid函數來模拟揚聲器失真:

\[x_{N L}(t)=4\left(\frac{2}{1+\exp (-a \cdot b(t))}-1\right)  (6)

其中\(b(t)=1.5 x_{\text {clip }}(t)-0.3 x_{\text {clip }}(t)^{2}\), 且若 \(b(t)>0\),則\(a=4\),否則\(a=4\)。最後,将sigmoid函數的輸出與随機選擇的房間脈沖響應(RIR)進行卷積,得到麥克風采集到的聲回聲。

  使用圖像方法[28]生成RIRs進行訓練。RIRs的長度設定為512,模拟室大小為\(4 m \times 5 m \times 3 m\),麥克風放置在[2,2,1.5]m處。揚聲器随機放置在五個距離麥克風1.5米的位置。混響時間(\(RT_{60}\))在0.2 到0.5秒之間。

  測試中使用RWCP資料庫[29]中的5個真實環境記錄的RIRs生成聲回聲。表1顯示了五種RIRs的資訊。

表1 來自RWCP資料庫的RIR

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

  本次測試同時考慮了線性和非線性回聲場景。在訓練步驟中,在信号回聲比(SER) {- 6,- 3,0,3,6} dB處随機産生麥克風信号,其中SER定義為

\[S E R(d B)=10 \log _{10} \frac{E\{\text { signal_near }}{E} \frac{2}{\left\{\text { signal }_{\text {far }}^{2}\right\}}  (7)

  在測試階段,麥克風信号在SER級别{0,3.5,7}dB産生,與訓練的SERs稍有不同,以評估不比對的訓練-測試用例。

4.2 實驗結果

  在本實驗中,采用兩種最先進的神經網絡算法,CRNN[14]和多任務GRU[15]作為基準。研究表明,基于神經網絡的方法優于[15]中傳統的“AES+RES”方法,是以我們跳過這裡的“AES+RES”比較。我們沒有在[14]中原始實作,而是直接使用本文方法中的G作為CRNN結構,參數在第3節給出。多任務GRU是按照[15]中的指令實作的。

  我們首先線上性聲路徑場景下評估我們提出的方法。表2顯示了未處理、CRNN、多任務GRU以及本文提出的方法的平均PESQ和ERLE得分。“CRGAN-EC-P ”表示使用PESQ作為度量損耗的GAN,“RGAN-EC-E”相應表示ERLE損耗的GAN。結果表明,在所有方法中,CRGAN-EC-P的PESQ得分最高,ERLE得分與CRNN和多任務GRU相當。CRGAN-EC-P性能優越的原因如下。卷積層有助于提供麥克風信号和參考信号之間的局部關聯和映射,而BLSTM層有助于捕獲長期時間資訊。傳統的均方誤差(MSE)損失函數以均勻權值度量增強信号與ground-truth信号之間的譜距離,而PESQ則是根據心理聲學原理,在不同權值的子帶上累積的分數。是以,最小化MSE分數的模型不能保證産生良好的PESQ分數。

表2 線性聲學路徑場景下的PESQ和ERLE得分

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

  與CRNN和多任務GRU相比,CRGAN-EC-E的PESQ得分較低,但ERLE得分最高。由于本實驗不考慮噪聲,且SER也不低,是以高ERLE分數并沒有多大意義。然而,不同的度量損失為系統實作特定目标提供了額外的自由。而結合PESQ和ERLE的度量損耗可以進一步在回聲消除和目智語音失真之間實作适當的折衷。由于篇幅有限,這裡隻顯示單獨的PESQ和ERLE結果。

  我們進一步研究了非線性聲路徑對我們方法的影響。在本次測試中,我們将\(x_{N L}\)與RIRs卷積産生聲回聲,是以既包含了功率放大器的削波,也包含了揚聲器的失真。我們再次比較了我們的方法與CRNN和多任務GRU的結果。表3顯示了PESQ和ERLE的平均得分。同樣,本文提出的CRGAN-EC-P在所有方法中獲得了最好的PESQ分數,ERLE分數也接近于最好的。提出的CRGAN-EC-E獲得最好的ERLE分數。

表3 非線性聲學路徑場景下的PESQ和ERLE評分

論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation

5 結論

  在這項研究中,我們提出了一種新的使用卷積循環GAN的聲學回聲消除算法,該算法線上性和非線性聲路徑場景下都能很好地工作。卷積層提取麥克風信号和參考信号之間的局部相關性,以及它們之間的映射關系。BLSTM層捕獲長期時間資訊。該體系結構在頻域進行訓練,預測目智語音的時頻掩碼。我們部署了各種度量損失函數,并證明了模型對回聲抑制和目智語音失真之間的權衡的魯棒性。在未來的工作中,我們打算在更嚴重的情況下,特别是無延遲的情況下,擴大對回聲消除的研究。

6 參考文獻

[1] E. Hansler and G. Schmidt, Acoustic Echo and Noise Control: A Practical Approach, Adaptive and learning systems for signal processing, communications, and control, Hoboken, NJ: Wiley-Interscience, 2004.

[2] S. Gustafsson, R. Martin and P. Vary, "Combined acoustic echo control and noise reudction for hands-free telephony," Signal Processing, vol. 64, no. 1, pp. 21-32, 1998.

[3] V. Turbin, A. Gilloire and P. Scalart, "Comparison of three postfiltering algorithms for residual acoustic echo reduction," in Proc. IEEE International Conf. on Acoustic, Speech, and Signal Processing, 1997.

[4] A. Stenger, L. Trautmann and R. Rabenstein, "Nonlinear acoustic echo cancellation with 2nd order adaptive Volterra filters," in Proc. IEEE International Conf. on Acoustics, Speech, and Signal Processing, 1999.

[5] G. Hinton, L. Deng, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath and B. Kingsbury, "Deep neural networks for acoustic modeling in speech recognition," IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82-97, 2012.

[6] X. Lu, Y. Tsao, S. Matsuda and C. Hori, "Speech enhancement based on deep denoising autoencoder," in Proc. Conf. of International Speech Communication Association, 2013.

[7] Y. Xu, J. Du, L. Dai and C. Lee, "An experimental study on speech enhancement based on deep neural networks," IEEE Signal Processing Letters, vol. 21, no. 1, pp. 65-68, 2014.

[8] Y. Wang, A. Narayanan and D. Wang, "On training targets for supervised speech separation," IEEE/ACM Trans. on Audio, Speech, and Language Processing, vol. 22, no. 12, pp. 1849-1858, 2014.

[9] F. Weninger, J. Hershey, J. Roux and B. Schuller, "Discriminatively trained recurrent neural networks for single-channel speech separation," in Global Conf. on Signal and Information Processing, 2014.

[10] C. Lee, J. Shin and N. Kim, "DNN-based residual echo suppression," in Proc. Conf. of International Speech Communication Association, 2015.

[11] M. Muller, J. Jansky, M. Bohac and Z. Koldovsky, "Linear acoustic echo cancellation using deep neural networks and convex reconstruction of incomplete transfer function," in IEEE International Workshop of Electronics, Control, Measurement, Signals and their Application to Mechatronics, 2017.

[12] H. Zhang and D. Wang, "Deep learning for acoustic echo cancellation in noisy and double-talk scenarios," in Proc. Conf. of International Speech Communication Association, 2018.

[13] G. Carbajal, R. Serizel, E. Vincent and E. Humbert, "Multiple-input neural network-based residual echo suppression," in IEEE International Conf. on Acoustic, Speech and Signal Processing, 2018.

[14] H. Zhang, K. Tan and D. Wang, "Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions," in Proc. Conf. International Speech Communication Association, 2019.

[15] A. Fazel, M. El-Khamy and J. Lee, "Deep multitask acoustic echo cancellation," in Proc. Conf. International Speech Communication Association, 2019.

[16] S. Pascual, A. Bonafonte and J. Serra, "Segan: Speech enhancement generative adversarial network," in arXiv preprint, 2017.

[17] D. Baby and S. Verhulst, "Sergan: Speech enhancement using relativistic generative adversarial networks with gradient penalty," in Proc. International Conf. on Acoustic, Speech and Signal Processing, 2019.

[18] M. Soni, N. Shah and H. Patil, "Time-frequency masking-based speech enhancement using generative adversarial network," in Proc. International Conf. on Acoustic, Speech and Signal Processing, 2018.

[19] S. Fu, C. Liao, Y. Tsao and S. Lin, "Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement," in arXiv preprint, 2019.

[20] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville and Y. Bengio, "Generative adversarial nets," in Conf. on Neural Information Processing Systems, 2014.

[21] A. Radford, L. Metz and S. Chintala, "Unsupervised representation learning with depp convolutional generative adversarial networks," in arXiv preprint, 2015.

[22] S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in arXiv preprint, 2015.

[23] D. Clevert, T. Unterthiner and S. Hochreiter, "Fast and accurate deep network learning by exponential linear units (elus)," in arXiv preprint, 2015.

[24] K. He, X. Zhang, S. Ren and J. Sun, "Deep residual learning for image recognition," in IEEE Conf. on Computer Vision and Pattern, 2016.

[25] D. Kingma and J. Ba, "Adam: A method for stochastic optimization," in arXiv preprint, 2014.

[26] F. Lamel, R. Kassel and S. Seneff, "Speech database development: Design and analysis of the acousticphonetic corpus," in Speech Input/Output Assessment and Speech Databases, 1989.

[27] S. Malik and G. Enzner, "State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation," IEEE Trans. on Audio, Speech, and Language Processing, vol. 20, no. 7, pp. 2065-2079, 2012.

[28] J. Allen and D. Berkley, "Image method for efficiently simulating small-room acoustics," The Jounal of Acoustic Society of America, vol. 65, no. 4, pp. 943-950, 1979.

[29] S. Nakamura, K. Hiyane, F. Asano, T. Nishiura and T.

Yamada, "Acoustical sound database in real environments for sound scene understanding and handsfree speech recognition," in Proc. International Conf. on Language Resources and Evaluation, 2000.

繼續閱讀