摘要
由于功率放大器或揚聲器的限制,即使在回聲路徑完全線性的情況下,麥克風捕獲的回聲信号與遠端信号也不是線性關系。線性回聲消除器無法成功地消除回聲的非線性分量。RES是在AES後對剩餘回聲進行抑制的一種技術。傳統的方法是根據相關信号的估計統計量,使用維納濾波或譜減法來計算RES增益。在本文中,我們提出了一種基于DNN的RES增益估計方法,該方法基于遠端和AES輸出信号在各頻率點(frequency bins)的增益估計。采用一種适合于建立高維向量間複雜非線性映射模型的DNN結構,作為從這些信号到最優RES增益的回歸函數。該方法可以在不使用顯式雙端會話檢測器(double-talk detectors)的情況下抑制殘餘分量。實驗結果表明,該方法在單語音時段的回音往返損耗增強(echo return loss enhancement, ERLE)和雙講時段的語音品質感覺評價(PESQ)評分方面都優于傳統方法。
關鍵字:聲學回聲抑制,殘餘回聲抑制,非線性回聲,深度神經網絡,最優增益回歸
1 引言
回聲消除(AEC)或回聲抑制(AES)是一種減少揚聲器和麥克風之間的聲耦合所産生的回聲的技術。雖然已經有很多方法成功地抑制了回聲,但在這些方法的輸出端仍然存在一定的殘餘回聲。AEC或AES造成該現象的原因之一是,即使回聲路徑是完全線性的,回聲信号也不是遠端數字信号的線性函數。功率放大器和擴音器,尤其是那些廉價和小型的,可能是這種非線性的來源。
為了克服這個問題,一些殘餘回聲抑制(RES)濾波器已被應用到AEC或AES的輸出以抑制殘餘回聲。[5]和[6]的作者提出了RES方法來估計信号-回聲比(SER),然後在頻域中應用維納濾波器或譜減法。在[7]中,将基于譜減法的子帶濾波與截斷的聲回聲路徑泰勒級數展開相結合來估計回聲的功率譜密度。在[8]中,基于遠端回聲信号與回聲信号的頻間相關性模組化,提出了一種基于殘差回聲幅度回歸模型的RES算法。
最近,提出了一種利用人工神經網絡(ANN)從遠端信号估計殘餘回聲的方法。ANN的輸入為給定頻率區中的遠端信号,該信号的功率以及可能導緻諧波失真的頻率分量之和,最終的頻譜增益為維納濾波增益。但這些方法沒有考慮殘差回聲與遠端信号在各頻率區中的非線性特性。
在本文中,我們提出了一種利用DNNs的殘餘回聲抑制方法,該方法根據AES的遠端和各頻率區的輸出信号估計最優RES增益。DNN結構可以學習高維向量之間的複雜映射,已成功應用于自動語音識别和語音增強領域。我們期望這些結構能夠适應,從這些信号到基于多條件資料的DNN訓練的,最優RES增益的非線性回歸函數模組化,即使在訓練中使用的室内沖激響應(RIRs)與測試中的RIRs不比對。在比對和不比對條件下,針對不同的RIRs、SER、剪切類型和非線性程度,我們采用兩種客觀名額來評估揚聲器的整體性能。這些度量标準是單語音周期的ERLE和雙講音周期的ITU-T建議P.862 PESQ。實驗結果表明,與傳統的基于ANN的殘餘回聲估計和增益函數的維納濾波算法相比,該方法提高了語音品質,抑制了回聲。
2 帶有非線性RES濾波器的回聲抑制系統
AES提供了一個有吸引力的替代AEC技術,低複雜度系統中回聲抑制的遠端通信。

圖1 具有非線性RES後濾波器的AES系統示意圖
圖1描述了一個單通道AES系統。時間名額
處的遠端信号
是由源信号在發射室内通過聲脈沖響應産生的。設
為接收室内包含近端語音
的輸入信号,
為第
幀第
個頻率區y(t)的短時傅裡葉變換
系數。通過對每個頻率區進行維納濾波或譜減,得到抑制回聲的譜增益函數
。然而,由于線性回聲模組化的限制,回聲成分可能仍然保留在AES的輸出中,包括大量的非線性回聲,降低近端語音的品質。為了提高AES的輸出性能,可以對剩餘信号進行附加的非線性RES濾波。使用RES增益
,最後在頻域估計語音,
計算如下所示:
當功率放大器和揚聲器引入嚴重的非線性時, 根據殘餘回聲的非線性特性計算
是極其重要的。
3****使用DNN的RES
各種各樣的RES方法被發展來有效地抑制殘餘回聲。然而,由于構造高度複雜的函數的困難,這些可能不能準确地描述殘餘回聲信号的非線性特性。近年來,在語音識别和增強領域,DNN結構被用作尋找複雜映射或函數的強大工具,表現出比其他傳統方法更好的性能。其主要原因可能是利用疊加受限玻爾茲曼機(RBMs)和貪婪的分層無監督學習初始化DNN參數在DNN方面取得了突破。在無監督的預訓練階段結束後,采用有監督的學習算法,利用反向傳播和随機梯度下降法對DNN的權值進行微調。關于預訓練和微調過程的詳細程式在[12,13]中描述。[9]中,ANN是利用從遠端信号估計殘留回聲, 但由于人工神經網絡的輸入特征是根據諧波失真的知識構造的,而最終的增益函數是維納濾波器增益,是以該方法的結構不夠靈活。
本文提出了一種基于DNN的最優增益回歸算法,利用DNN結構成功地表示了RES過程中最優增益的複雜非線性回歸函數。定義增益
為:
其中
和
是幹淨近端語音和AES輸出信号的STFT系數,
是為了減少計算量。
輸入端采用遠端回聲譜和殘差回聲譜。殘餘回聲與RES增益之間的關系可能比輸入傳聲器信号與增益之間的關系更依賴于回聲路徑。是以,DNN可以通過多條件訓練來識别殘差回聲、遠端信号和RES增益之間的非線性關系,盡管這一過程中的DB是通過使用少量回聲路徑得到的。
圖2展示了用于該方法的DNN系統。
圖2 提出的RES的DNN結構
該結構由一個高斯伯努利RBM和兩個伯努利-伯努利RBM組成。DNN中各隐含層節點和輸出層節點采用sigmoid函數模組化。該模型的輸入端為短時傅立葉變換域内的殘差回聲和以幅度譜表示的遠端信号對。在取N點的STFT時,考慮T個連續幀的殘差回聲和遠端信号的輸入特征向量維數為
,而DNN的輸出為
維的RES增益向量。這些标準化後,均值和機關方差都為零。由于相位資訊對人的聽覺系統不是至關重要的,是以估計的語音相位與AES輸出的相位保持一緻。
在DNN訓練中,我們首先嘗試學習殘差回聲和遠端信号光譜的深度生成模型,作為訓練前的一個階段。利用對比散度(CD),以無監督貪婪的方式逐層訓練RBMs。在此過程中更新每個RBM的參數。然後在微調階段,利用RES估計增益與最優增益之間的最小均方誤差(MMSE)函數的反向傳播算法對DNN進行訓練。利用AES輸出和近端語音信号,通過式(2)計算出RES的最優增益
。
其中M和K分别為小批量大小和總頻率點數。然後,對權值和偏差的估計值進行疊代更新。一些傳統的方法是基于每個頻率點之間的獨立性假設或隻有幾個相鄰區的依賴性。相比之下,建議的工作可以考慮從AES輸出中提取的最優RES增益和特征,與遠端信号在整個頻率範圍内的非線性映射。此外,由于訓練信号中包含近端語音和回聲信号,是以該方法不需要任何雙講音檢測器。是以,我們認為,與其他傳統方法相比,該方法可以提高回聲估計。
4 實驗結果
為了評估提出的基于DNN的RES的性能,我們在不同的條件下進行了幾次仿真。從TIMIT資料庫中,我們為每個RIR建立了450個(4036秒)的麥克風信号檔案,從揚聲器的位置到如圖3所示的麥克風,以建構殘餘回聲DB。這些檔案以16kHz采樣。
圖3 1個麥克風和7個揚聲器在4m4m3m的模拟接收房間的位置,
用于建構回聲DB
為了模拟麥克風捕捉到的回聲信号,依次經過功率放大器、揚聲器和聲波傳輸,我們對遠端信号進行三種處理:裁剪、應用非線性揚聲器仿真模型和與RIRs卷積。人工剪裁是由
分别為硬裁剪和軟裁剪的輸出,
為輸出信号的最大值。對于軟剪,将
值設為2。為模拟非線性揚聲器特性,采用無記憶sigmoidal函數。
參數
為sigmoid函數增益,設
。sigmoid函數斜率值
取為:如果
,則取
,否則取
。接收室設計為
的小型辦公空間。采用圖像方法[17],生成圖3所示接收室7個揚聲器位置到麥克風的RIRs,混響時間為
。RIRs的長度設定為512。麥克風測得的回聲電平比近端語音平均低
。在性能評價方面,采用ERLE和PESQ作為客觀測度。ERLE度量被定義為:
首先,我們将傳統的AES應用于整個資料集,對[4]中的回聲進行了輕微的修改,消除了第二通道回聲估計,使其成為單通道聲回聲。AES的參數設定為[4]中所示的值。雖然在[4]中提出的AES被證明有效地減少了線性回聲,由于嚴重的非線性失真,測試資料的平均ERLE約為
為了與傳統的RES技術進行比較,我們利用光譜特征實作了基于ANN的RES。采用均勻的128點STFT分析-合成濾波器組,重疊率為75%。RES的離線估計器是一個具有兩個log-sigmoid隐藏節點的網絡。遠端信号的幅度譜和所有子頻帶的平均值直到目前頻帶的一半被用作輸入。将
、
位置的RIRs應用到圖3中
位置的30個檔案(267s)上進行訓練。參數設定如下:對于雙話檢測,我們在該方法中應用了人工标記資訊。我們也嘗試過訓練更大的DB或采取256點STFT,但都不能帶來性能的改善。
為了訓練所提出的技術,在
位置建立的總共1200個檔案(10774s)用于訓練DNN。幀長設定為256個樣本,重疊度50%。對每一幀應用一個256點的STFT。每個隐藏層和輸出層分别有2048和129個節點。最後的輸入向量由目前幀和前兩個幀組成,是以成為774維的向量。RBM預訓練每層epoch為20個。訓練前學習率為0.0005。在微調中,前10個epoch的學習率被設定為0.1,然後在每個epoch後降低10%。總疊代次數為50,小批量大小M設定為256。對于每個位置的測試,我們分别為單對話和雙對話測試使用兩組50個檔案(445s)。
接近結尾的語音也是從TIMIT資料庫中選擇的。
表1顯示了單話時段的ERLEs和雙話時段的PESQ評分的總體結果,其中測試資料是在輸入信号最大音量的80%下,采用硬剪切法在揚聲器的所有7個位置獲得的。從整體結果來看,基于DNN的方法在比對和不比對條件下都比傳統的RES有更好的性能。
特别是,從PESQ評分的比較可以看出,本文提出的RES對近端語音的儲存效果要好得多。這些結果是在少數的RIR情況下通過訓練得到的,這可以支援我們的假設,即從遠端信号和殘餘回聲到RES增益的映射不受聲環境的顯著影響。
為了研究擴音器的信号-回聲比、剪切類型和非線性量等其他因素對RES算法的影響,我們在
位置上另外測試了對應于其他不比對條件的幾種情況。在這次測試中,我們使用了與上次測試相同的模型,這些模型在
位置用DB進行訓練,每種方法都80%的硬剪切。表2比較了建議的RES和正常RES的性能。
的SER意味着近端語音回聲比水準平均為
分别以輸入信号最大振幅的
表示硬剪切和軟剪切。将我們方法的輸出與未處理的信号進行比較,發現PESQ得分至少提高了0.3個點。在4種情況下,該方法均優于正常RES,且不受各種不比對因素的影響。圖4中給出了一個ERLE随時間變化的例子,并給出了相應的未處理回聲波形。
該算法對殘餘回聲分量的衰減比傳統的RES更有效。
5 結論
在本文中,我們提出了一種最優增益回歸方法來抑制短時傅立葉變換域内的非線性殘餘回聲。結果表明,基于DNN的回歸可以代表整個頻率區中最優增益、殘餘回聲和遠端信号之間的複雜映射。此外,該方法可以在不使用顯式雙端會話檢測器的情況下抑制殘餘分量。在單話情況下的ERLE和雙話情況下的PESQ評分方面,提出的RES優于傳統的RES。