聲學研究：結合LSTM與ResNet的聲學回聲消除近年來，遠端辦公日益普及，遠端會議系統的使用者使用量也在不斷增加，使用者對

聲學研究：結合LSTM與ResNet的聲學回聲消除

近年來，遠端辦公日益普及，遠端會議系統的使用者使用量也在不斷增加，使用者對通話品質要求越來越高。

在實際應用中，網絡時延和通話環境等因素使得回聲現象比較嚴重，極大地降低了使用者體驗感。

通常使用自适應濾波器識别揚聲器和近端麥克風之間的聲學回聲路徑來實作聲學回聲消除，經典算法有最小均方誤差算法、歸一化最小均方算法等，該算法原理簡單且計算複雜度低，然而受到環境的影響，它們的性能達不到實驗室所設計的目标。

在本文中，提出長短時記憶—殘差神經網絡(LSTM-ResNet)來解決AEC問題，利用LSTM網絡和ResNet結構提取聲學回聲的時序特征和不同級别更加豐富的抽象特征。

根據文獻新型掩蔽的特點，對理想二值掩蔽(idealbinarymask,IBM)進行改造，構造改進的IBM作為訓練目标，以充分利用到近端語音、近端麥克風語音和聲學回聲之間的幅度譜相似性的特點，并利用深度可分離卷積以降低模型參數量。

聲學回聲系統模型如圖1所示。來自遠端的語音信号x(n)經過RIR後形成聲學回聲d(n),近端麥克風信号y(n)由近端語音信号s(n)、環境噪聲v(n)以及d(n)共同組成。近端麥克風信号y(n)表達式為y(n)=d(n)+s(n)+v(n)。

IBM在處理過程中容易引入噪聲進而損傷音質，本文根據文獻[9]中新型掩蔽的特點，引入y(n)與s(n)的譜歸一化互相關系數ρs(n)以及y(n)與d(n)的譜歸一化互相關系數ρd(n)，構造iIBM，充分利用s(n)、y(n)和d(n)之間幅度譜相似性的特點，使估計的值更為精确合理。

首先，将從x(n)和y(n)中提取到的特征輸入到2個雙向LSTM層，每層514個神經元，充分利用LSTM網絡提取語音的時序特征，經過一維卷積層之後輸入到殘差網絡結構提取語音的空間特征，其中卷積核大小為3，步長為1。

輸出層是一個全連接配接層，使用的激活函數為Sigmoid函數。使用Adam優化器和MSE損失函數對模型進行訓練。

本文所有模型均使用MicrosoftAECChallenges資料集進行訓練，該資料集包含一個真實資料集和一個合成資料集，本文使用到的是合成資料集中的近端語音信号、近端麥克風信号和遠端語音信号。每種類型分别取9000,500,500條作為訓練集、驗證集和測試集。

訓練的Epoch為75,學習率為10-3，學習率衰減為10-6。采用512點STFT，産生257個頻率視窗來提取語音資料的頻譜特征，其中，采樣率為16kHz，幀大小為20ms，幀移為10ms，使用漢甯窗。

在使用同一個模型的情況下，不同的訓練目标對模型效果具有較大影響。IRM所需時間最少，IBM和iIBM消除回聲能力較為接近，但明顯優于其他對比方法，相較于IBM。

iIBM的PESQ得分提升了0.01,ERLE均值提升了0.19,2個評價名額值均略有提升，訓練時間減少了9.43s。

接着對LSTM-ResNet模型的有效性進行驗證，使用不同的模型進行訓練，訓練目标為iIBM,所有參數均保持一緻。

相比于參考的BLSTM、TCN模型，本文所提出方法在PESQ均值上分别取得了0.27和0.35的提升；在ERLE均值上分别取得了0.14和0.35的提升。

但模型參數量最少的是BLSTM模型，原因在于所提出模型和TCN模型中卷積層較多。但總體上來說，本文模型消除回聲的效果要優于對比的模型。

為了提高模型精度并降低模型參數量，本文在模型中引入了深度可分離卷積，并将FLGCNN、DCCRN用于AEC，所有模型均使用相同的資料量和Epoch進行訓練，其中FLGCNN采用的是端到端的訓練方式。

考慮到目前AEC算法對非線性聲學回聲較難消除的問題，提出了一種基于LSTM-ResNet的AEC方法。

該方法利用雙向LSTM和ResNet提取語音的時序特征和不同級别的抽象特征，并充分利用近端麥克風、近端語音和聲學回聲之間的幅度譜相似性。

在IBM的基礎上構造iIBM作為模型的訓練目标，并且通過将深度可分離卷積對卷積層進行替換，較大程度降低了模型參數量。實驗證明相較于其他參考方法，本文所提出算法取得了更高的PESQ和ERLE得分。

繼續閱讀