天天看点

声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对

作者:明朗逐史

声学研究:结合LSTM与ResNet的声学回声消除

近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对通话质量要求越来越高。 

在实际应用中,网络时延和通话环境等因素使得回声现象比较严重,极大地降低了用户体验感。 

通常使用自适应滤波器识别扬声器和近端麦克风之间的声学回声路径来实现声学回声消除,经典算法有最小均方误差算法、归一化最小均方算法等,该算法原理简单且计算复杂度低,然而受到环境的影响,它们的性能达不到实验室所设计的目标。

在本文中,提出长短时记忆—残差神经网络(LSTM-ResNet)来解决AEC问题,利用LSTM网络和ResNet结构提取声学回声的时序特征和不同级别更加丰富的抽象特征。

根据文献新型掩蔽的特点,对理想二值掩蔽(idealbinarymask,IBM)进行改造,构造改进的IBM作为训练目标,以充分利用到近端语音、近端麦克风语音和声学回声之间的幅度谱相似性的特点,并利用深度可分离卷积以降低模型参数量。

声学回声系统模型如图1所示。来自远端的语音信号x(n)经过RIR后形成声学回声d(n),近端麦克风信号y(n)由近端语音信号s(n)、环境噪声v(n)以及d(n)共同组成。近端麦克风信号y(n)表达式为y(n)=d(n)+s(n)+v(n)。

IBM在处理过程中容易引入噪声从而损伤音质,本文根据文献[9]中新型掩蔽的特点,引入y(n)与s(n)的谱归一化互相关系数ρs(n)以及y(n)与d(n)的谱归一化互相关系数ρd(n),构造iIBM,充分利用s(n)、y(n)和d(n)之间幅度谱相似性的特点,使估计的值更为精确合理。

首先,将从x(n)和y(n)中提取到的特征输入到2个双向LSTM层,每层514个神经元,充分利用LSTM网络提取语音的时序特征,经过一维卷积层之后输入到残差网络结构提取语音的空间特征,其中卷积核大小为3,步长为1。

输出层是一个全连接层,使用的激活函数为Sigmoid函数。使用Adam优化器和MSE损失函数对模型进行训练。

本文所有模型均使用MicrosoftAECChallenges数据集进行训练,该数据集包含一个真实数据集和一个合成数据集,本文使用到的是合成数据集中的近端语音信号、近端麦克风信号和远端语音信号。每种类型分别取9000,500,500条作为训练集、验证集和测试集。

训练的Epoch为75,学习率为10-3,学习率衰减为10-6。采用512点STFT,产生257个频率窗口来提取语音数据的频谱特征,其中,采样率为16kHz,帧大小为20ms,帧移为10ms,使用汉宁窗。

在使用同一个模型的情况下,不同的训练目标对模型效果具有较大影响。IRM所需时间最少,IBM和iIBM消除回声能力较为接近,但明显优于其他对比方法,相较于IBM。

iIBM的PESQ得分提升了0.01,ERLE均值提升了0.19,2个评价指标值均略有提升,训练时间减少了9.43s。

接着对LSTM-ResNet模型的有效性进行验证,使用不同的模型进行训练,训练目标为iIBM,所有参数均保持一致。

相比于参考的BLSTM、TCN模型,本文所提出方法在PESQ均值上分别取得了0.27和0.35的提升;在ERLE均值上分别取得了0.14和0.35的提升。

但模型参数量最少的是BLSTM模型,原因在于所提出模型和TCN模型中卷积层较多。但总体上来说,本文模型消除回声的效果要优于对比的模型。

为了提高模型精度并降低模型参数量,本文在模型中引入了深度可分离卷积,并将FLGCNN、DCCRN用于AEC,所有模型均使用相同的数据量和Epoch进行训练,其中FLGCNN采用的是端到端的训练方式。

考虑到目前AEC算法对非线性声学回声较难消除的问题,提出了一种基于LSTM-ResNet的AEC方法。

该方法利用双向LSTM和ResNet提取语音的时序特征和不同级别的抽象特征,并充分利用近端麦克风、近端语音和声学回声之间的幅度谱相似性。

在IBM的基础上构造iIBM作为模型的训练目标,并且通过将深度可分离卷积对卷积层进行替换,较大程度降低了模型参数量。实验证明相较于其他参考方法,本文所提出算法取得了更高的PESQ和ERLE得分。

声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对
声学研究:结合LSTM与ResNet的声学回声消除近年来,远程办公日益普及,远程会议系统的用户使用量也在不断增加,用户对

继续阅读