天天看点

引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流

作者:月亮湾探险家

引入非局部模块卷积神经网络的基频提取模型有何优势?

基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流行的研究课题。

目前的研究使用数据驱动的方法进行基频提取。其中应用深度神经网络及其变体,包括卷积神经网络和递归神经网络改善严重噪声条件下的基频提取。

然而,卷积神经网络提取基频的方法没有考虑到相邻帧与帧之间的关系,而且也没有捕获远程全局的帧与帧之间的关系。这些问题会直接导致基频提取的性能下降。

为了解决卷积运算问题,本文提出了使用带有非局部模块的卷积神经网络来进行基频提取。非局部模块的输入和输出是具有相同数量的任意确定维度的特征。

本文将非局部块插入卷积神经网络中,具有相同的输入输出维度,而不会破坏其初始行为(Wz初始为零)。一个非局部模块的内部结构如图1所示。

图2是一个用于基频提取的网络结构。网络的输入是时域音频信号的1024个音频样本点,本文使用多层卷积神经网络,其中一些卷积块与非局部模块相连。

本文将2个非局部模块插入到卷积层的最后三层。最后使用一层具有线性激活的全连接层将前一层所获得的特征分为537类,并得到每一帧音频的基频的后验概率。

实验数据集使用公开的基频语音数据库:格拉茨科技大学的基频跟踪数据库(PTDB-TUG),该数据库由2条方言句子(标记为sa)、450条语音紧凑的句子(标记为sx)和1890条语音多样化的句子(标记为si)组成。

表1所示为上述文本句子在PTDB-TUG数据集中与说话者之间的分布,其中:M表示男性;F表示女性。

PTDB-TUG中包含来自20位英语母语者的平行语料(10位女性说话者,10位男性说话者)。20位说话者都阅读了2条标记为sa的句子。

此外,每位说话者阅读了45条标记为sx的句子和189条标记为si的句子。音频总时长为9 h 36 min13 s,原始音频采样率设置为48000 Hz,本文将其降采样至16000 Hz,分别以80%、7%、13%进行训练、验证和测试。该语料库使用RAPT算法提取基频的真实值。

本文首先确定加入网络中最优的非局部模块的数量。表2所示为分别在训练集、验证集和测试集上具有不同数量的非局部模块的MAE。

其中,f函数为嵌入式高斯形式。可以发现:当使用2个非局部模块时已经给出最佳性能,在卷积神经网络中加入2个以上的非局部模块并不能带来更好的效果。

从实验结果可以看出:前几层的卷积神经网络已经可以学习一些局部特征,以便为后续其他网络层学习更好的特征。

从表3可以看出:使用嵌入式高斯模型性能最好,在测试集上其MAE只有4.8,模型的性能都有提升,这也说明了本文在基线模型中加入非局部模块的合理性。

本文使用嵌入式高斯形式来验证拼接相邻几帧的信息对模型性能的影响。表4所示为加入2个NLM后获取全局特征并且分别拼接5、7、9、15帧获取局部特征的实验结果。

可以看出:在测试集上拼接5帧的MAE最低,为4.7(本文后续的对比实验将使用该模型与基线模型对比),但是随着拼接帧数的增加,MAE反而开始上升,模型性能在下降。

这也验证了相邻几帧之间的信息对当前帧的基频值影响比较大,但随着时间变化,远距离音频帧之间的影响并不大。

为了验证本文在基频提取任务中的有效性,本文选择了3种基线模型:RAPT,DNN和CREPE,调用了PyThon pysptk库中的RAPT算法。

表5所示为本文所提出的模型与RAPT、DNN和CREPE模型的对比结果。

可以看出:由于CREPE模型是音乐数据集上的基频提取模型,本文将其最后一层全连接层进行修改(其他层保持不变)应用到语音数据集上,所得到的MAE为5.5。

但是相比于深度学习的CREPE模型,DNN模型并没有优势。而本文所提出的模型其MAE达到了最佳,只有4.7。

如表6所示,在测试集上,本文所提出的模型的GPE比传统模型RAPT降低了2.5个百分点。同时,本文模型在测试集上比基线模型CREPE的GPE降低了0.4个百分点,这也证明了加入非局部模块后估计基频帧错误率会下降。

不同模型的DR如表7所示,本文所提出的模型在测试集上的DR为93.4%,而CREPE的DR为92.8%,这也表明了加入非局部模块后网络的整体性能有一定的提升。相比之下,基于DNN的基频提取模型的性能较差,其DR只有91.7%。

本文提出一种改进的基频提取模型,该模型非局部模块能够通过计算所有帧之间的相似度来捕获时域中的全局信息。非局部模块具有相同的输入输出,因此可以与任何现有的网络结构同时使用。

然而,本文模型仍处于开发阶段,下一步将研究深度自注意力变化网络以及对基频提取有益的先验知识,进一步提升基频提取模型性能。

引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流
引入非局部模块卷积神经网络的基频提取模型有何优势? 基频提取是一项从音频信号中估计最低频率部分的任务,近年来一直是一个流

继续阅读