EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

论文：

EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING

摘要

文本提出了Eesen框架，该框架极大地简化了构建最优ASR系统的流程。声学建模包括使用RNN学习预测上下文无关目标(音素或字符),为了消除预先生成的帧标签的需求，本文采用了CTC目标函数来推断语音和标签序列之前的对齐方式。Eesen一个显著特征是基于加权有限状态转换机(WFST)解码方式，该方法可将词典和语言模型有效地合并到CTC中。实验表明，与标准的混合DNN系统相比，Eesen可以达到可比的误码率(WER)，同时可以显著加快解码速度。

引言

传统上，自动语音识别（ASR）利用隐马尔可夫模型/高斯混合模型（HMM / GMM）范例进行声学建模。 HMM用于归一化时间变异性，而GMM用于计算HMM状态的发射概率。近年来，通过引入深层神经网络（DNN）作为声学模型，ASR的性能得到了显着提高。在各种ASR任务上，与GMM模型相比，DNN模型显示出显着的进步。尽管取得了这些进步，但建立最先进的ASR系统仍然是一项复杂且需要大量专业知识的任务。首先，声学建模通常需要各种资源，例如词典和语音问题。其次，在混合方法中，DNN的训练仍然依赖于GMM模型来获取（初始）帧级标签。建立GMM模型通常会经历多个阶段（例如CI phone，CD状态等），并且每个阶段都涉及不同的特征处理技术（例如LDA，fMLLR等）。第三，ASR系统的开发高度依赖于ASR专家来确定多个超参数的最佳配置，例如，GMM模型中的senone和高斯数。列举了CTC的出现，但解码还是个问题，本文提出Eesen模型来解决这个问题，使用RNN作为声学模型，使用LSTM作为模型组成块，使用CTC作为目标函数，Eesen将声音建模简化为通过语音和上下文无关（CI）标签序列对学习单个RNN。 Eesen的一个显着特征是基于加权有限状态换能器（WFST）的通用解码方法。用这种方法，将各个组成部分（CTC标签，词典和语言模型）编码为WFST（TLG），然后组成一个全面的搜索图。 WFST表示提供了一种方便的方式来处理CTC空白标签，并在解码期间启用波束搜索。我们使用《华尔街日报》（WSJ）基准进行的实验表明，与现有的端到端ASR管道相比，Eesen的性能更高[6，8]。 Eesen的WER与强大的HMM / DNN混合基准相当。而且，CI建模目标的应用允许Eesen加快解码速度并减少解码内存使用量。

模型及解码方式

双向循环神经网络+CTC

先前的工作介绍了多种方法[1、2、3]来解码受CTC训练的模型。但是，这些方法要么无法集成单词级语言模型，要么无法在受限条件下实现集成（例如，[1]中的nbest列表记录）。在这项工作中，我们提出了一种基于WFST的通用解码方法。 WFST是一个有限状态接受器（FSA），其中每个转换都有一个输入符号，一个输出符号和一个权重。本文的解码方法将CTC标签，词典和语言模型表示为单独的WFST。使用高度优化的FST库，例如OpenFST ，我们可以将WFST有效地融合到单个搜索图中。各个WFST的构建描述如下。尽管以英语为例进行了说明，但其他语言也使用相同的过程。