天天看点

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

论文:

          EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING

摘要

文本提出了Eesen框架,该框架极大地简化了构建最优ASR系统的流程。声学建模包括使用RNN学习预测上下文无关目标(音素或字符),为了消除预先生成的帧标签的需求,本文采用了CTC目标函数来推断语音和标签序列之前的对齐方式。Eesen一个显著特征是基于加权有限状态转换机(WFST)解码方式,该方法可将词典和语言模型有效地合并到CTC中。实验表明,与标准的混合DNN系统相比,Eesen可以达到可比的误码率(WER),同时可以显著加快解码速度。

引言

传统上,自动语音识别(ASR)利用隐马尔可夫模型/高斯混合模型(HMM / GMM)范例进行声学建模。 HMM用于归一化时间变异性,而GMM用于计算HMM状态的发射概率。近年来,通过引入深层神经网络(DNN)作为声学模型,ASR的性能得到了显着提高。在各种ASR任务上,与GMM模型相比,DNN模型显示出显着的进步。尽管取得了这些进步,但建立最先进的ASR系统仍然是一项复杂且需要大量专业知识的任务。首先,声学建模通常需要各种资源,例如词典和语音问题。其次,在混合方法中,DNN的训练仍然依赖于GMM模型来获取(初始)帧级标签。建立GMM模型通常会经历多个阶段(例如CI phone,CD状态等),并且每个阶段都涉及不同的特征处理技术(例如LDA,fMLLR等)。第三,ASR系统的开发高度依赖于ASR专家来确定多个超参数的最佳配置,例如,GMM模型中的senone和高斯数。列举了CTC的出现,但解码还是个问题,本文提出Eesen模型来解决这个问题,使用RNN作为声学模型,使用LSTM作为模型组成块,使用CTC作为目标函数,Eesen将声音建模简化为通过语音和上下文无关(CI)标签序列对学习单个RNN。 Eesen的一个显着特征是基于加权有限状态换能器(WFST)的通用解码方法。用这种方法,将各个组成部分(CTC标签,词典和语言模型)编码为WFST(TLG),然后组成一个全面的搜索图。 WFST表示提供了一种方便的方式来处理CTC空白标签,并在解码期间启用波束搜索。我们使用《华尔街日报》(WSJ)基准进行的实验表明,与现有的端到端ASR管道相比,Eesen的性能更高[6,8]。 Eesen的WER与强大的HMM / DNN混合基准相当。而且,CI建模目标的应用允许Eesen加快解码速度并减少解码内存使用量。

模型及解码方式

双向循环神经网络+CTC

先前的工作介绍了多种方法[1、2、3]来解码受CTC训练的模型。但是,这些方法要么无法集成单词级语言模型,要么无法在受限条件下实现集成(例如,[1]中的nbest列表记录)。在这项工作中,我们提出了一种基于WFST的通用解码方法。 WFST是一个有限状态接受器(FSA),其中每个转换都有一个输入符号,一个输出符号和一个权重。本文的解码方法将CTC标签,词典和语言模型表示为单独的WFST。使用高度优化的FST库,例如OpenFST ,我们可以将WFST有效地融合到单个搜索图中。各个WFST的构建描述如下。尽管以英语为例进行了说明,但其他语言也使用相同的过程。

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

Grammar,语法WFST在语言/域中编码允许的单词序列。图2所示的WFST表示一种玩具语言模型,该模型允许两个句子“你好”和“你好吗”。 WFST符号是单词,而弧线权重是语言模型的概率。通过这种WFST表示,CTC解码原则上可以利用可以转换为WFST的任何语言模型。遵循文献[4]中的约定,语言模型WFST表示为G

Lexicon,词典WFST对从词典单元序列到单词的映射进行编码。根据我们的RNN建模的标签,有两种情况需要考虑。如果标签是音素,则词典是我们通常在混合方法中使用的标准词典。当标签是字符时,词典仅包含单词的拼写。两种情况之间的主要区别在于,拼写词典可以轻松扩展为包括词汇量(OOV)单词。相反,音素词典的扩展并不是那么简单。它依赖于一些字素到音素的规则/模型,并且可能会出现错误。词汇表WFST表示为L。图3和图4说明了这两种构建L的情况。

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

Token 第三个WFST组件将一系列帧级CTC标签映射到单个词典单元(音素或字符)。对于词典单元,其令牌WFST被设计为在帧级别包含其所有可能的标签序列。因此,该WFST允许空白标签occurrence的出现,以及任何非空白标签的重复。比如,RNN模型可能会产生3中可能的标签序列,"AAAAA","_ _ A A _","_ A A A_".这个令牌WFST会将这三个都映射到A

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

搜索图 编译了三个独立的WFST之后,我们将它们组合成一个全面的搜索图。首先组成词典和语法WFST。对它们的组成执行两个特殊的WFST操作,即确定和最小化,以压缩搜索空间,从而加快解码速度。然后,将所得的WFST LG与令牌WFST组成,该令牌最终生成搜索图。总体而言,FST运营的目标是:

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

实验

基于音素建立的系统

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

基于字符的系统 

EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

参考文献

  1. Alex Graves and Navdeep Jaitly, “Towards end-to-end speech recognition with recurrent neural networks,” in Proceedings of the 31st International Conference on Machine Learning (ICML-14), 2014, pp. 1764–1772.
  2. Awni Y Hannun, Andrew L Maas, Daniel Jurafsky, and Andrew Y Ng, “First-pass large vocabulary continuous speech recognition using bi-directional recurrent DNNs,” arXiv preprint arXiv:1408.2873, 2014.
  3. Andrew L Maas, Ziang Xie, Dan Jurafsky, and An-drew Y Ng, “Lexicon-free conversational speech recognition with neural networks,” in Proceedings of the 2015
  4. Daniel Povey, Arnab Ghoshal, Gilles Boulianne, Lukᡠs Burget, Ondˇ rej Glembek, Nagendra Goel, Mirko Hannemann, Petr Motl´ ıˇ cek, Y anmin Qian, Petr Schwarz, Jan Silovsk´ y, Georg Stemmer, and Karel V esel´ y, “The Kaldispeech recognition toolkit,” in Automatic Speech Recognition and Understanding (ASRU), 2011 IEEE Workshop on. IEEE, 2011, pp. 1–4.

继续阅读