天天看点

#深入理解# DNN+HMM 语音识别模型1. Tandem2. 令DNN取代GMM+HMM中的GMM

#透彻理解# GMM+HMM 语音识别模型过程

上一篇文章详细解析了 GMM+HMM语音识别模型,在这篇文章中,我们将重点介绍DNN+HMM语音识别模型

将DNN应用在语音识别有两种方式:

1. Tandem

Tandem的方法类似 word embedding,首先训练一个DNN,然后使用DNN对特征帧序列进行加工,使输入GMM+HMM的特征能够更好的表达语音信息的特征;在识别时可以只提取DNN的瓶颈层输出(bottleneck layer);DNN可以换成LSTM、CNN等网络,原理上是相同的。

2. 令DNN取代GMM+HMM中的GMM

  1. 训练一个GMM+HMM的语音识别模型,得到转移概率A,发射概率矩阵B、初始状态概率矩阵π,
  2. 根据上一步训练得到的GMM+HMM模型使用Viterbi算法得到每个特征帧被识别到每个状态的概率分布,将特征帧作为DNN的输入,将概率分布作为DNN要预测的标签,训练DNN网络(多分类问题,DNN输出数=状态数)
  3. 用训练完的DNN取代GMM+HMM中的GMM进行识别(用DNN记录发射概率B的信息),转移矩阵A、初始状态概率矩阵π仍然来自HMM

注意:因为DNN的学习过程是有监督学习,因此需要得到每个输入对应的标签,因此需要先训练一个GMM+HMM网络,以此得到每个特征帧对应被识别成不同状态的概率分布

继续阅读