#深入理解# DNN+HMM 语音识别模型1. Tandem2. 令DNN取代GMM+HMM中的GMM

2023-06-11 03:20:22

#透彻理解# GMM+HMM 语音识别模型过程

上一篇文章详细解析了 GMM+HMM语音识别模型，在这篇文章中，我们将重点介绍DNN+HMM语音识别模型

将DNN应用在语音识别有两种方式：

1. Tandem

Tandem的方法类似 word embedding，首先训练一个DNN，然后使用DNN对特征帧序列进行加工，使输入GMM+HMM的特征能够更好的表达语音信息的特征；在识别时可以只提取DNN的瓶颈层输出（bottleneck layer）；DNN可以换成LSTM、CNN等网络，原理上是相同的。

2. 令DNN取代GMM+HMM中的GMM

训练一个GMM+HMM的语音识别模型，得到转移概率A，发射概率矩阵B、初始状态概率矩阵π，
根据上一步训练得到的GMM+HMM模型使用Viterbi算法得到每个特征帧被识别到每个状态的概率分布，将特征帧作为DNN的输入，将概率分布作为DNN要预测的标签，训练DNN网络（多分类问题，DNN输出数=状态数）
用训练完的DNN取代GMM+HMM中的GMM进行识别（用DNN记录发射概率B的信息）,转移矩阵A、初始状态概率矩阵π仍然来自HMM

注意：因为DNN的学习过程是有监督学习，因此需要得到每个输入对应的标签，因此需要先训练一个GMM+HMM网络，以此得到每个特征帧对应被识别成不同状态的概率分布

机器学习 NLP 深度学习 HMM dnn 语音识别 GMM 马尔可夫

上一篇: 语音识别基本原理介绍------dnn-hmm续

下一篇: 语音识别系统原理介绍-----dnn-hmm

继续阅读