語音識别(Automatic Speech Recognition,ASR)所要解決的問題是讓計算機能夠"聽懂"人類的語音,将語音轉化成文本。語音識别是實作智能的人機互動的前沿陣地,是完全機器翻譯,自然語言了解等的前提條件。語音識别的研究起源于上世紀的50年代,此後經過無數學者堅持不懈的努力,從最初的基于孤立詞的小詞彙量語音識别系統到目前的基于大詞彙量的連續語音識别識别系統,語音識别技術取得了顯著的進展。特别是近年來随着大資料時代的到來,以及深度神經網絡在語音識别中的應用,語音識别系統的性能獲得了顯著的提升。語音識别也逐漸走向實用化和産品化,越來越多的語音識别智能軟體和應用開始走入大家的日常生活,例如語音輸入法,智能語音助手,車載語音互動系統等等。

圖1. 語音識别的數學公式表示
圖2. 語音識别系統結構框圖
語音識别的目的是對給定的波形序列,可以得到相應的單詞或者字元序列。是以語音識别可以被看作是一個信道解碼或者模式分類問題。統計模組化是目前主流的語音識别方法。基于統計模組化架構,對于給定語音波形序列O,我們可以采用貝葉斯決策的最大後驗機率(Maximum A Posteriori,MAP)估計得到最優的輸出序列W*,公式表達如圖1所示。其中條件機率P(O|W) 表示模型生成觀察序列的機率,對應語音識别系統的聲學模型(Acoustic Model,AM)。似然值P(W)則表示序列W出現的一個先驗機率,稱之為語言模型(Language Model,LM)。如圖2是一個标注的語音識别系統的結構框圖,其主要由前端處理,聲學模型,語言模型,解碼器四個子產品組成。解碼的過程主要是利用所訓練的聲學模型和語言模型,搜尋得到最佳的輸出序列。
聲學模型的任務是計算P(O|W),即給模型産生語音波形的機率。聲學模型是語音識别系統的重要組成部分,它占據着語音識别大部分的計算開銷,決定着語音識别系統的性能。傳統的語音識别系統普遍采用的是基于GMM-HMM的聲學模型,其中GMM用于對語音聲學特征的分布進行模組化,HMM則用于對語音信号的時序性進行模組化。2006年深度學習興起以後,深度神經網絡(Deep Neural Networks,DNN)被應用于語音聲學模型。2009年,Hinton及其學生獎前饋全連接配接深度神經網絡應用于語音識别聲學模組化[1],在TIMIT資料庫上基于DNN-HMM的聲學模型相比于傳統的GMM-HMM聲學模型可以獲得顯著的性能提升。DNN相比于GMM的優勢在于:1)DNN對語音聲學特征的後驗機率進行模組化不需要對特征的分布進行去分布假設;2)GMM要求對輸入的特征進行去相關處理,而DNN可以采用各種形式的輸入特征;3)GMM隻能采用單幀語音作為輸入,而DNN則可以通過拼接相鄰幀的方式利用上下文的有效資訊。2011年,DengLi等提出基于CD-DNN-HMM[2]的聲學模型,在大詞彙量連續語音識别任務上取得成功,相比于傳統的GMM-HMM系統可以獲得超過20%的相對性能提升。基于DNN-HMM的語音聲學模型開始取代GMM-HMM成為主流的聲學模型。此後大量的研究人員投入到基于深度神經網絡的語音聲學模組化研究中,語音識别取得了突破性的進展。
基于深度神經網絡的語音識别聲學模組化在過去幾年取得了很大的進展,不同的網絡結構以及優化政策極大提升了聲學模型的性能。以下則選擇本次interspeech相關的兩個聲學模型的最新研究點進行介紹:1)Very deep Networks;2)End-to-end ASR systems。
長短時記憶單元(Long Short Memory Networks,LSTM)是目前在聲學模型中廣泛應用的一種循環神經網絡(Recurrent Neural Networks,RNN)結構。相比于普通的RNN,LSTM通過精心設計的門結構來控制資訊的存儲,輸入和輸出,同時可以一定程度上避免普通RNN的梯度消失問題,進而LSTM可以有效的對時序信号的長時相關性進行模組化。作為聲學模型的LSTM通常包含3-5個LSTM層,但是直接堆積更多的LSTM層建構更深的網絡往往不會帶來性能的提升,反而會由于degradation problem[3]使得模型的性能更差。
針對如何優化非常深的網絡,最近有兩種結構被提出來,稱之為Highway Networks[4] 和ResNet[3]。這兩種結構都通過在非線性變換的輸出額外添加一個線性成分的方式,使得網絡訓練過程梯度可以更好的傳遞,避免由于網絡太深導緻的梯度消失問題。不同之處在于Highway Networks通過“門”來控制輸出中的線性和非線性成分的比重,而ResNet則是更加直接的直接加上線性成分。實驗表明兩者都可以優化非常深層的網絡的訓練。Residual Networks在圖像分類任務上獲得了很大的成功。
關于Highway Networks 和ResNet一開始都是在圖像分類任務上進行驗證的,而且采用的卷積神經網絡(Convolutional Neural Networks,CNN)。但是由于語音信号時序模組化非常重要,是以最流行的模型還是LSTM。但是通常聲學模型使用的LSTM一般隻包含3-5個LSTM層。是以進一步的一些研究探索借鑒Highway Networks 和ResNet,優化LSTM的結構,分别提出了Redisual-LSTM[5],Highway-LSTM[6]和Recurrent Highway Networks (RHN) [7]用于語音聲學模組化。下面我們結合結合論文介紹相應的網絡結構以及實驗結果。
<b>Paper1. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition</b>
<b></b>
Residual-LSTM通過在普通的LSTM的輸出層之間添加一個skip connection,如上圖紅色框框中的公式表達。這樣可以将底層的輸出直接添加到高層,如果低層的輸出層和高層的輸出層節點數目相同,可以進一步采用和ResNet相同機關映射。實驗室在100小時AMI會議資料庫進行的驗證,實驗結果如下:
<b>Paper2. Highway-LSTM and Recurrent Highway Networks for Speech Recognition</b>
Highway-LSTM通過在相鄰的LSTM層的cell之間建立一個線性連接配接,通過一個線性變換将底層cell中的表達添加到高層cell中。同時線性變換是受一個gate控制,gate的值是單前層的輸入,單前層cell中表達,以及後一層cell中前一時刻的輸出的一個函數。進一步的該論文中提出另一種深層的網絡結構用于聲學模組化,稱之為為ecurrent Highway Networks (RHN)。RHN的隐層采用如上圖的Recurrent Highway Layer構成。
稱
該論文是在一個12500小時的google voice search 任務上進行驗證的。實驗首先對比了普通的LSTM,Residual-LSTM,Highway-LSTM在該任務上的性能。從上圖Exp1的實驗結果可以看出在可比的配置下,Highway-LSTM(HW-LSTM)相比于Redidual-LSTM可以獲得更好的性能。Exp2則對比了網絡大小(20M,30M)情況下,HW-LSTM性能和隐層數目的關系,從結果上看通過Highway可以成功訓練10層的網絡,而且相比于5層網絡可以獲得一定的性能提升,但是進一步增加網絡的隐層數目,也會出現性能的下降。
Exp3則對比了不同配置Highway-Recurrent Highway Networks(HW-RHW)再改任務上的性能。功過使用RHL層可以成功訓練非常深的網絡,最終深層的HW-LSTM和HW-RHW可以獲得差不多的性能,并且相比于基線LSTM都有一定的提升。
對比以上兩篇論文的實驗結果,我們發現在兩個不同的任務集上,關于Highway-LSTM和Residual-LSTM的性能對比結論剛好是相反。這和實驗的任務集相關,HW-LSTM通過gate來控制網絡中非線性變換和線性變換的成分。通常對于更加困難的任務更多非線性變換的模型往往具有更強的模組化能力。是以google的論文在1.25萬小時的任務上HW-LSTM相比于Residual-LSTM具有優勢。這點我們可以進一步通過觀察HW-LSTM的各個層的transform gate的值來分析。從上圖我們發現transform gate的值随着訓練的進行值越來越大,說明了網絡更趨向于選擇非線性變換成分。
目前大多數語音識别系統到采用NN-HMM的混合系統。需要訓練一個聲學模型,語言模型,然後在結合詞典進行解碼。最新的一個研究熱點是研究端到端的語音識别系統,希望可以去除HMM,直接從聲學特征輸入就可以得到識别的詞序列。其中具有代表性的是CTC模型(Connectionist Temporal Classification)和基于Attention的Encoder-decoder模型。
Encoder-Decoder最早是應用于機器翻譯領域[8]: 通過一個encoder對序列資訊進行編碼得到一個向量表達,然後作為decoder的輸入。Decoder則是一個預測模型,利用曆史輸出和encoder得到的資訊去預測輸出。但是Encoder-Decoder架構在翻譯很長的句子時候由于遺忘問題效果并不理想。一個改進的模型是引入attention機制。Attention機理是利用網絡中的一些表達從Encoder中尋找和單前預測輸出有關的一些輸入,關系越密切attention向量的值越大。這樣Decoder就可以獲得一個額外的對目前預測輸出有幫助的向量,進而可以避免長序列的遺忘問題。基于端到端的語音識别也可以看作一個sequence-to-sequence的翻譯問題,輸入的是聲學特征,得到的是文本序列。是以基于Attention的Encoder-decoder架構很快被應用于語音識别。但是該架構存在一個問題,encoder需要接受整個序列以後,decoder才能産生輸出,這對于識别的語音識别是不可接受的。基于這個問題,在interspeech2017上有研究提出了一種gaussian prediction based attention 來解決這個問題。具體的論文如下:
<b>Paper3. Gaussian Prediction based Attention for Online End-to-End Speech Recognition</b>
這篇論文的貢獻主要有兩點:
1)提出一種Gaussian prediction based attention解決通用的attention模型的延遲問題;
2)提出采用DCNN作為Encoder,相比于GRU可以獲得更好的性能
Gaussian prediction based attention的公式表達如上圖,其核心思想是假設attention的系數服從高斯分布,這在語音識别任務裡是合理的。因為對于語音識别任務,和輸出最相關的中心幀周邊幀對預測輸出都有貢獻,但是這種貢獻随着距離越遠越小。進而Gaussian prediction based attention中不像傳統的attention去計算每個時刻的attention系數,而是去預測一個Gaussian分布的均值和方差。進一步考慮到語音信号時序上單調性:下一時刻預測的atttention的中心幀應該比前一時刻更加靠後。基于此該論文采用公式9和10的相對預測方式。去預測一個正的偏移量而不是直接去預測高斯的均值。目前時刻高斯均值等于前一時刻的預測的均值加上一個正的偏移量得到。同時為保證明時性,采用如下的公式進行截斷處理:
實驗驗證是在3小時TIMIT資料庫,結果如下:
希望大家通過閱讀這篇文章可以對語音識别系統的聲學模型和最新的研究熱點有一定的了解。
[1] Mohamed A, Dahl G, Hinton G. Deep belief networks for phone recognition[C]//Nips workshop on deep learning for speech recognition and related applications. 2009, 1(9): 39.
[2] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on audio, speech, and language processing, 2012, 20(1): 30-42.
[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[4] Srivastava R K, Greff K, Schmidhuber J. Highway networks[J]. arXiv preprint arXiv:1505.00387, 2015.
[5] Kim J, El-Khamy M, Lee J. Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition[J]. arXiv preprint arXiv:1701.03360, 2017.
[6] Zhang Y, Chen G, Yu D, et al. Highway long short-term memory rnns for distant speech recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016: 5755-5759.
[7] Pundak G, Sainath T N. Highway-LSTM and Recurrent Highway Networks for Speech Recognition[J]. Proc. Interspeech 2017, 2017: 1303-1307.
[8] Cho K, Van Merriënboer B, Bahdanau D, et al. On the properties of neural machine translation: Encoder-decoder approaches[J]. arXiv preprint arXiv:1409.1259, 2014.
[9] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.
[10] Hou J, Zhang S, Dai L. Gaussian Prediction based Attention for Online End-to-End Speech Recognition[J]. Proc. Interspeech 2017, 2017: 3692-3696.