天天看點

大牛講堂|語音專題第三講,聲學模型

雷鋒網(公衆号:雷鋒網)按:本文作者牛建偉,地平線語音算法工程師。碩士畢業于西北工業大學,曾任百度語音技術部資深工程師。主要工作方向是語音識别中聲學模型的算法開發和優化,負責深度學習技術在聲學模型上的應用和産品優化。參與了百度最早的深度學習系統研發,負責優化語音搜尋、語音輸入法等産品;後負責百度嵌入式語音開發,其負責的離線語音識别性能超越競品。現任地平線機器人語音識别算法工程師,深度參與地平線“安徒生”智能家居平台的研發。

聲學模型

語音技術在近年來開始改變我們的生活和工作方式。對于某些嵌入式裝置來說,語音成為了人機互動的主要方式。出現這種趨勢的原因,首先是計算能力的不斷提升,通用gpu等高計算能力裝置的發展,使得訓練更複雜、更強大的聲學模型(acoustic model, am)變得可能,高性能的嵌入式處理器的出現,使語音識别的終端應用變得可能。

大牛講堂|語音專題第三講,聲學模型

聲學模型是人工智能領域的幾大基本模型之一,基于深度學習的聲學模型發展對于人工智能的拓展和互動方式的延伸都有着十分重要的意義。本期的大牛講堂,我們邀請到地平線的語音算法工程師牛建偉為大家重磅科普何為聲學模型。

自動語音識别

自動語音識别(automatic speech recognition, asr)作為一個研究領域已經發展了五十多年。這項技術的目标是将語音識别作為可以使得人與人、人與機器更順暢交流的橋梁。然而,語音識别技術在過去并沒有真正成為一種重要的人機交流形式,一部分原因是源于當時技術的落後,語音技術在大多數實際使用者使用場景下還不大可用;另一部分原因是很多情況下使用鍵盤、滑鼠這樣的形式交流比語音更有效、更準确,限制更小。

語音技術在近年來開始改變我們的生活和工作方式。對于某些嵌入式裝置來說,語音成為了人機互動的主要方式。出現這種趨勢的原因:

首先是計算能力的不斷提升,通用gpu等高計算能力裝置的發展,使得訓練更複雜、更強大的聲學模型(acoustic model, am)變得可能,高性能的嵌入式處理器的出現,使得語音識别的終端應用變得可能;

其次,借助近乎無處不在的網際網路和不斷發展的雲計算,我們可以得到海量的語音資料資源,真實場景的資料使得語音識别系統變得更加魯棒;

最後,移動裝置、可穿戴裝置、智能家居裝置、車載資訊娛樂系統正變得越來越流行,在這些裝置上,語音互動變成了一個無法避免的互動方式。

語音識别基本組成

語音識别系統主要有四部分組成:信号處理和特征提取、聲學模型、語言模型(language model, lm)和解碼器(decoder)。

大牛講堂|語音專題第三講,聲學模型

信号處理和特征提取部分以音頻信号為輸入,通過消除噪音、信道失真等對語音進行增強,将語音信号從時域轉化到頻域,并為後面的聲學模型提取合适的特征。聲學模型将聲學和發音學的知識進行整合,以特征提取子產品提取的特征為輸入,生成聲學模型得分。

語言模型估計通過重訓練語料學習詞之間的互相機率,來估計假設詞序列的可能性,也即語言模型得分。如果了解領域或者任務相關的先驗知識,語言模型得分通常可以估計得更準确。解碼器對給定的特征向量序列和若幹假設詞序列計算聲學模型得分和語言模型得分,将總體輸出分數最高的詞序列作為識别結果。

關于聲學模型,主要有兩個問題,分别是特征向量序列的可變長和音頻信号的豐富變化性。可變長特征向量序列問題在學術上通常有動态時間規劃(dynamic time warping, dtw)和隐馬爾科夫模型(hidden markov model, hmm)方法來解決。

而音頻信号的豐富變化性是由說話人的各種複雜特性或者說話風格與語速、環境噪聲、信道幹擾、方言差異等因素引起的。聲學模型需要足夠的魯棒性來處理以上的情況。

在過去,主流的語音識别系統通常使用梅爾倒譜系數(mel-frequency cepstral coefficient, mfcc)或者線性感覺預測(perceptual linear prediction, plp)作為特征,使用混合高斯模型-隐馬爾科夫模型(gmm-hmm)作為聲學模型。在近些年,區分性模型,比如深度神經網絡(deep neural network, dnn)在對聲學特征模組化上表現出更好的效果。基于深度神經網絡的聲學模型,比如上下文相關的深度神經網絡-隐馬爾科夫模型(cd-dnn-hmm)在語音識别領域已經大幅度超越了過去的gmm-hmm模型。

我們首先介紹傳統的gmm-hmm聲學模型,然後介紹基于深度神經網絡的聲學模型。

傳統聲學模型(gmm-hmm)

hmm模型對時序資訊進行模組化,在給定hmm的一個狀态後,gmm對屬于該狀态的語音特征向量的機率分布進行模組化。

1.混合高斯模型

如果一個連續随機變量服從混合高斯分布,則它的機率密度函數為:

大牛講堂|語音專題第三講,聲學模型

混合高斯模型分布最明顯的性質是它的多模态,這使得混合高斯模型可以描述很多顯示出多模态性質的屋裡資料,比如語音資料,而單高斯分布則不合适。資料中的多模态性質可能來自多種潛在因素,每一個因素決定分布中特定的混合成分。如果因素被識别出來,那麼混合分布就可以被分解成有多個因素獨立分布的集合。

那麼将上面公式推廣到多變量的多元混合高斯分布,就是語音識别上使用的混合高斯模型,其聯合機率密度函數的形式如下:

大牛講堂|語音專題第三講,聲學模型

在得到混合高斯模型的形式後,需要估計混合高斯模型的一系列參數變量:

大牛講堂|語音專題第三講,聲學模型

,我們主要采用最大期望值算法(expectation maximization, em)進行參數估計,公式如下:

大牛講堂|語音專題第三講,聲學模型

其中,j是目前疊代輪數,

大牛講堂|語音專題第三講,聲學模型

為t時刻的特征向量。gmm參數通過em算法進行估計,可以使其在訓練資料上生成語音觀察特征的機率最大化。此外,gmm模型隻要混合的高斯分布數目足夠多,gmm可以拟合任意精度的機率分布。

2.隐馬爾可夫模型

為了描述語音資料,在馬爾可夫鍊的基礎上進行了擴充,用一個觀測的機率分布與馬爾可夫鍊上的每個狀态進行對應,這樣引入雙重随機性,使得馬爾可夫鍊不能被直接觀察,故稱為隐馬爾可夫模型。隐馬爾可夫模型能夠描述語音信号中不平穩但有規律可學習的空間變量。具體的來說,隐馬爾可夫模型具有順序排列的馬爾可夫狀态,使得模型能夠分段的處理短時平穩的語音特征,并以此來逼近全局非平穩的語音特征序列。

隐馬爾可夫模型主要有三部分組成。對于狀态序列

大牛講堂|語音專題第三講,聲學模型

(1)轉移機率矩陣

大牛講堂|語音專題第三講,聲學模型

,描述馬爾可夫鍊狀态間的跳轉機率:

大牛講堂|語音專題第三講,聲學模型

(2)馬爾可夫鍊的初始機率

大牛講堂|語音專題第三講,聲學模型

,其中

大牛講堂|語音專題第三講,聲學模型

(3)每個狀态的觀察機率分布

大牛講堂|語音專題第三講,聲學模型

,按照上一節的介紹,我們會采用gmm模型來描述狀态的觀察機率分布。在這種情況下,公式可以表述為:

大牛講堂|語音專題第三講,聲學模型

隐馬爾可夫模型的參數通過baum-welch算法(在hmm上em算法的推廣)進行估計。

大牛講堂|語音專題第三講,聲學模型

cd-dnn-hmm

雖然gmm-hmm在以往取得了很多成功,但是随着深度學習的發展,dnn模型展現出了明顯超越gmm模型的性能,替代了gmm進行hmm狀态模組化。不同于gmm模型,dnn模型為了獲得更好的性能提升,引入了上下文資訊(也即前後特征幀資訊),是以被稱為cd-dnn-hmm(context-dependent dnn-hmm)模型。在很多測試集上cd-dnn-hmm模型都大幅度超越了gmm-hmm模型。

大牛講堂|語音專題第三講,聲學模型

首先簡單介紹一下dnn模型,dnn模型是有一個有很多隐層的多層感覺機,下圖就是具有5層的dnn,模型結構上包括輸入層、隐層和輸出層。對于第

大牛講堂|語音專題第三講,聲學模型

層,有公式:

大牛講堂|語音專題第三講,聲學模型

其中

大牛講堂|語音專題第三講,聲學模型

分别表示,l層的輸出向量,權重矩陣,輸入向量以及偏差向量(bias);

大牛講堂|語音專題第三講,聲學模型

一般稱為激活函數,常用的激活函數有sigmoid函數

大牛講堂|語音專題第三講,聲學模型

或者整流線性單元(rectifier linear unit)

大牛講堂|語音專題第三講,聲學模型

。在語音識别上應用的dnn模型一般采用softmax将模型輸出向量進行歸一化,假設模型有l層,在特征向量為 

大牛講堂|語音專題第三講,聲學模型

,輸出分類數為

大牛講堂|語音專題第三講,聲學模型

 的情況下,則第

大牛講堂|語音專題第三講,聲學模型

 類的輸出機率為:

大牛講堂|語音專題第三講,聲學模型
大牛講堂|語音專題第三講,聲學模型

相比于gmm模型,dnn模型具有一些明顯的優勢:

首先,dnn是一種判别模型,自身便帶有區分性,可以更好區分标注類别; 其次,dnn在大資料上有非常優異的表現,伴随着資料量的不斷增加,gmm模型在2000小時左右便會出現性能的飽和,而dnn模型在資料量增加到1萬小時以上時還能有性能的提升; 另外,dnn模型有更強的對環境噪聲的魯棒性,通過加噪訓練等方式,dnn模型在複雜環境下的識别性能甚至可以超過使用語音增強算法處理的gmm模型。

除此之外,dnn還有一些有趣的性質,比如,在一定程度上,随着dnn網絡深度的增加,模型的性能會持續提升,說明dnn伴随模型深度的增加,可以提取更有表達性、更利于分類的特征;人們利用這一性質,提取dnn模型的bottle-neck特征,然後在訓練gmm-hmm模型,可以取得和dnn模型相當的語音識别效果。

dnn應用到語音識别領域後取得了非常明顯的效果,dnn技術的成功,鼓舞着業内人員不斷将新的深度學習工具應用到語音識别上,從cnn到rnn再到rnn與ctc的結合等等,伴随着這個過程,語音識别的性能也在持續提升,未來我們可以期望将可以和機器進行無障礙的對話。

雷鋒網注:本文由大牛講堂授權雷鋒網釋出,如需轉載請聯系原作者,并注明作者和出處,不得删減内容。有興趣可以關注公号地平線機器人技術,了解最新消息。

本文作者:大牛講堂

繼續閱讀