從聲學模型算法角度總結 2016 年語音識别的重大進步

　在過去的一年中，語音識别再次取得非常大的突破。ibm、微軟等多家機構相繼推出了自己的 deep cnn 模型，提升了語音識别的準确率；residual/highway 網絡的提出使我們可以把神經網絡訓練的更加深。

　　而諸如 ctc、low frame rate、chain 模型等粗粒度模組化單元技術使得語音識别準确率得到提升的同時，解碼速度也可以大大加快。

　　本期雷鋒網硬創公開課特邀供職于阿裡巴巴 idst 的語音專家薛少飛博士，從學術的角度回顧過去一段時間裡語音識别技術的進展。

　　嘉賓介紹：

　　薛少飛，阿裡巴巴 idst 語音識别專家，中國科學技術大學博士。現負責阿裡聲學模型研究與應用：包括語音識别聲學模組化和深度學習在業務場景中的應用。博士期間的研究方向為語音識别說話人自适應，提出基于 speaker code 的模型域自适應方法，在語音相關的會議和期刊上發表論文十餘篇。

　　本期公開課的分享主要包括三大部分：

　　深度神經網絡聲學模型發展回顧：簡單回顧深度神經網絡技術在語音識别聲學模型中的應用曆史；

　　前沿聲學模型技術進展：近期幾個比較有意思的聲學模型技術進展，包括 deep cnn 技術、residual/highway 網絡技術和粗粒度模組化單元技術。當然這裡并沒有把所有的新技術進展都囊括進來，比如 attention 技術。隻是以這三條線路為例看看語音識别聲學模型技術的進展和未來的發展趨勢。

　　阿裡巴巴的語音識别聲學模型技術。

　　一、深度神經網絡聲學模型發展回顧

　　回顧語音識别技術的發展曆史可以看到，自從上世紀 90 年代語音識别聲學模型的區分性訓練準則和模型自适應方法被提出以後，在很長一段内語音識别的發展是比較緩慢的，語音識别錯誤率的那條線一直沒有明顯的下降。直到 2006 年 hinton 提出深度置信網絡（dbn），促使了深度神經網絡（dnn）研究的複蘇。

　　2009 年，hinton 将 dnn 應用于語音的聲學模組化，在 timit 上獲得了當時最好的結果。2011 年底，微軟研究院的俞棟、鄧力兩位老師又把 dnn 技術應用在了大詞彙量連續語音識别任務上，大大降低了語音識别錯誤率。從此以後基于 dnn 聲學模型技術的研究變得異常火熱。微軟去年 10月釋出的 switchboard 語音識别測試中，更是取得了 5.9%的詞錯誤率，第一次實作了和人類一樣的識别水準，這是一個曆史性突破。

　　那麼什麼是 dnn 的？其實标準的 dnn 一點也不神秘，它和傳統的人工神經（ann）在結構上并沒有本質的差別，隻是 ann 通常隻包含一個隐層，而 dnn 則是通常包含至少 3 層以上的隐層，通過增加隐層數量來進行多層的非線性變換，大大的提升了模型的模組化能力。

　　這是基于 dnn 的語音識别系統架構，相比傳統的基于 gmm-hmm 的語音識别系統，其最大的改變是采用 dnn 替換 gmm 模型對語音的觀察機率進行模組化。

　　相比傳統 gmm 模型我覺得有兩點是非常重要的：

　　1.使用 dnn 不需要對語音資料分布進行假設。

　　2. dnn 的輸入可以是将相鄰語音幀拼接形成的包含時序結構資訊的矢量。

　　當時訓練 dnn 的普遍做法是先進行無監督的預訓練，而後進行有監督的調整，後來人們發現當資料量非常大的時候無監督的預訓練并不是必要的，當然這是後話了。

　　促使 dnn 的研究在那時重新興起還有一個非常重要，并且我個人認為是最核心的因素，就是計算能力的提升。

　　以前要在 cpu 上訓練 dnn 是非常慢的，做一個實驗可能需要好幾周甚至幾個月，這是不能忍受的，随着 gpu 的出現這種情況發生了變化，gpu 非常适合對矩陣運算進行加速，而 dnn 的訓練最終都可以被拆解成對矩陣的操作，兩者天然和諧。

　　而今随着 gpu 技術的不斷發展和進步，我們能夠訓練資料量更大、網絡更深、結構更複雜的模型，這才有了深度神經網絡技術的迅速發展。

　　lstm 模型相信大家都不陌生，它一種特殊的循環神經網絡（rnn）。語音識别本來就是一個時序模組化問題，是以非常适合用 rnn 來進行模組化。

　　但是簡單的 rnn 受限于梯度爆炸和梯度消散問題，比較難以訓練。而 lstm 通過輸入門、輸出門和遺忘門可以更好的控制資訊的流動和傳遞，具有長短時記憶能力，并在一定程度上緩解 rnn 的梯度消散和梯度爆炸問題。當然它也有不足之處，計算複雜度相比 dnn 大幅增加，并且由于遞歸連接配接的存在難以很好的并行。

　　blstm 進一步提升了該類模型的模組化能力，相比 lstm 還考慮了反向時序資訊的影響，也即“未來”對“現在”的影響，這在語音識别中也是非常重要的。

　　當然這種能力的代價就是模型計算複雜度進一步加大，并且通常需要整句進行訓練：gpu 顯存消耗增大->并行度降低->模型訓練更慢，另外在實際應用中還存在實時性問題。

　　ctc 技術在過去的一段時間内也非常的火熱，首先要說明的是 ctc 并不是模型的變化，而是優化的目标函數發生了改變，dnn、lstm、cnn 都可以和 ctc 相結合。

　　傳統的深度神經網絡聲學模型的訓練過程需要先對訓練資料文本序列做 alignment 得到分類的“硬判決”，之後以這種“硬判決”的分類為目标訓練神經網絡，網絡優化的目标并不是最終要識别的結果。和傳統的深度神經網絡聲學模型相比 ctc 的優化目标是一種所見即所得的優化目标，你要訓練的目标就是你想要得到的結果。

　　傳統的深度神經網絡聲學模型模組化單元通常是 state 級的，而 ctc 的模組化單元則是 phone 一級甚至是 character 的，state 級反而不好，這種模組化粒度的變化帶來一個好處就是語音資料的備援度增加了，相鄰的語音幀本來就會很像并可能來自于同一個 phone，那麼現在就不需要這麼多幀資料來模組化一個句子。

　　通過拼幀降采樣的方法可以降低資料的總幀數，在不影響識别準确率的情況下加快網絡計算的速度。ctc 的另一個非常重要的貢獻是引入了“blank”空白，空白的引入避免了易混淆幀的“強制”對齊。并且使得訓練後的網絡輸出呈現“尖峰”狀态，大段的 blank 使得解碼時通過 beam 的靈活調整，可以加快解碼速度。

　　語音識别開源平台介紹與對比

　　語音識别領域有非常多的開源工具，傳統的語音識别開源工具像 cmu sphinx 系統，是基于統計學原理開發的第一個“非特定人連續語音識别系統”；劍橋語音識别組推出的 htk 工具包是 gmm-hmm 時代最為流行的語音識别工具，我剛接觸語音識别就是從 htk 開始的。

　　幾年前推出的 kaldi 嚴格來講并不十分“傳統”，也是比較新并且在不斷更新的開源工具，目前應該也是使用人數最多的語音識别開源工具。

　　近兩年來許多深度學習開源架構湧現了出來，像 theano、 cntk、tensorflow 等，接下來我會對傳統的語音識别工具和新的深度學習開源架構做一個對比，那麼我就簡單從幾個我比較關心的次元來抛磚引玉看看 kaldi、cntk 和 tensorflow 的異同。

　　在拓撲基礎方面，kaldi 的 nnet1 和 nnet2 是以層設計為基礎的，也即當你新增加一種神經網絡層時需要自己定義它的結構，都有哪些變量，正向怎麼算，反向誤差怎麼傳播等等，并且過于複雜的連接配接方式很難支援。

　　而 kaldi 的 nnet3 和 cntk 以及 tensorflow 都是以圖結構為基礎的，通過配置檔案實作對網絡連接配接方式的定義，資料就像流水一樣在你定義的網絡圖中遊走，并自己實作誤差的反向傳播，它的優點是你可以專注網絡拓撲結構的設計，而不用為網絡計算的細節而費心，特别是誤差的反向傳播。

　　但這也帶來一個問題，尤其是對初學者而言，會造成隻是在設計網絡長成什麼樣子，但并不清楚其中的實作細節。初學者最好多推推公式，對打下一個堅實的基礎絕對有好處。

　　在語音識别其它工具支援方面，kaldi 有全套的語音識别工具，包括解碼器、建立決策樹、gmm 訓練等等，而 cntk 和 tensorflow 在這方面并沒有特别的支援，值得一提的是 cntk 裡提供了把 kaldi 資料處理成為 cntk 資料格式的工具，使的用 kaldi 的人也可以很快上手 cntk，大家不妨試一下。

　　最後一個我比較關心的因素就是是否支援多機多卡，因為随着資料量和模型複雜度的不斷攀升，僅僅用一個 gpu 很難滿足模型訓練的需要，必須使用多個 gpu 來加速訓練。在這方面目前 kaldi、cntk、tensorflow 都已經支援。

　　最後我的建議是對于語音識别的初學者和低年級的研究所學生來講，用 kaldi 入門學習算法和實踐理論知識是比較好的選擇，對于高年級研究所學生和具有一定年限的從業人員來講，就看自己的喜好了，大家都是殊途同歸，工具不是決定性的，資料、算法和模型才是。

　　二、前沿神學模型的技術進展

　　接下來介紹一下 deep cnn 技術、residual/highway 網絡技術和粗粒度模組化單元技術。去年有多家機構都推出了自己的 deep cnn 模型，像 ibm、微軟等，我這裡以 ibm 的 deep cnn 為例，一起探讨一下到底哪些關鍵因素使得 deep cnn 能夠取得這麼好的效果。

　　其實 cnn 被用在語音識别中已經不是一天兩天了，在 12、13 年的時候 ossama abdel-hamid 就将 cnn 引入了語音識别中。

　　那時候的卷積層和 pooling 層是交替出現的，并且卷積核的規模是比較大的，cnn 的層數也不是特别的多，主要是用來對特征進行進一步的加工和處理，使其能更好的被用于 dnn 的分類。

　　後來随着 cnn 技術在圖像領域的發展，情況慢慢出現了變化，人們在圖像領域的研究中發現多層卷積之後再接 pooling 層，減小卷積核的尺寸可以使得我們能夠訓練更深的、效果更好的 cnn 模型。相應的方法被借鑒到了語音識别中，并根據語音識别的特點進行了進一步的優化。

　　ibm 的研究人員在 16 年的 icassp 上發表文章，稱使用 3x3 的小卷積核和多層卷積之後再接 pooling 的技術可以訓練出 14 層（包含全連接配接）deep cnn 模型。

　　在 switchboard 資料集上相比傳統的 cnn 使用方法可以帶來相對約 10.6%wer 下降。小尺寸的卷積核和多層卷積之後再接 pooling 的技術是使 deep cnn 能夠成功的關鍵點。

　　接下來介紹一下 residual/highway 網絡以及它們目前在語音識别中的應用情況。

　　residual 網絡會這麼出名得益于 msra 的 152 層讓人“瘋狂”的深度神經網絡，憑借着它 msra 在 2015 imagenet 計算機識别挑戰賽中以絕對優勢獲得圖像分類、圖像定位以及圖像檢測全部三個主要項目的冠軍。

　　在公開的論文當中，作者詳細解讀了他們的“心路曆程”。

　　研究人員發現在深度神經網訓練過程中總是會出現”degration problem”，即當網絡深度達到一定程度以後，随着網絡深度的增加 training error 将不降反增，并且這不是由于過拟合引起的。

　　一般來講我們認為一個淺層網絡 a 疊加幾層成為網絡 b，如果疊加的幾層權重都是機關矩陣，那麼 b 的性能至少不會比 a 差，但現實并非如此，網絡自己很難學習到這種變換。

　　而相比與學習目标函數而言殘差更容易學習，于是提出了一種 residual learning 的結構，增加了一個越層的短連接配接。我的了解是這種短連接配接一方面避免了前向計算中非線性變換對資料的過度加工，另一方面在誤差反向傳播時通過直連通路，可以讓誤差有路徑直接回傳，抑制梯度消散。

　　大約稍早，srivastava 在 arxiv 上傳了他的 highway 網絡工作，在 highway 網絡中一個隐層節點的輸出不再單單是輸入通過非線性變換後的數值，而是變成了通過 transform gate 和 carry gate 對非線性變換後的數值和輸入進行權重得到的結果。residual 網絡可以被看成是 highway 網絡的一種不額外增加參數量的特例。

　　residual/highway 網絡這麼有效果，語音識别領域的研究人員當然也會關注并使用。我來舉幾個例子，在“highway long short-term memory rnns for distant speech recognition”中作者提出 highway lstm 結構，引入了一種 carry gate，carry gate 控制目前層 cell 狀态計算有多少來自于前一層的 cell 狀态， carry gate 的計算又取決于目前層的輸入、目前層前一時刻的 cell 狀态和前一層目前時刻的 cell 狀态。通過這種模型結構實作了資訊在模型内部更好的跨層流動。

　　在 ”multidimensional residual learning based on recurrent neural networks for acoustic modeling”中作者将 residual 的概念應用到 lstm 模型中，并在 timit 和 hkust 兩個資料集上驗證了實驗效果。

　　在 ”renals.small-footprint deep neural networks with highway connections for speech recognition”中作者對比了 residual dnn 和 highway dnn 在語音識别上的效果，得到的結論是：” residual networks are more powerful to train deeper networks compared to plain dnns, particular with relu activation functions which reduce the optimisation difficulty. however, highway networks are more flexible with the activation functions due to the two gating functions that control the follow of information.”

　　下面是粗粒度模組化單元技術，low frame rate 技術我會放到後面結合阿裡巴巴的聲學模型技術進行說明，先來看一下 chain 模型。chain 模型是 kaldi 的作者 daniel povey 近期力推的工作，它使用的也是 dnn-hmm 架構，表中我列出了 chain 模型和傳統的神經網絡聲學模型模組化的不同點。

　　在模組化單元方面，傳統神經網絡聲學模型的模組化單元一般是 3 狀态或者 5 狀态的 cd phone，而 chain 模型的模組化單元則是 2 狀态，其中 sp 是最主要用來表征該 cd phone 的狀态，而 sb 則是該 cd phone 的“blank”空白，空白的概念其實和 ctc 中的很相似，隻是在 chain 模型中每一個模組化單元都有自己的空白。

　　在訓練方法上，傳統神經網絡聲學模型需要先進行 cross-entropy 訓練，後進行區分性準則訓練。而 chain 模型直接進行 lattice-free mmi 訓練，當然其後還可以接着進行區分性準則訓練，但是從目前的報道來看，這部分的提升是比較小的。

　　在解碼幀率方面由于 chain 模型使用的是拼幀然後降采樣的方法，解碼的幀率隻有傳統神經網絡聲學模型的三分之一，而識别準确率方面相比傳統模型會有非常明顯的提升。總結一下我認為未來深度神經網絡聲學模型主要有三個發展方向。

　　1.更 deep 更複雜的網絡

　　類似msra152 層 resnet 的技術，雖然以目前的計算能力在語音識别的實際應用中這種複雜網絡結構的模型暫時還不能落地，但是持續不斷的研究和探索可以為我們明确我們努力的方向和能力所能達到的上界。

　　2. end to end 的識别系統

　　end to end 的識别系統一直是近年來比較火的研究方向，如 ctc、 attention 等都是在這方面非常有意義的工作，在海量規模的語音資料上建立計算速度快、識别準确率高的 end to end 的識别系統會是未來的一個重要課題。

　　3. 粗粒度的模組化單元 state->phone->character

　　粗粒度模組化單元的技術對于加快語音識别的解碼速度具有非常重要的意義，而反過來解碼速度的提升又可以讓使用更深、更複雜神經網絡建模聲學模型成為可能。

　　三、阿裡巴巴的語音識别聲學模型技術

　　最後分享一下阿裡巴巴團隊在語音識别聲學模型技術方面的一些工作。

　　在工業界做語音識别，資料量是非常龐大的，上萬小時的語音資料是再正常不過的，面對如此龐大的資料量，使用單機單 gpu 或者單機多 gpu 進行模型的訓練是遠遠不能滿足需求的，必須具有多機多 gpu 進行模型訓練的能力。

　　我們使用的基于 middleware 的多機多卡方案。gpu middleware 提供了 api 接口使得我們可以通過對訓練工具（kaldi、caffe 等）的簡單修改實作并行訓練。并且可以自主管理任務隊列、資料分發、通信、同步等，是我們能夠更多的專注于算法本身。采用 master-slave 模式，支援 ma / sgd / asgd 等。

　　這是 model averaging 的一個示例：

　　表格裡給出的是在 5000h 小時訓練資料情況下訓練 dnn 模型的加速效果，可以看到使用 8 個 gpu 的情況下大約可以取得 7.2 倍的加速，使用 16 個 gpu 的情況下大約可以取得 14.3 倍的加速。我們目前使用的是 latency-control blstm 模型，這裡面有從 blstm 到 csc-blstm 再到 lc-blstm 的發展曆程。

　　我們知道 blstm 可以有效地提升語音識别的準确率，相比于 dnn 模型，相對性能提升可以達到 15%-20%。

　　但同時 blstm 也存在兩個非常重要的問題：

　　1. 句子級進行更新，模型的收斂速度通常較慢，并且由于存在大量的逐幀計算，無法有效發揮 gpu 等并行計算工具的計算能力，訓練會非常耗時；

　　2. 由于需要用到整句遞歸計算每一幀的後驗機率，解碼延遲和實時率無法得到有效保證，很難應用于實際服務。對于這兩個問題，前 msra lead researcher，目前已經是阿裡巴巴 idst 語音團隊負責人的鄢志傑和他當時在微軟的實習生一起首先提出 contextsensitive-chunk blstm （ csc-blstm）的方法加以解決。

　　而此後文獻 (zhang2015, mit)又提出了 latency controlled blstm（lc-blstm）這一改進版本，更好、更高效的減輕了這兩個問題。我們在此基礎上采用 lc-blstm-dnn 混合結構配合多機多卡、16bit 量化等訓練和優化方法進行聲學模型模組化。完成了業界第一個上線的 blstm-dnn hybrid 語音識别聲學模型。

　　這兩張是 lc-blstm 的示意圖，訓練時每次使用一小段資料進行更新，資料由中心 chunk 和右向附加 chunk 構成，其中右向附加 chunk 隻用于 cell 中間狀态的計算，誤差隻在中心 chunk 上進行傳播。時間軸上正向移動的網絡，前一個資料段在中心 chunk 結束時的 cell 中間狀态被用于下一個資料段的初始狀态，時間軸上反向移動的網絡，每一個資料段開始時都将 cell 中間狀态置為 0。

　　該方法可以很大程度上加快網絡的收斂速度，并有助于得到更好的性能。解碼階段的資料處理與訓練時基本相同，不同之處在于中心 chunk 和右向附加 chunk 的維度可以根據需求進行調節，并不必須與訓練采用相同配置。

　　進一步，我們又在 lc-blstm 上進行了改進，首先提出一種改進的 fabdiblstm 模型，它和 lc-blstm 的不同在于時間軸上反向移動的網絡，cell 中間狀态是由 feed-forward dnn 計算得到的，而不是原來采用的遞歸方式，這樣在盡可能保證識别準确率的同時，降低了模型的計算量。

　　我們還提出一種改進的 fabsr-blstm 方法，用簡單 rnn 替代時間軸上反向移動的 lstm，以加快這部分的計算速度。

　　表裡面給出的是我們的實驗結果，在 switchboard 資料集上的實驗表明在損失少量精度的情況下，我們的改進版模型相比标準的 lc-blstm 可以取得 40%- 60%的解碼加速。這部分工作已經被 icassp 2017 接收，即将于今年三月份發表。

　　low frame rate(lfr)是我們上線的又一新技術，lfr 是在 interspeech 2016 會議上由谷歌的研究人員提出的，在論文中研究人員宣稱 ctc 技術隻有在 4 萬小時以上的資料量下才有更好的效果，而 lfr 通過使用單狀态的 cd-phone、拼幀并降幀率、soft label、ce 初始化、output delay 等技術可以讓傳統神經網絡識别模型取得和 ctc 近似或更好的效果。

　　我們借鑒了論文中的方法并将其成功應用在 lc-blstm 上，在我們的一個上萬小時資料的任務上。

　　lfr-lc-blstm 可以取得和 lc-blstm 差不多的識别錯誤率，并且有約 3.6 倍的解碼加速。據我們所知（to the best of our knowledge），我們也是目前業界唯一一家落地 lfr 技術的公司。

　　在模型的魯棒性方面，我們也做了非常多的工作。模型的魯棒性一直是困擾業界和研究人員的一個問題，比如用安靜環境下的語音資料訓練的模型在噪聲環境下識别準确率就很差，用新聞播報的語音資料訓練的模型去識别激情的體育解說，識别準确率也會很差。

　　那麼如何克服不同的信道、噪聲、應用場景的差異，使聲學模型具有更好的魯棒性呢，最好的辦法當然是收集更多真實場景下的語音資料，但是如果一時之間做不到呢？

　　怎麼利用現有的語音資料去盡可能的提升模型的噪聲魯棒性？能不能利用現有資料去“造”和目标場景很類似的資料？

　　這是一個很有意思的研究課題。算法層面的改進這裡暫且不提，說一下我們在“造”數據上的一些工作，我們設計了一套完整的資料分析、資料篩選和資料加工流程。

　　從應用場景分析開始，我們會去分析信道情況、噪聲情況、語境情況等等。然後根據對應用場景的分析自動篩選适合的訓練資料。再根據不同的場景情況，進行加噪、加快語速等處理。最後訓練模型進行測試，再根據對結果的分析回報我們應用場景的分析。

　　最後是我們語音識别技術應用的一些案例，比如阿裡巴巴内部的智能質檢和智能電話客服，從去年開始，阿裡集團與螞蟻客服每接聽一個電話，都會立刻啟動一個叫風語者的系統，它就是自動語音識别技術，将語音轉變成文字，千分之三的人工抽檢可以瞬間更新為100%的自動質檢。除此應用場景之外，阿裡yunos、阿裡小蜜以及手淘，現在都已經應用到阿裡雲的語音識别系統。阿裡雲在 2016年會上公開展示實時語音識别技術，并現場挑戰世界速記大賽亞軍得主。據現場最終評測，機器人在準确率上以 0.67%的微弱優勢戰勝第50 屆國際速聯速記大賽全球速記亞軍姜毅。對外服務上我們開放了智能語音互動的能力(data.aliyun.com)，為企業在多種實際應用場景下，賦予産品“能聽、會說、懂你”式的智能人機互動體驗。在法庭庭審方面，我們利用語音識别技術，将庭審各方在庭審過程中的語音直接轉變為文字，供各方在庭審頁面上檢視，書記員簡單或不用調整即可作為庭審筆錄使用。大家在目睹直播平台上看雲栖大會直播時，上面的實時字幕背後用的也是我們自己的語音識别技術。

　　參考文獻

　文章位址：http://mt.sohu.com/20170122/n479315508.shtml

從聲學模型算法角度總結 2016 年語音識别的重大進步

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希