天天看點

【技術揭秘】高性能粵語語音識别模型建構方案

來源 阿裡語音AI 公衆号

随着人工智能技術的飛速發展,語音識别(Automatic SpeechRecognition)的應用越來越廣泛,對于多語種多口音語音識别的需求也在日漸增加。雖然語音識别系統的基本原理和架構是不受限于語種的,在建立一個新語種的ASR模型時,還是需要結合到語言本身的特點,才能得到較好的效果。

粵語流通于廣東、廣西、香港、澳門及海外華人社群,全球有近1.2億人口使用粵語。在香港和澳門,大多數人口使用粵語為母語,具有官方語言的地位。粵語的代表音約定俗成以廣州粵語口音為标準。香港和澳門粵語跟廣州粵語在口音并無明顯分别,但是因香港和澳門在不同社會體制下的影響,以緻一些用詞有所不同。而廣州以外的其他廣東及廣西地區的粵語與廣州粵語在口音上則存在着不同程度的差異。本文主要介紹阿裡巴巴粵語語音識别引擎的開發過程中的一些體會。

聲學模型方面,粵語識别引擎是基于阿裡巴巴自研的DFSMN-CTC模組化方法。CTC(Connectionist Temporal Classification) 是目前建立端到端系統最常用的方法。CTC提出一個基于序列的模組化方法,利用一個循環網絡來表示不同長度的輸入序列跟輸出序列之間的映射關系。而語音識别的目标是把語音特征和輸出的文本序列之間的對應關系進行模組化,因而CTC準則對于語音識别的場景特别适用。FSMN(Feedforward Sequential Memory Networks)提出在傳統的全連接配接神經網絡中添加可學習的記憶子產品(memory block),用來在層之間來傳遞上下文相關的資訊。而DFSMN(Deep FSMN)是一種改進的FSMN結構,主要解決在訓練深層網絡時容易發生的梯度消失問題:通過在記憶子產品之間添加跳轉連接配接(skip connection),進而使得低層記憶子產品的輸出會被直接累加到高層記憶子產品裡。

粵語和國語同屬于漢語系,在基本文法和發音單元上有一些共同點。是以我們在建立粵語ASR的時候,是基于已有的國語模型,通過遷移學習(Transfer Learning)的方法來得到的。遷移學習是屬于機器學習的一個方法,主要的啟發來自人類的知識擷取過程。人類在學習新知識的時侯,是一個循序漸進的積累過程:從已掌握的知識通過推理和抽象,結合新的樣本掌控新的知識。簡單來說,遷移學習的具體方法是把訓練好的模型參數遷移到新的領域,以幫助新領域模型訓練。遷移學習的方法被證明對資料量缺乏的場景有明顯幫助,例如在多語言ASR和低資源語種ASR的建設。由于深層神經網絡的特點是從低級到進階逐漸表示語言資訊,較低層的網絡表征的是低級的語言相關特征,如基礎發音單元等,是以訓練好的國語模型已經包含了漢語言相關的基礎聲學資訊。圖1給出了我們建立粵語聲學模型的示意圖。在訓練粵語模型時,首先去除國語模型的softmax輸出層,僅保留國語模型的低層網絡,然後利用這個網絡作為初始模型來進行粵語模型訓練和疊代。這種方法的好處是我們可以用相對較少量的粵語标注資料得到較好的模型效果。

盡管粵語和跟國語作為同語系有一些共性,可是粵語作為一個有悠久曆史,且在多個地區使用的方言有其自身的特點:1)各地區的用詞和發音方式存在着不同程度的差異。例如,在廣東會更多使用‘上課’,而香港會更多使用‘上堂’。另外,香港不少人的粵語不區分/n/聲母與/l/聲母,不過這兩個聲母在廣東某些地區的粵語中可以清晰地區分。2)符合粵語文法,詞彙的粵語白話文文本的擷取困難。粵語使用者在正式場合裡普遍使用國語書寫系統,是以其文法,詞彙與标準漢語或國語相符,但是與粵語白話文的詞彙和文法差異很大。3)粵語白話文缺乏官方标準,書寫比較混亂。在非正式場合如網上讨論區,人們書寫粵語白話文時,用字一般依從民間約定俗成的慣例,錯别字、以借音字書寫粵語的情況時常出現,還有一些字詞存在不同書寫方法。

【技術揭秘】高性能粵語語音識别模型建構方案

針對上述列舉出的粵語的特點,為了盡可能的覆寫粵語本身的多樣性,在資料采集方面,我們有目标的采集和抓取在口音和用字等方面有代表性地區的資料。在模組化單元的選取方面,我們采用粵語單字為基本的模組化單元。考慮到單字的使用頻繁程度,同音不同字的情況,我們把粵國文本參考對應的粵拼 (JyutPing) 進行聚類,對于同音字統一選取出現率最高的單字來表示發音。對于多音字的情況,根據上下文決定發音。

如何擷取大量的粵語白話文文本是建立粵語ASR模型的一個關鍵和難點。為了解決這個問題,我們利用少量平行文本,訓練出一個國語到粵語的機器翻譯模型,利用該模型大規模生産出粵語白話文文本。例如:

【技術揭秘】高性能粵語語音識别模型建構方案

為解決書寫混亂的問題,我們在标注音頻或處理文本時,對存在不同書寫方法的字詞采用“歧義最小”原則,進而達到容易轉換以滿足不同場景和應用的需要。

為了評估ASR模型的性能,我們收集了粵語電話信道,多個不同領域和場景上的對話類測試集。口音方面主要包括香港和廣東口音,錄音條件既包含每個說話人占用不同軌道的分軌錄音,也包括多個說話人同軌的錄音,内容則覆寫了電商,金融和政務等領域。

利用上述所說的DFSMN-CTC模組化方法,配合遷移學習、也得益于DFSMN在深層模型訓練上的優勢,粵語識别系統在上述電話粵語測試集的識别效果上,得到了相對基礎模型20%的相對提升。目前最新的粵語語音識别模型已經在公共雲官網正式上線,歡迎前往體驗。

智能語音産品官網連結:

https://ai.aliyun.com/nls
【技術揭秘】高性能粵語語音識别模型建構方案

繼續閱讀