天天看點

ModelScope語音互動技術

作者:DataFunTalk

導讀 本文将介紹達摩院語音實驗室在魔搭社群開源的工業級語音識别模型Paraformer。

全文目錄:

1. ModelScope語音方向模型總覽

2. Paraformer非自回歸端到端語音識别模型

3. 如何在ModelScope社群體驗和定制訓練Paraformer模型

4. ModelScope語音方向其他模型定制流程介紹

分享嘉賓|李澤瑞 阿裡巴巴達摩院 語音算法工程師

編輯整理|餘安琪

出品社群|DataFun

01

ModelScope語音方向模型總覽

1.語音AI背景介紹

首先來回顧一下語音AI的發展史。

ModelScope語音互動技術

語音AI的發展史就是創新不斷解鎖應用的曆史。從早期的孤立詞語音識别、PC端的Speech API,到1997年桌面連續詞語音識别,2009年之後深度學習在語音識别領域興起,基于深度神經網絡的語音識别顯著提升了連續語音識别系統的性能。此後,更多的語音互動應用被解鎖,比如2011年以Apple Siri為代表的手機語音助手,2012年以Google Voice Search為代表的手機語音搜尋和輸入法,2014年以Amazon Echo為代表的智能音箱,以及2018年以阿裡巴巴小蜜為代表的電話IVR,2021年達摩院又提出了聽悟,開始解鎖會議語音AI。從人機語音互動,到人人語音互動,未來語音AI的發展将建立規模化的AI生态,為研究者提供更好的基礎設施,進而産出更多創新,讓AI的應用拓展到各行各業。

ModelScope語音互動技術

為了促進AI生态,達摩院推出了ModelScope魔搭社群,希望通過AI模型的開源開放,來促進創新、推廣應用。ModelScope社群提供了一站式的模型服務,包括模型管理、檢索、下載下傳、使用、微調、部署和應用等。

2.ModelScope語音方向模型總覽

ModelScope語音互動技術

達摩院語音實驗室将阿裡雲AI背後的工業級模型,通過ModelScope社群進行了開源開放,其中包括語音識别、語音合成、語音喚醒、語音信号處理和口語語音處理五大方向的超過50個模型,提供給開發者進行應用和部署。

ModelScope語音互動技術

其中語音識别模型超過30個,涵蓋10多個語種,包括阿裡雲服務基于UniASR的自回歸端到端語音識别系統和基于Paraformer的非自回歸端到端語音識别系統。

ModelScope語音互動技術

語音合成方向目前開源了13個模型,涵蓋3個語種,其中男女聲發音人模型各4個,多發音人模型5個,後續還将不斷上線新模型。

ModelScope語音互動技術

在語音喚醒方向,開源了兩個模型,代表了達摩院的兩種技術路線。語音信号處理方向也開源了兩個模型,分别用于降噪和回聲消除。口語語言處理,開源了最新研究成果PoNet的兩個模型。

02

Paraformer非自回歸端到端語音識别模型

1.語音識别原理

ModelScope語音互動技術

機器将人的語音轉化為文本,接收的音頻信号先經過加窗和分幀得到語音幀,然後通過傅立葉變換語音特征從時域的采樣點轉化為頻域得到語音特征,得到的語音特征送入到語音識别系統輸出識别文本。傳統的混合的語音識别系統采用多個子產品級聯方式,系統建構複雜、門檻較高,如早期的隐馬爾可夫模型。

ModelScope語音互動技術

學術研究和工業落地更多采用端到端語音識别(seqtoseq模型)實作語音特征輸入到輸出文本的關系,相對混合系統比較簡單,最具代表性的是基于transformer的語音識别系統。

端到端語音識别系統分為根據模組化不同,分為自回歸及非自回歸兩種,自回歸在decoder端,目前時刻輸出依賴于前一時刻預測的輸出,對模組化結構對并行推理有局限性;另外一種是非自回歸的端到端,可以去除token依賴關系,每個token獨立分布,對并行推理比較友好。

ModelScope語音互動技術

建構單步非自回歸端到端語音系統需要解決三個問題:

  • 準确預測輸出序列長度,送入預測語音信号判斷包含多少文字。
  • 如何從encoder 的輸出中提取隐層表征,作為decoder的輸入。
  • 如何增強非自回歸預測内部依賴的模組化能力。

語音識别三類錯誤包括插入錯誤,删除錯誤,替換錯誤。圖中可以看到,非自回歸相對于自回歸模型替換錯誤明顯增多,因為非自回歸模型的獨立性假設使得上下文模組化能力比較弱,同音和近音增多導緻的。

針對以上這三個問題,達摩院提出了Paraformer非自回歸端到端語音識别架構,下面進行詳細介紹。

2.Paraformer非自回歸端到端語音識别架構架構

Paraformer整體架構如下圖所示。

ModelScope語音互動技術

包括Encoder、Predictor、Sampler、Decoder和Loss五個部分。

聲學特征首先通過Encoder模組化送入Predictor子產品,Predictor子產品通過預測token的數目并抽取embedding,送入Decoder當中。訓練層面Predictor的輸出會有MAE Loss預測token的number,Decoder輸出有CE Loss以及一個基于MWER的區分性Loss優化語音識别最終識别目标。

接下來展開介紹各個子子產品。

ModelScope語音互動技術

(1)Encoder

采用SAN-M結構,對于語音模組化來說,全局模組化和局部模組化都極為關鍵,是以标準的Self-attention層增加了局部模組化子產品Memory Block,進而增加Self-attention的局部模組化能力。

(2)Decoder

離線和流式系統采用不同結構。離線識别使用雙向SAN-M,流式識别采用單向的SAN-M,并結合基于SCAMA的流式注意力機制來實作。SCAMA流式注意力機制原理如上圖所示,首先針對語音特征進行分chunk操作,送入encoder模組化後進入predictor分别預測每個chunk的輸出token數目。Decoder在接受到token數目和隐層表征後,來基于SCAMA流式注意力機制預測每個chunk的輸出。

ModelScope語音互動技術

(3)Predictor

基于CIF來預測輸出token的數目,并提取隐層表征作為decoder的輸入。即将encoder預測輸出送入函數,将每幀的預測輸出轉化為一個0-1之間的機率分布,連續給集合的機率得到一個域限門值 β,根據 β 輸出一個token。

訓練的時候額外采用MAE Loss來使得預測的機率和等于整個輸出的token數目。推理的時候采用門限值 β 為1,也就是累積到1的時候輸出一個token,來預測整條語音的輸出字數。

ModelScope語音互動技術

(4)Sampler

上圖中展示了四種常見的模組化方式:

第一個是自回歸Decoder,即目前時刻依賴前一時刻的輸出;

第二個是标準的單輪疊代的非自回歸端到端Decoder,使用獨立模組化方式;

第三個是 MLM,它是多輪疊代非自回歸常采用的方式,将某些時刻替換成mask,利用周邊的token預測mask的位置,并通過多輪疊代的方式提升預測精度。

第四個是Paraformer采用的模組化方式,通過GLM對隐層表征和grand truth的label進行采樣,預測隐層表征對應輸出的token來提升token的内部模組化能力,進而減少Paraformer中的替換錯誤。

ModelScope語音互動技術

目前主要是Paraformer離線模型已開源,流式模型在規劃中,後續逐漸進行開源。

3.Paraformer-large

下面介紹一個開源的工業級語音識别模型,Paraformer-large。

ModelScope語音互動技術

Paraformer-large基于Paraformer模型結構,結合阿裡工業級的資料進行訓練,相比于學術模型具有以下特點:

  • 更大的模型結構,Encoder端包含50層,Decoder端包含60層,擁有220M參數量;
  • 更高的效率,非自回歸結構,同時模組化時采用了6倍下采樣的低幀率模組化方案,計算量降低接近6倍,再配合GPU推理,效率可提升5-10倍;
  • 更高的性能,多個開源ASR任務取得了SOTA的效果,與雲服務效果相當。
ModelScope語音互動技術

訓練資料主要來自兩部分,首先是精标通用資料,包括半遠場、輸入法、音視訊、直播、會議等領域;進一步,我們還采用了OCR和ASR 交叉驗證産生在直播美食遊戲等領域的低成本資料,通過多輪疊代提升模組化能力。

使用通用資料的基礎上進一步結合低成本資料進行拓展訓練,平均CER獲得了百分之十的下降。

ModelScope語音互動技術

相比學術上的小模型,還會引入訓練政策,比如Layer-wise Leanrning Rate、随機層删除和頭删除,來提升模型的魯棒性和泛化型。

Parafomer-large模型在開源資料集AISHELL-1、AISHELL-2,及 WenetSpeech上表現良好,并且在SpeechIO評測榜單上排名第一,相較于其它雲服務有明顯的優勢,。

ModelScope語音互動技術

03

如何在ModelScope社群體驗和定制訓練Paraformer模型

登入ModelScope社群首頁,在模型庫中選擇語音識别類别,就可以看到該模型。

ModelScope語音互動技術

在模型首頁右側,可以看到一個示例,在這裡可以進行體驗。

ModelScope語音互動技術

Parafomer-large內建了如下一些新feature:

  • 長音頻模型內建語音端點檢測,語音識别,标點和時間戳功能,可針對數小時音頻直接識别,并輸出帶标點的文字,以及字級别的時間戳。
  • 熱詞版可基于使用者的熱詞清單增強記憶,提升模型對熱詞的召回和精度,可在某些垂直領域通過該模型提升熱詞表現效果。
ModelScope語音互動技術

同時,訓練工具FunASR也進行了開源,支援學術模型和工業模型進行推理和微調,架起工業和學術研究的橋梁,進一步促進語音生态發展。

ModelScope語音互動技術

上圖展示了ModelScope和FunASR的關系,ModelScope提供模型托管服務,內建高層API的方式對FunASR封裝,提供友善快捷的統一接口,支援模型推理和微調,操作簡單;FunASR作為基礎訓練架構,獨立于ModelScope提供模型的推理與微調,支援學術模型進行訓練,因ModelScope封裝比較深,對于定制化程度要求比較高的使用者可以通過修改源碼來滿足實際需求。

ModelScope語音互動技術

FunASR除了支援常見的ASR結構,還支援其它語音相關模型,如VAD語音端點檢測模型、中文标點模型、Data2vec預訓練模型,以及說話人确認模型等。

訓練代碼針對一千小時以上的語音,Dataloader支援更大資料集訓練,模型訓練收斂更快效果更好;資料格式上支援更多格式,除了wav、wav.scp、Fbank等格式外,還支援MP3格式、音頻bytes、音頻采樣點等。

ModelScope語音互動技術

除代碼以外,還提供各模型recipe,分别存放在egs和egs_modelcope目錄下。egs目錄下主要是學術模型,友善使用者複現論文結果;egs_modelscope目錄下主要包括工業模型推理和finetune腳本,友善使用者快速基于私有資料對模型進行定制。

ModelScope語音互動技術

這裡以Paraformer-large為例,介紹如何基于私有資料進行模型定制。

首先,按上圖所示格式進行資料準備,text路徑存放音頻标注和wav.scp存放音頻檔案。

ModelScope語音互動技術

資料準備完後可以對Paraformer-large模型進行微調,可以對如圖所示的訓練參數進行調整。資料量大的時候,通過設定dataset_type為“large”來訓練大資料集的模型。調整完直接執行python檔案即可,友善快捷。

ModelScope語音互動技術

模型訓練完後進行模型推理,支援wav、pcm、wav檔案url、wav二進制資料等。

推理代碼通過調用ModelScope的pipeline得到語音識别輸出。如果希望基于finetune之後的模型進行識别,隻要将model名字改成finetune後的路徑檔案即可。

ModelScope語音互動技術

支援VAD、長音頻,ASR中文标點模型等多個模型自由組合,傳入多個模型整合建構pipeline。長音頻支援時間戳輸出,可以通過設定參數關閉。還開源了配套LM模型,設定如圖所示參數,支援LM模型調用。

ModelScope語音互動技術

FunASR支援模型runtime部署,新版本支援模型導出功能,即一鍵導出onnx和touchscripts格式模型用于部署;但目前隻支援Paraformer及基于Paraformer本地finetune後的模型。

經在cpu上進行測試發現,基于ModelScope onnxruntime部署的模型推理速度相對pipeline提升3倍,rtf實時率從0.110降低到0.038。同時增加了grpc服務功能,支援ModelScope推理pipeline進行服務部署和導出的onnxruntime格式部署。

ModelScope語音互動技術

效果表現上,基于Paraformer-large模型在開源資料集AISHELL-1和AISHELL-2的finetune 效果上來看,在對應測試集上達到CER接近百分之十下降。

ModelScope語音互動技術

在私有資料(180小時領域精标資料集)test1和test2上finetune ,發現CER有1個多點的下降;除了識别率外關鍵詞的識别準确性也有提升,結果上看關鍵詞召回有20個點的提升,說明私有資料finetune能産出更優的領域模型。

04

ModelScope語音方向其他模型定制流程介紹

ModelScope語音互動技術

1.語音合成

語音合成主要有兩部分:資料準備和模型訓練。

資料準備,可以使用ModelScope提供的語音合成資料,或符合阿裡标準的語音資料集進行微調。訓練模型時需替換本地資料集路徑及官方模型路徑,訓練完可使用定制模型進行語音合成操作。

2.語音降噪

ModelScope語音互動技術

通過官方提供的腳本工具實作資料下載下傳及生成,生成純淨語音、噪聲和混合噪聲三個檔案夾,替換本地資料集和模型路徑,進而實作模型微調。

3.語音喚醒

ModelScope語音互動技術

訓練套件已進行開源,同樣是在配置完訓練參數後可以直接啟動訓練并體驗。

以上就是本次分享的内容。最後歡迎大家關注ModelScope魔搭社群、語音社群以及FunASR社群,交流讨論。

ModelScope語音互動技術

繼續閱讀