天天看點

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

作者:深藍前沿

本文總結于西工大音頻語音與語言處理實驗室(ASLP@NPU)負責人-謝磊教授在深藍學院的公開課——智能語音技術的新進展與發展趨勢—NPU-ASLP視角。

大家好!感謝深藍學院的邀請!我代表西工大音頻語音與語言處理研究組向各位彙報一下我們實驗室在智能語音技術方面的一些進展,基于實驗室多位同學研究工作的總結。

針對人類語音的研究是一門典型的交叉學科,涉及聲學、聽覺、信号處理、語音語言學、生理學、認知科學、統計學、機器學習等衆多領域。語音處理主要針對人類的語音作為研究載體,除此之外,對聲音的研究非常廣泛,比如環境聲、音樂等,統稱為聽覺(音頻)資訊處理。如果把做和聲音相關研究的人員加在一起,會是一個特别龐大的群體,個人感覺規模不會少于CV領域。

關于今天的主題——智能語音互動,主要是人和機器通過語音作為媒介進行自然互動的形式,從語音互動圓環(speech circle)這張圖看,涉及到的核心技術主要包括四個方面,首先通過語音識别(ASR)轉成文字,如果語音信号品質不好的話,前端會有一個語音增強子產品;然後是口語語言了解,接下來是對話管理和口語語言生成,而最終通過文語轉換(TTS)生成語音回饋給使用者。

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

智能語音技術的範疇

回顧語音識别的發展,在2000年之前,語音識别的錯誤率有明顯的改善,而在2000年到2010年期間,我們做的很多努力很難再去進一步降低識别的錯誤率。在大概2010年後,在深度學習的推動下,利用大資料、機器學習和大算力這“三駕馬車”,語音識别的識别準确度再一次明顯提升,錯誤率再一次下降,并且在一部分資料集上實作了媲美人類語音識别的精度。

語音識别是智能語音範疇内的一個典型任務,除此之外,智能語音的任務還包括語音編碼、語音增強、關鍵詞檢出、聲紋識别等一系列任務,而智能語音技術能夠服務的方向主要包括三方面,一是自然人機互動,二是自然人人互動,還有就是内容分析與挖掘,垂直落地的應用非常多,場景廣泛,價值巨大。

智能語音涉及的具體方向衆多,而接下來我将圍繞着我們實驗室重點關注的三個方向——語音增強、語音識别和語音合成來展開介紹。

關于語音增強,這是一個非常經典的研究課題,它的基本目的是減少噪聲幹擾,提高語音品質。在麥克風拾音時,會遇到語音随距離增加而造成的衰減、信道畸變、房間混響、聲學回聲,各種噪聲幹擾和人聲幹擾等衆多問題。傳統的基于統計信号處理的語音增強可以提供良好的平穩噪聲抑制能力,而以資料驅動的深度學習方法則将非平穩的噪聲的抑制成為了可能。

關于深度學習在語音增強中的應用大緻可以分為三個階段,開始的研究工作主要圍繞基礎的Masking和Regression範式,當時的網絡的結構比較簡單,主要針對幅度譜模組化,損失函數主要是MSE。

在第二階段,研究者們展開了更大膽的嘗試,這展現在網絡結構的多樣化,包括CRN,Tasnet,生成對抗網絡(GAN)的使用和最近的Transfomer結構;而模組化也從時頻域延伸到直接在時域模組化;損失函數更更多樣化,包括MSE、SI-SNR和PESQ等形式。

而在現階段,AI降噪開始落地應用,包括TWS耳機、線上會議系統等場景,線上會議和直播背景等應用中,可能都已經有了AI語音增強網絡的嵌入,技術方面還出現了複數形式的網絡和各種更為精細化設計的網絡結構。此外,還有利用聲紋先驗資訊的個性化語音增強或稱之為目标說話人提取。

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

基于DCCRN複數神經網絡的語音增強

關于語音增強,我們實驗室的同學在去年的Interspeech上發表了Deep Complex Convolution Recurrent Network(DCCRN)這個工作,DCCRN采用經典的U-Net結構,在CRN的基礎上綜合了複數卷積以及LSTM瞬态模組化的優勢。

它在模型複雜度和低延時(40ms)的要求下,具有高性能降噪能力。在去年的Interspeech深度噪聲抑制競賽(DNS)的實時賽道中,取得了第一名的成績,這篇論文目前在google scholar上的引用已經達到了100次。基于深度學習語音增強的一個問題在于需要做降噪量和語譜保真上的折中。

在今年,我們在DCCRN的基礎上又提出了同時兼顧聽感與降噪的複數增強網絡DCCRN+,在具有高降噪量的同時,提升語音的保真度。它的貢獻主要包括,一個基于”可學習”的子帶劃分與合并,減少模型大小和計算複雜度;二是實作了頻域和時域序列同時模組化;三是通過“卷積通道”擷取編碼器每層輸出的更豐富的資訊;四是以信噪比估計作為輔助任務,降噪的同時提升聽感;五是在後進行中去除殘留噪聲。

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

DCCRN+:兼顧語音保真與降噪量的複數增強網絡

人們對于語音通話的體驗要求越來越高,比如更高采樣率、甚至具有空間方位感的沉浸式開會體驗。近期在DCCRN的基礎上,為了處理超帶寬的語音資料,我們還提出了超帶寬語音增強模型S-DCCRN,用于增強32KHz采樣率的帶噪語音。它的主要貢獻包括:

1.首先利用子帶DCCRN精細化學習高低頻資訊,然後全帶DCCRN結合高低頻資訊,起到平滑銜接作用;

2.同時,通過網絡學習動态調整不同頻帶能量;

3.在和16K降噪模型保持相同的較低頻率分辨率的同時,通過複數特征編碼從譜上擷取更多的資訊。

自去年推出DCCRN以來,目前已經在這個上面有很多擴充性的工作,包括我們自己的DCCRN+,S-DCCRN,以及同時做去混、降噪和分離的DesNet,阿裡、NTNU等機關也做了多通道上的擴充,值得注意的是近期微軟把DCCRN用于個性化語音增強即目标說話人增強,推出了pDCCRN方案。除了DCCRN系列,近期我們也推出了Uformer,基于複數和實數Unet和卷積核膨脹雙路Conformer,具有更為強大的能力。

接下來我們展開關于深度學習語音增強發展的相關讨論。目前,雖然基于AI的降噪已經有一定的應用,但是在很多場合,采用的還是基于信号處理的方案,而“AI降噪”在實際落地的時候,出于對于資源的考慮,很多精細設計的模型無法發揮優勢。如何将信号處理和深度學習有機的結合在一起也是值得深度探索的。

此外,語音增強除了給人聽外,另一個重要目的是為了更好的服務于包括語音識别在内的下遊任務,而現狀卻是深度學習語音增強給語音識别帶來的提升有限,甚至有些情況可能是副作用,這是因為語音識别通過多場景訓練政策已經考慮到了噪聲的影響,同時端到端語音識别模型的能力很強,深度學習語音增強處理過的語譜語音識别模型卻沒有見過。

我們可以嘗試在訓練過程中,把增強後的資料和原始資料同時加入,進行聯合訓練,甚至前後端聯合模組化。但是在實際使用中,我們往往希望完全解耦前後端,不希望聯合訓練。此外,更細緻、全面和快捷的資料仿真方案也可能會提升模型訓練後的效果。與此同時,而視覺、聲紋等先驗資訊的有效利用也是提升語音增強模型效果的重要途徑,近期我們也看到了這個方向上非常多有益的探索甚至開始落地。

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

WeNet語音識别工具包

關于語音識别,端對端的方案在這兩年得到了更廣泛的認可,大家可以關注下我們在解決領域适配或專有名詞識别不佳的Cascade RNNT方案以及簡化Conformer計算複雜度的方案。此外,我們釋出的WeNet作為一個輕量級端到端語音識别全棧解決方案,功能不斷豐富,包括對于語言模型的支援、端點檢測、時間戳對齊、以及預訓練模型的支援等等。衆多學術界和工業界的同行們也在圍繞它展開更多的擴充。

語音識别雖然已經在各個應用領域落地,但是仍然不能說是一個完全解決了的問題,因為實際應用場景面臨各種挑戰,總結而言挑戰主要包括魯棒性、低資源和複雜場景三個方面。

魯棒性的典型問題包括口音方言、語種混雜或多語種、領域适配等;低資源是指系統部署的資源有限和标注資料缺乏的場景,前者典型的是AIoT場景下各種端側裝置部署對模型大小、算力的限制,而标注資料缺乏也是限制語音識别走向各個垂域和語種的關鍵因素,因為垂域太多了,缺乏标注資料的小語種太多了;語音識别在部署時面臨的場景可能非常複雜,例如多人會議、自然對話等場景,各類複雜噪聲幹擾等。為了解決這些問題,無監督自學習、前後端一體化、語音語義一體化提供了可能。

接下來分享的是我們在端側部署指令識别上的相關工作。在端側部署進行指令識别時,遇到的最大的問題之一就是指令混淆的問題,比如控制空調的“二十一度”可能誤識别成“十一度”,兩個指令發音上很接近,語速一快可能就識别錯了。

對此,我們近期提出了最小序列混淆錯誤準則(Minimize sequential confusion error(MSCE) training)用于指令識别模型的判别式訓練。MSCE通過增加指令間區分度,來緩解混淆詞錯誤。雖然語音任務本身是序列标注任務,但是指令詞之間可以認為是單個分類任務,對于分類任務,可以使用MCE準則進行區分性訓練,增大類間區分性。

此外,使用CTC準則作為序列到類别的橋梁,在此基礎上增加指令間的區分性。感興趣的同學可以關注我們後續釋出的論文。實驗表明,MSCE在空調指令識别任務上有14--18%相對混淆錯誤的降低。第二個工作是關于多說話人的語音識别,我們提出了基于說話人條件鍊的非自回歸多說話人語音識别方案,疊代式地預測每個說話人的輸出,通過說話人條件鍊模組化每個輸出之間依賴性, 每次疊代使用 Conformer-CTC 進行非自回歸并行解碼 ,該方案可以處理不同混合說話人混合數目的語音。

在對話語音識别中,有效利用上下文資訊是非常直覺的想法。我們嘗試了進行跨句注意力機制模組化,通過在Transfomer中引入殘差注意力編碼器和條件注意力解碼器,引入額外的曆史資訊,進而在HKUST、Switchboard等資料集中實作了更好的識别效果。

還有一個工作的思路是通過語義去“反哺”語音,通過考慮對話局部連貫性、角色偏好、說話人輪轉等對話語音的獨特性,學習對話中的特征資訊,在多個代表資料集上的結果也說明了這一方案的有效性。

接下來給大家分享的是我們牽頭開源的幾個資料集。第一個是AISHELL-4,它是用于語音增強、分離、識别和說話人日志的中文會議場景語料庫,有120小時左右的時長。

另一個是AiMeeting 120小時會議語音資料集。這兩個都是真實會議場景錄制的多通道語音資料,特别适合會議場景的相關研究。基于這兩個語料庫,我們還在ICASSP2022上發起了M2MeT會議場景語音挑戰賽,包括說話人日志和多說話人語音識别兩個任務,同時提供了對應的基線系統。

還有一個就是新近開源的WenetSpeech資料集,它是全球最大的多領域中文語音識别資料集,通過從網絡上爬取内容非常豐富的中文語音資料,進行自動化标注和置信度篩選,最終獲得了超過1萬小時的高品質标注資料,利用該資料和WeNet工具包訓練的端到端語音識别模型在SpeechIO的leaderboard上獲得了業界SOTA的識别性能。

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

WenetSpeech:全球最大多領域中文語音識别資料集

最後來彙報一下我們在語音合成領域的一些探索。目前基于序列到序列模型和神經聲碼器的方案已經獲得了廣泛引用,甚至在一些限定領域獲得了媲美真人語音的效果,然而目前離真正“複刻”人類語音還有很長的路要走。

比如篇章合成、表現力和可控性、低質資料模組化、少樣本和單樣本音色克隆、完全端到端模組化、高表現力歌唱合成以及如何把說話和唱歌統一模組化做到一個統一的發音模型等。在這些方面,我們實驗室近期典型的探索介紹如下。可控對話TTS——實作拟人化的對話語音合成,甚至可以控制合成口語對話的講話流利程度。

MsEmoTTS是我們近期提出的一個多層級的情感語音合成方案,可以在一個模型架構裡實作情感遷移、預測和控制。我們的“單人千面”方案,在每個發音人隻有一種風格錄音的條件下,實作了有效的風格解耦與交叉,例如朗讀風格的發音人可以讀唐詩、做客服。

最後,我們在VITS端到端TTS的基礎上,做出了多方面的改進,進而又提出了一個端到端歌唱合成方案VISinger。另外,我們也将聯合網易伏羲等多家機關在Wenet開源社群開源一個中文歌唱合成資料庫,包括一個專業歌手100首左右的中文流行歌曲和高品質的标注,敬請關注。

西工大實驗室負責人謝磊教授:智能語音技術新發展與發展趨勢

基于端到端深度學習的語音合成:挑戰性問題

繼續閱讀