天天看點

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

作者:LiveVideoStack

▲掃描圖中二維碼或點選閱讀原文▲

了解音視訊技術大會更多資訊

一直以來,火山語音團隊都為時下風靡的視訊平台提供基于語音識别技術的智能視訊字幕解決方案,簡單來說就是可以自動将視訊中的語音和歌詞轉化成文字,來輔助視訊創作的功能。但伴随平台使用者的快速增長以及對語言種類更加豐富多樣的要求,傳統采用有監督學習技術來解決的辦法日漸遭遇瓶頸,這讓團隊着實犯了難。

衆所周知,傳統的有監督學習會對人工标注的有監督資料産生嚴重依賴,尤其在大語種的持續優化以及小語種的冷啟動方面。以中文國語和英語這樣的大語種為例,盡管視訊平台提供了充足的業務場景語音資料,但有監督資料達到一定規模之後,繼續标注的ROI将非常低,必然需要技術人員考慮如何有效利用百萬小時級别的無标注資料,來進一步改善大語種語音識别的效果。

相對小衆的語言或者方言,由于資源、人力等原因,資料的标注成本高昂。在标注資料極少的情況下(10小時量級),有監督訓練的效果非常差,甚至可能無法正常收斂;而采購的資料往往和目标場景不比對,無法滿足業務的需要。

為此火山語音團隊迫切需要研究如何以盡可能低廉的标注成本充分利用大量的無标注資料,提升少量标注資料下的識别效果并落地到實際業務中,是以無監督預訓練技術成為視訊平台ASR(Automatic Speech Recognition / 自動語音識别)能力向小語種推廣的關鍵。

盡管近年來學術界在語音無監督預訓練領域取得了許多重大進展,包括Wav2vec2.0 [1]、HuBERT [2]等,但在工業界卻鮮有落地案例可以參考借鑒。整體來看,火山語音團隊認為,以下三方面主要原因,阻礙了無監督預訓練技術的落地:

  1. 模型參數量大、推理開銷大。大量無标注資料需要用較大的模型做無監督預訓練,才能得到高品質的語音表征,但這樣的模型如果直接部署到線上,會帶來高昂的推理成本。
  2. 無監督預訓練隻關注語音表征的學習,需要結合大量純文字訓練的語言模型聯合解碼才能達到理想效果,和端到端ASR推理引擎不相容。
  3. 無監督預訓練開銷大、周期長且不穩定。以Wav2vec2.0為例,300M參數量的模型用64張V100 GPU預訓練60萬步,耗時長達半個月;此外由于資料分布的差異,在業務資料上訓練容易發散。

對此火山語音團隊在基于無監督預訓練的語音識别技術落地過程中,針對以上三大痛點進行了算法改進和工程優化,形成一套完整易推廣的落地方案。本文将針對方案,從落地流程、算法優化以及工程優化等環節展開詳盡介紹。

落地流程

下圖是基于無監督預訓練的低資源語種ASR的落地流程,大緻可以劃分為資料收集、種子模型訓練和模型遷移三個階段。

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

圖1 基于無監督預訓練的ASR落地流程

具體來說,第一階段的資料收集,可以通過語種分流、采購等手段收集目智語言的無标注語音、标注語音和純文字資料。

第二階段的種子模型訓練,也就是經典的“無監督預訓練+有監督微調”過程。這一階段将得到一個聲學模型,通常基于連接配接時序分類(Connectionist Temporal Classification, CTC [3])損失函數微調。聲學模型結合純文字訓練的語言模型,構成一個完整的語音識别系統,可以取得不錯的識别效果。之是以稱之為種子模型,是因為這個模型并不适合直接上線到業務,我們更傾向于使用LAS(Listen, Attend and Spell [4])或RNN-T(Recurrent Neural Network Transducer [5])這類端到端模型進行線上部署。

歸其原因,主要是LAS/RNN-T具有出色的端到端模組化能力,同時在近年來已經取得了優于傳統CTC模型的效果,并在工業界得到越來越多的應用。火山語音團隊針對端到端語音識别模型的推理和部署做了大量優化工作,已形成一套相對成熟的方案,并支援衆多業務。在維持效果無損的前提下,如果可以沿用端到端推理引擎,就能大幅降低引擎的運維成本。

基于此團隊設計了第三階段,即模型遷移階段。主要借鑒知識蒸餾的思想,用種子模型對無标注資料打僞标簽,然後提供一個參數量較小的LAS模型做訓練,同步實作了模型結構的遷移和推理計算量的壓縮。整個流程的有效性在粵語ASR上得到驗證,具體實驗結果如下表所示:

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

首先,團隊采購了1kh成品資料用于實驗對比,直接訓練LAS模型性能不佳,字錯率(Character Error Rate, CER)高達44.2%。經過分析,火山語音認為主要原因是采購資料(對話)和業務測試集(視訊)領域不比對,在wav2vec2.0上的初步實驗也發現了類似的現象。

相比用采購資料做預訓練,采用和目标領域一緻的資料做預訓練,在業務測試集上的CER可以從42.0%下降到29.4%,于是團隊将業務場景的無标注資料積累到50kh,模型參數量從100M增加到300M,CER進一步下降到23.1%。

最後團隊驗證了模型遷移的效果,結合粵語語言模型對50kh無标注資料解碼得到僞标簽,訓練LAS模型。可以看到,基于僞标簽訓練的LAS模型基本可以保持CTC種子模型的識别效果且模型參數量減少了三分之一,可以直接基于成熟的端到端推理引擎部署上線。

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

圖2 模型參數量和CER對比

最終在模型結構和參數量不變的前提下,團隊用50kh無标注業務資料和10h有标注業務資料取得了23.0%的CER,相對基線模型下降48%。解決了線上計算量和相容性的問題之後,聚焦到整個流程中最為核心的無監督預訓練技術,針對wav2vec2.0,火山語音團隊分别從算法和工程兩個次元進行了優化。

算法優化

wav2vec2.0作為Meta AI在2020年提出來的自監督預訓練模型,開啟了語音無監督表征學習的新篇章。其核心思想在于用量化子產品将輸入特征離散化,并通過對比學習優化,模型主體與BERT類似,随機mask部分輸入特征。

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

圖3 wav2vec2.0模型結構示意圖(來源:wav2vec 2.0 Figure 1 [1])

對此在業務資料上訓練wav2vec 2.0模型遇到了兩個棘手的問題:一個是訓練效率低,300M的大模型64卡需要十幾天才能訓完;另一個是訓練不穩定,容易發散。為此團隊提出Efficient wav2vec以緩解上述兩個問題:

對于訓練效率低的問題,團隊通過降低模型的幀率來加快訓練速度,将輸入特征從waveform替換成filterbanks,幀率由原來的20ms變成40ms。這樣既大幅降低了特征提取卷積的計算量,同時也大幅降低了Transformer内部編碼的長度,進而提高訓練效率。對于訓練不穩定的問題,則是通過分析無監督預訓練的學習方式并結合業務資料實際情況綜合判斷解決,對比學習損失可以用下式表達:

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

對于每一幀t,Ct表示該幀的編碼器輸出,qt表示該幀的量化輸出。除此之外,還需要采樣若幹其它幀作為負樣本,進而目前幀與負樣本幀的集合就相當于是動态構造的詞表Qt。

對比學習的優化目标就是最大化目前幀編碼與該幀量化結果的相似度,同時最小化目前幀編碼與其它幀量化結果的相似度。不難發現,負樣本與正樣本的相似度以及負樣本個數這兩點直接決定了對比學習的效果;而在實際操作中,業務資料的平均長度較短,一句話僅能提供50個負樣本,是遠遠不夠的;同時考慮到語音相鄰幀之間的相似度很高,需要保證mask區域的連續,進而提高表征重構的難度。

為了解決上述兩個問題,火山語音對應提出了兩點改進:

  1. 等長資料流:預訓練過程中将整個訓練集視為由每句話首尾拼接而成的一段音頻,每個訓練樣本從中截取固定長度得到,這樣做是為了保證負樣本數量足夠多,且上下文編碼網絡内部的長度在不同幀率下一緻,進而保證訓練的穩健性。
  2. 自适應連續mask:為緩解資料噪音對訓練的影響,選取較小的mask長度且強制每個mask區域連續,并且mask區域對應的音頻長度在不同幀率下相當。這樣既減輕了噪音資料下對比學習的難度,同時也做到了适配不同的幀率。

在業務資料上對比了wav2vec2.0(w2v)與 Efficient wav2vec (w2v-e)的效果,如下表所示(所有模型均采用64 V100 GPUs訓練):

基于無監督預訓練的語音識别技術落地實踐 火山語音表示有話要說

可以看到改進過的Efficient wav2vec相對原始wav2vec 2.0有穩定5%的性能提升,并且訓練效率接近翻倍。

工程優化

盡管團隊提出的Efficient wav2vec已經從算法層面将訓練效率提升近兩倍,但由于300M模型通信量大,訓練通信依然存在波動且多機擴充效率低。對此火山語音團隊總結道:“為了提高模型預訓練在同步梯度場景下的通信效率,我們基于BytePS的分布式訓練架構,在通信後端完成了Bucket分組通信優化技術,資料并行效率能取得10%的提升;同時針對模型參數定義順序與梯度更新順序不同造成的等待問題,還實作了自适應的參數重排(Parameter Reorder)政策。”在這些優化基礎上,進一步結合梯度累加等技術,300M模型的單卡擴充效率由55.42%提升至81.83%,多機擴充效率由60.54%提升至91.13%,原來需要6.5天訓完的模型現在隻需要4天就可以訓完,耗時縮短40%。

此外,為了支援未來探索的大模型大資料場景,火山語音工程團隊進一步完成了一系列超大規模模型的原子能力建設。首先實作了local OSS技術,在去除優化器大部分的備援記憶體占用的同時,解決了機間擴充效率問題;之後在同步梯度通信上支援了bucket lazy init,減少了一倍參數量的顯存占用,能大幅降低顯存峰值并适配顯存資源緊張的超大模型場景;最後在資料并行的基礎上,還支援了模型并行和流水線并行,并在1B和10B模型上完成了驗證和定制化支援。這一系列優化為大模型大資料的訓練打下堅實基礎。

目前,通過采用低資源ASR落地流程,已有兩個低資源語言成功落地視訊字幕和内容安全業務。除語音識别外,基于wav2vec2.0的預訓練模型在其他多個下遊任務上也已取得顯著收益,涉及音頻事件檢測、語種識别、情感檢測等,未來将陸續落地到視訊内容安全、推薦、分析、音頻分流、電商客服情感分析等相關業務中。無監督預訓練技術的落地将顯著降低各類音頻資料的标注成本,縮短标注周期,實作對業務需求的快速響應。

總結與展望

火山語音團隊在實踐中摸索出一套基于wav2vec2.0的低資源語種ASR落地方案,解決了推理開銷大的問題,實作了與端到端引擎的無縫銜接。針對其中最核心的wav2vec2.0訓練效率低和不穩定的問題,提出了Efficient wav2vec。相比wav2vec2.0,在下遊任務上效果提升5%,預訓練耗時縮短一半,結合工程上的優化,最終預訓練耗時相比原始版本縮短70%。未來,火山語音團隊将在以下三個方向持續挖掘探索:

  1. 無監督算法更新:在wav2vec 2.0之後語音無監督預訓練的研究工作如雨後春筍,團隊将持續跟進最新的研究,并内化到業務場景。現階段主要嘗試了HuBERT[2]、MAE[6] 和 data2vec[7]等無監督模型,并探索了它們各自在不同下遊任務下的表現。未來将從兩個方面提升無監督模型性能:根據不同業務場景,設計高效适配的無監督方案;設計通用的無監督模型,提升在各類下遊任務的性能表現。
  2. 多語言多模态:目前無監督與多語言結合的研究工作有許多,比如XLSR[8]。團隊在此基礎上提出了S3Net[9],其通過在預訓練模型中劃分出多個稀疏子網絡來分别對不同語言進行模組化,有效緩解了不同語言之間的互相幹擾(Language Interference)問題,對大語料語言有明顯的性能提升效果。現有的研究工作主要集中在音頻編碼器端進行,而目前主流的端到端模型均采用了編碼器-解碼器結構,即音頻文本多模态模組化。團隊判斷單純的音頻端預訓練已經不能滿足端到端模型的需要,未來将在音頻文本多模态預訓練上進行探索工作,分别是海量非對齊音頻文本與端到端模型聯合模組化以及純無監督的多模态預訓練。
  3. 大資料大模型:現有的模型在10萬小時規模時其性能就接近飽和,團隊在中文10萬小時标注資料訓練的模型基礎上,利用100萬小時無标注資料做NST[10]訓練,在通用測試集上取得相對7%的CER下降,同時模型的泛化能力得到明顯的改善,在20個領域測試集上平均CER相對下降15%。要充分吸收百萬小時量級的海量資料就需要更大的模型,目前團隊已經在1B參數量級的模型上取得初步進展。大模型的性能上限高,随之而來的問題是落地難。為了将大模型落地到實際業務中,未來将嘗試各種模型壓縮方法,如矩陣分解、權重裁剪和知識蒸餾等,盡可能做到無損壓縮效果。

火山語音,長期以來面向位元組跳動各大業務線以及火山引擎ToB行業與創新場景,提供全球領先的AI語音技術能力以及卓越的全棧語音産品解決方案,包括音頻了解、音頻合成、虛拟數字人、對話互動、音樂檢索、智能硬體等。目前團隊的語音識别和語音合成覆寫了多種語言和方言,多篇技術論文入選各類AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico等業務提供了領先的語音能力,并适用于短視訊、直播、視訊創作、辦公以及穿戴裝置等多樣化場景,通過火山引擎開放給外部企業。

參考文獻

[1] Baevski, A., Zhou, Y., Mohamed, A. and Auli, M., 2020. wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, pp.12449-12460.

[2] Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R. and Mohamed, A., 2021. Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, pp.3451-3460.

[3] Graves, A., Fernández, S., Gomez, F. and Schmidhuber, J., 2006, June. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).

[4] Chan, W., Jaitly, N., Le, Q. and Vinyals, O., 2016, March. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. In 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 4960-4964). IEEE.

[5] Graves, A., 2012. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711.

[6] He, K., Chen, X., Xie, S., Li, Y., Dollár, P. and Girshick, R., 2022. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16000-16009).

[7] Baevski, A., Hsu, W.N., Xu, Q., Babu, A., Gu, J. and Auli, M., 2022. Data2vec: A general framework for self-supervised learning in speech, vision and language. arXiv preprint arXiv:2202.03555.

[8] Conneau, A., Baevski, A., Collobert, R., Mohamed, A. and Auli, M., 2020. Unsupervised cross-lingual representation learning for speech recognition. arXiv preprint arXiv:2006.13979.

[9] Lu, Y., Huang, M., Qu, X., Wei, P. and Ma, Z., 2022, May. Language adaptive cross-lingual speech representation learning with sparse sharing sub-networks. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6882-6886). IEEE.

[10] Park, D.S., Zhang, Y., Jia, Y., Han, W., Chiu, C.C., Li, B., Wu, Y. and Le, Q.V., 2020. Improved noisy student training for automatic speech recognition. arXiv preprint arXiv:2005.09629.

*封面圖來自Pexels

▼識别二維碼或猛戳下圖訂閱課程▼

繼續閱讀