每個科幻迷都向往着在未來能像和老朋友對話一樣,用寥寥數語發動星際飛船,征服星辰大海;或者擁有鋼鐵俠的人工智能管家賈維斯,幾句對話就能造出一套納米戰甲。其實這個畫面離我們并不遠——就像 iPhone 中的 Siri 一樣同我們觸手可及。它的背後是自動語言識别技術(Automatic Speech Recognition)。這項關鍵技術能将語音轉換為計算機可識别的文字或指令,實作便捷、高效、智能的人機互動體驗。
而随着深度學習等 AI 技術的發展,語音識别技術已經取得了巨大的進步——不僅識别準确度大大提高,而且能夠更好地處理口音、噪聲和背景音等問題。但随着技術在生活和業務中的不斷應用,仍會遇到一些瓶頸,畢竟從理論研究到實際應用,從論文到産品,需要考慮太多的現實因素。如何讓語音識别更好地輔助内容稽核?如何讓識别動作本身也能像人腦一樣,根據對語境的了解,以更低的成本給出更準确的答案?網易智企旗下易盾 AI Lab 給出了新方法。
易盾又出黑科技,智企邁向全世界!
近日,全球語音、聲學會議ICASSP 2023 公布了論文入選名單,網易智企旗下易盾 AI Lab 送出的論文成功被錄用。今年是第 48 屆 ICASSP 大會,也是疫情後的第一屆線下大會,雖然大會官方還未公布最後錄用了多少篇論文,但論文投遞的數量相較往年上升了 50%,達到了驚人的 6,000+。
面對如此激烈的競争,網易智企易盾 AILab 團隊憑借一篇語音識别方向的論文《Improving CTC-based ASRModels with Gated Interplayer Collaboration(基于 CTC 的模型改進,實作更強的模型結構)》脫穎而出,成功拿到了前往希臘羅德島線下參會的門票。
“GIC”,助力語音識别更進一步
語音識别本質上是語音序列到文字序列的轉化,而要完成這樣的轉化,一般會用到三類模型,CTC、Attention-based 和 RNN-Transducer,它們在完成任務的時候采用了不同的路徑:
CTC:基于神經網絡模型,在訓練過程中通過反向傳播來更新模型參數以最小化損失函數。該算法引入了“空白符”來表示無意義字元或者間隔符号。CTC 适合處理輸入輸出長度相差較大的資料,如語音識别中将聲學特征映射為文本;
Attention-based:注意力機制,也是基于神經網絡模型,并且使用一種稱為“注意力”的技術來對輸入進行權重彙聚。在每個時間步驟上,該模型會根據目前狀态和所有輸入計算出一個分布式權重向量,并将其應用于所有輸入以産生一個權重平均值作為輸出。這種方式可以使得模型更好地關注與目前預測相關的部分資訊;
RNN-Transducer:轉錄器,這個算法結合了編碼器-解碼器架構和自回歸模組化思想,在生成目标序列時同時考慮源語言句子和已生成部分目智語言句子之間的互動作用。與其他兩種方法不同,RNN-Transducer 沒有明确區分編碼器和解碼器階段,并且直接從源語言到目智語言進行轉換,是以可以同時考慮源語言句子和已生成部分目智語言句子之間的互動作用。
相比後兩者,雖然 CTC 具有天然的非自回歸解碼性質,解碼速度相對快很多,但依然有着性能劣勢:
1. CTC 算法設定了條件獨立性假設,即 CTC 假設每個時間步的輸出之間是獨立的。這對語音識别任務來說并不合理,假如說“ji rou”這個發音,在不同的上下文中預測的文字内容應該不一樣的。如果上文是“我喜歡吃”,接下來“雞”的機率應該更高,同理如果上文是“他手臂有”,接下來“肌”的機率應該更高。如果通過 CTC 訓練,很容易就會在忽略上文的前提下,輸出“我喜歡吃肌肉”這樣好笑的文本;
2.從模組化的視角來看,Attention-based模型和 RNN-Transducer 模型根據輸入和之前時間步的輸出預測目前時間步的輸出,而 CTC 模型僅僅利用輸入來預測當下的輸出,在 CTC 模型的模組化過程中,文本資訊僅僅是作為一種監督信号回傳給網絡,并沒有作為網絡的輸入顯式促進模型的預測。
我們希望能在保留 CTC 解碼效率的同時,盡可能地解決以上兩點劣勢。于是,我們想從 CTC 模型本身出發,設計輕量級的子產品給基于 CTC 的模型引入文本資訊,使得模型能夠整合聲學和文本資訊,學習到文本序列上下文之間的互相作用,進而緩解 CTC 算法的條件獨立性假設。但過程中,我們碰到了兩個問題:如何在CTC模型(Encoder +CTC 結構)裡注入文本資訊?如何自适應地融合文本特征和聲學特征?
為了實作上述目标,我們設計了 Gated Interlayer Collaboration(簡寫為GIC)機制。GIC 子產品主要包含一個嵌入層(embedding layer)和一個門控單元(gate unit)。其中,嵌入層用于生成每一音頻輸入幀的文本資訊,門控單元用于自适應地融合文本資訊和聲學資訊。
具體地,我們的方法基于多任務學習(Multi-taskLearning)架構,利用編碼器子產品(Encoder)中間層的輸出計算輔助 CTC loss,整個網絡的目标函數是最後一層的 CTC loss 和中間層輔助 CTC loss 的權重和。GIC 将網絡中間層的預測,即 Softmax 輸出的機率分布作為每一幀的軟标簽,點乘嵌入層矩陣之和作為每一幀的文本表征。最後,生成的文本表征和聲學表征通過一個門控單元自适應地融合,成為一個新特征輸入到下一層。此時的新特征融合了文本特征和聲學特征,使得下一層的 Encoder 子產品可以學習到聲學序列上下文資訊和文本序列上下文資訊。整個模型的架構如下圖所示:
在 Conformer 和 Transformer 這兩個模型上的實驗表明:
1. GIC 同時支援漢語和英語的場景識别,同時準确度均取得了顯著的性能提升;
2. GIC 模型性能超過了同參數規模的Attention-based 和 RNN-transducer 模型,并且具有非自回歸解碼的優勢,帶來數倍的解碼速度提升;
3. 相對原始的 CTC 模型,GIC 在多個開源資料集有遠超 10% 的相對性能提升。
Conformer 模型下的結論
Transformer 模型下的結論
GIC 為 CTC 模型的性能帶來了很大的提升。相對原始的 CTC 模型,GIC 子產品大約帶來2M 的額外參數,其中,計算中間層輔助 CTC loss 所用的線性層與最後一層是共享的,不會帶來額外的參數。多個中間層共享嵌入層,帶來 256*5000 約等于 1.3M 的參數。除此之外,多個門控單元的參數是 256*256*2*k,合計約 0.6M 的額外參數量。
領先技術造就先進業務
論文中的 GIC 已經應用在了網易易盾的内容稽核業務中。
作為網易智企旗下一站式數字内容風控品牌,易盾長期專注于數字内容安全風控和反垃圾資訊的技術研發和創新。其中,針對以聲音作為載體的數字内容,易盾提供了多種音頻内容稽核引擎,包括歌曲、廣播、電視節目、直播等各種類型的音頻内容,及時檢測和過濾含有敏感、違規、低俗,廣告内容的語音,進而減少不良内容的社會影響,營造良好的網絡環境。
針對有具體語義内容的音頻,易盾通過語音識别技術将音頻檔案中的語音内容轉寫為文字内容,再利用檢測子產品分析和處理文本,進而實作對音頻内容的自動化稽核和過濾。是以,語音識别的準确率與音頻内容的稽核效率和準确性是息息相關的,會直接影響到客戶開展業務的安全與穩定。
論文中的 GIC 在内容稽核中的應用取得了顯著的效果提升。在實際的應用過程中,需要調試的超參數有兩個,分别是多任務學習系數 lambda 和中間層層數 k。在18 層編碼器結構中我們發現 k=5,lambda=0.5 有較好的實驗效果。接着,我們會從這個設定開始嘗試,不斷微調以确定最優的超參數。
?
幕後英雄:網易智企易盾 AI Lab
這不是易盾 AI Lab 團隊第一次獲得這樣規格的榮譽。
作為網易智企下設的始終走在人工智能研究前沿的技術團隊,易盾 AI Lab 緻力于圍繞精細化、輕量化、靈活化打造全面嚴謹、安全可信的 AI 技術能力,不斷提升數字内容風控服務水準。在這之前,團隊曾獲得多項 AI 算法競賽冠軍及重要獎勵榮譽:
2019 年第一屆中國人工智能大賽 旗幟識别賽道最進階 A 級證書
2020 年第二屆中國人工智能大賽 視訊深度僞造檢測賽道最進階 A 級證書
2021 年第三屆中國人工智能大賽 視訊深度僞造檢測和音頻深度僞造檢測賽道兩項最進階 A 級證書
2021 年中國人工智能産業發展聯盟“創新之星”、“創新人物”
2021 年第十六屆全國人機語音通訊學術會議(NCMMSC2021)“長短視訊多語種多模态識别競賽”—漢語長短視訊直播語音關鍵詞(VKW)雙賽道冠軍
2021 年獲得浙江省政府頒發的科學技術進步獎一等獎
2022 年 ICPR 多模态字幕識别比賽(Multimodal Subtitle Recognition, 簡稱 MSR 競賽,國内首個多模态字幕識别大賽)賽道三“融合視覺和音頻的多模态字幕識别系統”冠軍
未來已來,AI 的 iPhone 時刻已至。今天,易盾成功登上了語音學的學術殿堂;未來,技術将成就業務的方方面面,而網易易盾将始終伴您左右。
(8197004)