天天看點

雲從科技重新整理一項語音識别紀錄:将 Librispeech 資料集上的錯詞率降至 2.97%

雲從科技重新整理一項語音識别紀錄:将 Librispeech 資料集上的錯詞率降至 2.97%

雲從科技

+4 AI影響因子

活動

企業:雲從科技

操作:重新整理記錄

事項:雲從科技重新整理一項語音識别紀錄

雷鋒網(公衆号:雷鋒網) AI 科技評論按:10 月 29 日,雲從科技宣布在全球最大的開源語音識别資料集 Librispeech 上,将錯詞率(Worderrorrate,WER)降到了 2.97%,并将 Librispeech 的 WER 名額提升了 25%,超過阿裡、百度、約翰霍普金斯大學等企業及高校,重新整理了原先記錄。

将 Librispeech 資料集上的錯詞率降至 2.97%

Librispeech 是目前衡量語音識别技術的最權威主流的開源資料集,錯詞率(Worderrorrate,WER)是衡量語音識别技術水準的核心名額。

雲從科技重新整理一項語音識别紀錄:将 Librispeech 資料集上的錯詞率降至 2.97%

 DS2:百度,ESPnet:約翰霍普金斯大學,DFSMN-CE:阿裡

雲從科技在 Librispeech 資料集上将錯詞率(Worderrorrate,WER)降到了 2.97%,較之前提升了 25%。這項成果有利于語音識别技術的進步,也有助于推動語音識别帶來良好的智慧互動體驗。

雲從科技此次推出的語音識别模型 Pyramidal-FSMN 融合圖像識别與語音識别的優勢,将殘差卷積網絡和金字塔記憶子產品的序列記憶網絡相結合, 能夠同時有效的提取空間和時間上不同粒度的資訊,對比目前業界使用最為廣泛的 LSTM 模型,訓練速度更快、識别準确率更高。

語音識别技術近年進展

2017 年 3 月,IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。「集中擴充深度學習應用技術終于取得了 5.5% 錯詞率的突破」。相對應的是去年 5 月的 6.9%。

2017 年 8 月,微軟釋出新的裡程碑,通過改進微軟語音識别系統中基于神經網絡的聽覺和語言模型,在去年基礎上降低了大約 12% 的出錯率,錯詞率為 5.1%,聲稱超過專業速記員。相對應的是去年 10 月的 5.9%,聲稱超過人類。

2017 年 12 月,谷歌釋出全新端到端語音識别系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。相對于強大的傳統系統有 16% 的性能提升。

2018 年 6 月,阿裡巴巴達摩院推出了新一代語音識别模型 DFSMN,将全球語音識别準确率紀錄提高至 96.04%,錯詞率降低至 3.96%。

2018 年 10 月,雲從科技釋出全新 Pyramidal-FSMN 語音識别模型,将錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

Pyramidal-FSMN 語音識别模型原了解析

雲從科技提出的新型網絡結構,能更加有效的提取空間和時間特征的角度,為語音識别進一步發展提供了一些新的思路: 

模型設計采用一種殘差卷積網絡和金字塔記憶子產品的序列記憶網絡相結合的結構; 

訓練方式使用 lattice-free 最大互資訊(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(cross entropy,CE)損失函數相結合的多任務學習技術;

解碼部分采取 RNNLM rescoring 的方式,利用 RNN 提取一個句子中的長期語義資訊,進而更有效地幫助聲學模型得到準确的句子。

如下圖所示,作者采用了由 6 層 Residual CNN 和 10 層 Pyramidal-FSMN 相結合的網絡結構。前端網絡借鑒了圖像識别中經典的 Residual CNN 結構,更有效地提取特征與時間互相的關聯資訊,同時 skip connection 避免了 CNN 網絡加深之後梯度消失和梯度爆炸問題。在金字塔記憶子產品中,淺層的網絡主要聚焦于音素本身的特征學習,是以隻需抽取短時上下文資訊,而深層的網絡由于已經學習到了足夠的固定時間的音素資訊,需要學習長時間包括語義和文法特征,是以深層抽取長時間的上下文資訊。利用這樣的金字塔結構,既能減少參數,縮小模型結構,也能更加精巧的模拟人類處理語音信号的過程,提高識别效果。

雲從科技重新整理一項語音識别紀錄:将 Librispeech 資料集上的錯詞率降至 2.97%

在損失函數部分,作者采用了基于 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導緻過拟合的問題,又引入了傳統的交叉熵損失函數,在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術,通過設定交叉熵的正則化系數,兩個目标能夠有效地學習并且避免過拟合問題。

最後,作者使用了 RNNLM rescoring 技術對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下,Pyramidal-FSMN 已經達到了目前最好的結果,rescoring 之後又有了更進一步的提升。

聲學模型和 RNNLM 的訓練資料完全基于 Librispeech 和通用的語言模型資料集,并沒有額外引入其他的訓練資料這樣的「技巧」性政策。

論文位址:https://arxiv.org/abs/1810.11352

相關介紹:

LibriSpeech 資料集:世界最大的免費語音識别資料庫,包含文本和語音的有聲讀物資料集,由 1000 小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。雷鋒網雷鋒網