語音識别的研究和發展情況基本分為三個主要時期:
2011年之前
沒什麼進展
2011年—2014年
第一個基于深度學習的語音識别系統。此後有了更多的資料,雲計算後,一些公司均采用深度學習技術。
2015年至今
遞歸神經網絡與注意力模型、記憶網絡以及其他技術一起,掀起了第三次發展的浪潮。
機器所識别的語音可能包括一部分噪聲,是以要求其能夠從噪聲中提取出與對話相關的部分并将其轉化為有意義的文字。
語音識别系統的基本構造塊
語音識别基本分為三個部分:
- 信号位準:信号位準的目的是提取語音信号并增強信号(如果有必要的的話),或是進行适當預處理、清理和特征提取。
- 噪聲位準:噪音位準的目的在于将不同的特征劃分成不同的聲音。換句話說,聲音本身并不能提供一個足夠精準的标準,而有時我們将次于原聲的聲音稱為聲學标準。
- 語言位準:因為我們假設這些聲音都是人類所産生而且是有意義的,是以我們可以把這些聲音組合成詞語,然後把這些詞語組合成句子。
評級标準
人們對語音識别系統的評價都基于一個名為配電盤(SWBD)的行業标準。(SWBD)是一個語音語料庫,整合了電話中的即興對話,包含音頻和人聲的副本。
語音識别系統的評價标準主要基于其誤字率(WER),誤字率是指語音識别系統識别錯誤的單詞有多少。
從2008年得到2011年,誤字率一直處于一個穩定的狀态,位于23%到24%之間;深度學習從2011年開始出現時,誤字率從23%降低至5.5%。
在信号位準中,有着不同的基于神經模型從信号中提取和增強語音本身的技術。同時,還有能夠用更加複雜高效的基于神經模型的方法取代經典特征提取方法的技術。
聲音和語言位準也包含有各種各樣不同的深度學習技術,無論是聲音等級分類還是語言等級分類,都采用了不同類型基于神經模型的架構。