天天看點

語音識别六十年

    語音識别的研究起源可以追溯到上世紀 50 年代,AT&T貝爾實驗室的 Audry 系統率先實作了十個英文數字識别。 

  從上世紀 60 年代開始,CMU 的 Reddy 開始進行連續語音識别的開創性工作。但是這期間進展緩慢,以至于貝爾實驗室的約翰·皮爾斯(John Pierce)認為語音識别是幾乎不可能實作的事情。

  上世紀 70 年代,計算機性能的提升,以及模式識别基礎研究的發展,促進了語音識别的發展。IBM、貝爾實驗室相繼推出了實時的 PC 端孤立詞識别系統。

  上世紀 80 年代是語音識别快速發展的時期,引入了隐馬爾科夫模型(HMM)。此時語音識别開始從孤立詞識别系統向大詞彙量連續語音識别系統發展。

  上世紀 90 年代是語音識别基本成熟的時期,但是識别效果離實用化還相差甚遠,語音識别的研究陷入了瓶頸。

  關鍵突破起始于 2006 年。這一年辛頓(Hinton)提出深度置信網絡(DBN),促使了深度神經網絡(Deep Neural Network,DNN)研究的複蘇,掀起了深度學習的熱潮。

  2009 年,辛頓以及他的學生默罕默德(D. Mohamed)将深度神經網絡應用于語音的聲學模組化,在小詞彙量連續語音識别資料庫 TIMIT 上獲得成功。

  2011 年,微軟研究院俞棟、鄧力等發表深度神經網絡在語音識别上的應用文章,在大詞彙量連續語音識别任務上獲得突破。國内外巨頭大力開展語音識别研究。

  2017 年 3 月,IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。“集中擴充深度學習應用技術終于取得了 5.5% 錯詞率的突破”。相對應的是去年 5 月的 6.9%。

  2017 年 8 月,微軟釋出新的裡程碑,通過改進微軟語音識别系統中基于神經網絡的聽覺和語言模型,在去年基礎上降低了大約 12% 的出錯率,錯詞率為 5.1%。相對應的是去年 10 月的 5.9%,聲稱超過人類。

  2017 年 12 月,谷歌釋出全新端到端語音識别系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。相對于強大的傳統系統有 16% 的性能提升。

  2018 年 6 月,阿裡巴巴達摩院推出了新一代語音識别模型 DFSMN,将全球語音識别準确率紀錄提高至 96.04%,錯詞率降低至 3.96%。

  2018 年 10 月,雲從科技釋出全新 Pyramidal-FSMN 語音識别模型,錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%,将全球語音識别準确率紀錄提高至 97.03%,超過受過嚴格訓練的專業人類速記員。

    從這些資料來看,語音識别的重大進展,也就是從2006年開始的,現在的線上體驗算是不錯了,接下來就是看看怎麼把離線的體驗做好,用到很多物聯網裝置上了。

語音識别六十年