預告：解讀全新聲學模型與算法：2016 年語音識别的重大進步丨硬創公開課

2021-11-10 00:39:04

在去年的錘子釋出會中，羅永浩現場示範了訊飛輸入法後讓使用者意識到當下語音識别能力的強大。當然，語音識别在安靜環境、常用字詞、發音标準情況下已非常成熟，但在複雜環境下如遠場識别、帶噪聲識别等情況下仍有一定的提升空間。

2016 年語音識别領域有着不小的進展，其主要展現在模型方面的突破：

deep

cnn 模型大熱，百度把 deep cnn 應用于語音識别聲學模組化中，将其與基于 lstm 和 ctc

的端對端語音識别技術相結合，大大提升了語音識别能力；微軟則是把 resnet 應用于語音識别，在産業标準 switchboard

語音識别基準測試中，實作了詞錯率(wer)低至 5.9% 的新突破；科大訊飛也推出了全新的深度全序列卷積神經網絡 dfcnn。

與此同時，新的深度學習開源架構層出不窮，開發者做語音識别到底是用 kaldi 這類傳統架構還是用 tensorflow 這類新型架構呢？

針對上述幾大話題，雷鋒網(公衆号：雷鋒網)硬創公開課特邀供職于阿裡巴巴最神秘的研究部門 idst 的語音專家薛少飛博士，從聲學模型和算法角度深入講述 2016 年語音識别領域的重大突破。

薛少飛，阿裡巴巴

idst

語音識别專家，中國科學技術大學博士。現負責阿裡聲學模型研究與應用：包括語音識别聲學模組化和深度學習在業務場景中的應用。博士期間的研究方向為語音識别說話人自适應，提出基于

speaker code 的模型域自适應方法，在語音相關的會議和期刊上發表論文十餘篇。

本期公開課内容将包括但不限于：

語音識别領域的最新進展。

詳解阿裡的聲學模型。

deep cnn 的原理，相比于之前的 lstm、rnn、ctc 模型有哪些不同和優勢。

介紹不同機關提出的 deep cnn 結構，如科大訊飛提出的深度全序列卷積神經網絡 dfcnn 等。

resnet 在語音識别中的應用。

對比傳統語音識别開源架構（kaldi、cmu sphinx、julius）與深度學習開源架構（cntk、tensorflow）

活動詳情

主題：解讀全新聲學模型與算法：2016 年語音識别的重大進步

嘉賓：薛少飛

時間：1 月 19 日周四晚上 20:00

形式：鬥魚直播+微信群與嘉賓問答互動

位址：硬創公開課鬥魚直播間（房間号：788495）

本期雷鋒網硬創公開課将會有【鬥魚直播+微信群問答】兩個環節。嘉賓直播授課分享結束後，将會在微信群與群友問答互動。

為了打造高品質且細分的讀者交流群，我們需要您送出一些基本資料作簡單稽核，而本次公開課讀者群将優先 nlp 相關從業者和學生進入。

掃描下方海報上的二維碼，進入雷鋒網人工智能垂直微信公衆号【ai 科技評論】後，可獲得詳細入群方式。

本文作者：亞峰

繼續閱讀