天天看點

為提升線上語音識别效率,他創造了兩種更新版算法模型

近日,阿裡算法專家坤承攜《使用改進版本的latency-controlled blstm 算法模型提升線上語音識别效率》(improving latency-controlled blstm acoustic models for online speech recognition)參與icassp2017大會。

為提升線上語音識别效率,他創造了兩種更新版算法模型

論文作者坤承與參會者交流

論文研究的出發點在于,為了能夠取得更好的語音識别準确率,在聲學模型模組化中使用了latency-controlled blstm 模型。

詳見95188:blstm-dnn hybrid語音識别聲學模型的第一個工業應用

<a href="https://yq.aliyun.com/articles/2308?spm=5176.100240.searchblog.7.zwq29m">https://yq.aliyun.com/articles/2308?spm=5176.100240.searchblog.7.zwq29m</a>

與标準的blstm使用整句語音進行訓練和解碼不同,latency control blstm使用類似truncated bptt的更新方式,并在cell中間狀态處理和資料使用上有着自己的特點,如下圖所示:

為提升線上語音識别效率,他創造了兩種更新版算法模型

訓練時每次使用一小段資料進行更新,資料由中心chunk和右向附加chunk構成,其中右向附加chunk隻用于cell中間狀态的計算,誤差隻在中心chunk上進行傳播。時間軸上正向移動的網絡,前一個資料段在中心chunk結束時的cell中間狀态被用于下一個資料段的初始狀态,時間軸上反向移動的網絡,每一個資料段開始時都将cell中間狀态置為0。該方法可以很大程度上加快網絡的收斂速度,并有助于得到更好的性能。解碼階段的資料處理與訓練時基本相同,不同之處在于中心chunk和右向附加chunk的次元可以根據需求進行調節,并不必須與訓練采用相同配置。lc-blstm的優點在于能夠在可接受的解碼延遲下保持blstm聲學模型的識别準确率,進而使得blstm可以被用于線上語音識别服務。

lc-blstm的上述優點是以增加計算量為代價的,為了取得更好的識别準确率,在解碼時通常需要比較長的右向附加chunk,這會增加額外的計算資源消耗,提高計算成本。如下圖所示,右向附加chunk也是使用blstm進行計算,在nc=30,nr=30的情況下,計算量将是傳統blstm的兩倍。

為提升線上語音識别效率,他創造了兩種更新版算法模型

本論文的主要貢獻在于提出了兩種改進的lc-blstm模型,在基本保持識别準确率的同時,能夠降低解碼時的計算量。這樣可以降低計算成本,一台伺服器可以支援的并發數将會是原來的1.5到2倍。

我們提出的第一種改進方法如下圖所示,主要的改進在于右向chunk的計算。

為提升線上語音識别效率,他創造了兩種更新版算法模型
為提升線上語音識别效率,他創造了兩種更新版算法模型

首先對于時間軸上正向移動的lstm,我們去掉了右向chunk部分的計算。而對于時間軸上反向移動的lstm,右向chunk部分的計算主要是為中心chunk提供cell的初始狀态,我們簡化了這部分的計算,使用正向全連接配接來代替lstm,将f()的輸出取平均後作為中心chunk的初始狀态。以上改進大大降低了模型的計算量,switchboard資料集上的實驗結果如下表所示,在基本保持識别準确率的同時,可以使解碼速度提升40%以上。

我們提出的第二種改進方法如下圖所示,首先對于時間軸上正向移動的lstm,我們同樣去掉了右向chunk部分的計算。

為提升線上語音識别效率,他創造了兩種更新版算法模型
為提升線上語音識别效率,他創造了兩種更新版算法模型

另外我們發現對于blstm模型,時間軸上反向傳播的lstm不如時間軸上正向傳播的lstm重要,是以我們使用簡單rnn模型來代替時間軸上反向傳播的lstm,簡單rnn的模型計算量比lstm小得多,是以如此改進以後模型的計算速度也會大大加快,switchboard上的實驗結果表明,在輕微損失識别率的情況下,可以使解碼速度提升60%以上。

<a href="https://mp.weixin.qq.com/s/wht7h-p42kfuieczatcdva">原文連結</a>

繼續閱讀