語音識别真的比肩人類了？聽聽阿裡iDST初敏怎麼說CCAI 講師專訪 | 機器學習創始者Thomas Dietterich：人類将如何受到AI威脅CCAI講師專訪

圍繞語音互動的入口之争正愈演愈烈，siri、echo這些産品風靡全球的同時，國内外科技巨頭、創業團隊也在暗流湧動，各種智能音箱以及語音解決方案層出不窮。

毫無疑問，語音互動已經成為人工智能領域最成熟也是落地最快的技術。尤其是深度學習的起勢，讓語音識别、語音合成以及自然語言處理的發展速度提升到了一個新的高度。

于是乎，各種美化宣傳撲面而來！

“xxx産品識别準确率高達99%，識别準确率比肩人類！”

然而，事實并非如此。市面上已有的語音互動産品或多或少都存在一些通病：在特定領域效果不錯，但超出指定範圍就差強人意了，這樣的問題讓使用者整體體驗大打折扣…

語音識别真的比肩人類了嗎？各種算法之間該如何選擇？如何提升語音互動的使用者體驗？帶着這些問題，雲栖社群采訪了阿裡雲idst智能互動總監初敏，聽聽她是怎麼說的。

語音識别真的比肩人類了？聽聽阿裡iDST初敏怎麼說CCAI 講師專訪 | 機器學習創始者Thomas Dietterich：人類将如何受到AI威脅CCAI講師專訪 | Toby Walsh：用AI提高器官移植的成功率

（注： idst語音識别團隊曾在2016年以0.67%的準确率優勢擊敗了世界速記大賽亞軍蔣毅，據了解，idst團隊使用了blstm算法，這種算法對機關時間内的計算量要求很高，為此他們做了很多針對性的優化工作，才能讓這個算法提供實時服務，并第一次在工業界進行了大規模部署。）

以下内容整理自采訪錄音：

雲栖社群：從國内外的趨勢來看，語音互動技術的應用越來越多，您認為推動語音技術普及的主要原因是什麼？

初敏：語音有兩個大的方向在用，第一個把語音當成資料，例如在講座、法院，或者是客服這些場景中，之前有的會錄音，有的不錄音，講完就過去了，而現在這些語音都會記錄下來，而且還會識别成文字，這實際上是一個資料積累的過程，我們可以對這些文本化的資料進行各種分析、挖掘和加工等等。

另外一個就是大家更關注的語音互動，語音互動之是以越來越被重視，我覺得是因為網際網路、智能硬體的普及。未來智能電視、智能音箱，甚至到以後的日常裝置，都可以變成一個網際網路的入口，語音就是最簡單的，最直接的互動方式，是通用的輸入模式。

當然現有的很多語音産品還沒有那麼成功，我認為雖然現在産品比較多，但是真正好用的，讓人經常想用的卻不多。

雲栖社群：就像您提到的現在語音識别産品用起來其還會有各種各樣的問題，要達到真正完全可用的狀态我們還需要克服哪些難題？

初敏：我覺得脫離了應用場景講識别準确率、講産品根本就是不靠譜的，大家談到的百分之多少的識别準确率理論上不存在，任何一個準确率都是在特定場景下測出來的，不同的場景測出來不一樣，做一套模型在所有場景上都達到非常高的準确率，是不太現實的。

以雲栖大會為例，雲栖大會的talk，語音識别準确率基本上能做到95%以上，但如果突然邀請一個特殊領域的講演者，比如醫療領域，可能就很難達到同樣好的效果，因為現有模型在醫療領域的知識積累不夠。是以，要把語音技術在各種領域普及開來，能快速針對不同場景進行模型調優和定制變得非常重要，這也是我們下面主要推進的一個方向。

雲栖社群：阿裡在語音互動上重點做了哪些事？

初敏：這兩年來我們其實做了很多工作。

一方面是在算法方面的嘗試，語音這兩年進步的比較快實際上就是深度學習的成功應用，我們嘗試了各種深度學習模型，如dnn、cnn、blstm（雙向長短時記憶神經網絡），特别是在業界最先大規模上線了基于blstm的系統。同時，我們也會嘗試各種新算法。需要提到的是有些算法比較複雜，實驗效果好，但是上線就有些難度，是以我們需要進行大量的嘗試。另外，現在這些模型的訓練是複雜度挺高的，訓練的時間一般會很長，特别是當你的資料特别多的時候。

另一方面，我們也在在模組化單元上做一些嘗試，傳統的做法是對狀态模組化（通常把一個音素切成三個狀态），現在我們成功的使用音素作為模組化單元，在準确率保持的前提下，解碼效率提升高三到五倍。更大的模組化單元也在嘗試中。

除了語音識别，我們在語音合成、對話管理，問答等方面也做了很多工作，還包括在不同端上的信号處理，例如麥克風陣列等等都是要去實踐的。這樣才能完成語音互動的完整過程。

雲栖社群：在算法的選擇上是怎麼考量的？

初敏：算法實際上有很多，dnn是全連接配接的，cnn是有卷積的，然後rnn基本上是序列的，我們實驗最成功的是雙向的blstm，而現在還是有些其他的選擇，包括優化準則方面的變化。最終線上上系統采用什麼算法，需要綜合考慮，既要看效果，同時還要考慮到計算效率，部署成本等因素。

雲栖社群：去年雙十一阿裡et語音互動系統有亮相，它還有哪些提升空間？

初敏：et語音互動系統确實還有改善的空間，我們平常準确率能做到95%、96%的水準，但當時主持人講的語速太快，準确率也就不盡如人意了。此外，跟主持人互動的自由度方面，也還有很多可以做的事情。

雲栖社群：團隊做了哪些改善方案？

我們現在花了很多時間研發系統的定制能力，這樣使用者在系統上送出資料就可以通過我們的自動流程來定制他們的模型，這個模型在他們需要的場景下可以取得比通用模型更好的效果。我們現在很多的工作是從這個角度來看。我認為将來這方面是誰的能力最強，誰就能真正在市場上快速把它用起來。

目前市面上，基本上還沒有哪個團隊在提供快速定制化服務，我們是非常領先的。

雲栖社群：下個月舉行的ccai大會上開設了“語言智能與應用”論壇，針對這一方向，您認為現在學術界和産業界還存在哪些痛點？

初敏：就像你剛才問到的，語音識别宣傳得很好，但很多時候用起來還沒有預期的那麼好，主要是因為技術到産品的落地之間還有很多工作沒有做好、做細緻。

語音識别不是萬能的，随便一接就可以的用的很順暢的。

技術使用起來往往需要一個疊代的過程的，需要先上線，然後在場景裡收集資料去評估，優化模型，改善使用者體驗。經過幾輪疊代，才可以發揮最佳效果。其他ai技術也是相似的。今天很多ai技術的使用者很容易把技術的能力理想化，感覺一引入，就應該立竿見影的看到效果。看到實際效果不盡人意時，就會感覺有很大的落差，失望和放棄。是以，我想強調的是，一方面智能語音技術已經達到廣發應用的水準，同時在真正落地的時候，要充分認識到可能遇到的困難，有持久戰的心理準備。

雲栖社群：下個月您會在ccai語音互動分論壇上分享，作為演講嘉賓您希望能給開發者帶來什麼樣的幫助？

初敏：語音互動技術在未來三五年内會大規模應用，這是大家都看到的趨勢，但是換句話說，大家都希望産品在目标場景中取得好的效果，但現實很殘酷，并不是每個人都是算法或者人工智能領域的資深專家，需要一個不斷學習和疊代的過程。ai技術的應用是一個系統工程，我們要有足夠的耐心去打通産品和體驗的優化鍊路，在應用中不斷提升效果。

ccai大會簡介：

大會講師采訪：

語音識别真的比肩人類了？聽聽阿裡iDST初敏怎麼說CCAI 講師專訪 | 機器學習創始者Thomas Dietterich：人類将如何受到AI威脅CCAI講師專訪 | Toby Walsh：用AI提高器官移植的成功率

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希