專訪微軟首席語音科學家黃學東： CNTK 是詞錯率僅 5.9% 背後的「秘密武器」

9 月 14 日，微軟的對話語音識别技術在産業标準 Switchboard 語音識别基準測試中實作了詞錯率（word error rate, 簡稱 WER）低至 6.3% 的突破，為當時業界最低。

一個月後的 10 月 18 日，微軟進一步将詞錯率降低至 5.9%。在 Switchboard 語音識别任務測試中，人類對照組（由專業速記員組成）将對話語音轉錄成文字的最低詞錯率為 5.9%，這就意味着微軟的語音識别系統的語音識别能力已經與人類專業高手持平。

帶領團隊取得這一成果的正是微軟首席語音科學家黃學東。日前，機器之心有幸專訪黃學東博士，共同探讨了詞錯率降低背後的秘密、這一成就的意義，以及他對語音識别的思考。

早在 1993 年，黃學東就已組建了微軟語音識别部門，并一直進行語音、語義等方向的研究。不僅是這一成就，微軟在語音方面取得的種種成果中都能找到他的身影。可以進行實時語音翻譯的 Skype Translator、微軟的智能個人助理微軟小娜（Cortana）等，都有黃學東的努力。現在，他的目标是向全世界開放這些産品背後的技術。

去年，微軟釋出了微軟認知服務（原「牛津計劃 Project Oxford」，現更名為「微軟認知服務」），服務集合了多種智能 API，包括視覺、語音、語言、知識和搜尋五大類共二十一項。「借助微軟認知服務，開發者們就算沒有人工智能的知識背景也能輕松開發出屬于自己的智能應用。」

不僅如此，今年年初微軟更是開源了機器深度學習工具 CNTK（Computational Network Toolkit）。不僅使深度神經網絡（DNN）、卷積神經網絡（CNN）、循環神經網絡（RNN）和長短時記憶單元（LSTM）的實作變得非常容易，還支援多個 GPU 組合、伺服器自動分化和并行的随機梯度下降（SGD）學習。

CNTK 正是在此次微軟在 Switchboard 測試中取得突破的重要因素。目前微軟的諸多産品，包括 Cortana、Bing、HoloLens AI 的訓練（training）等都是在 CNTK 上實作的。黃學東笑稱「CNTK 是我們的『秘密武器』」，如今這款「武器」人人都可使用。

專訪微軟首席語音科學家黃學東： CNTK 是詞錯率僅 5.9% 背後的「秘密武器」

以下是專訪内容：

機器之心：前段時間您參與研發的語音識别系統的識别詞錯率實作了突破，單系統的詞錯率低至 6.9%，多系統達到了 6.3%。能否請您解讀一下這項突破背後的技術，以及這一成就的意義？

黃學東：關于這個問題，可以先回顧語音識别過去幾十年的進步。微軟在過去 25 年一直在做非常基本的、應用的語音識别的研究。不僅僅是微軟，整個語音識别的研究，包括學校、公司、政府，很多人做了很多工作。90 年代初，美國國防部還推動了包括華爾街語音識别聽寫系統等好幾個大計劃。

因為有這些大力推動，錯誤率每過三四年就能從 20% 左右降低 5-6% 左右，如果做到 5%-6%，大家覺得這個東西可以用了，然後就能不斷地放松限制。

最早的語音識别需要針對特定的人，或者比較小的詞彙表。到 90 年代中期，大家覺得既然語音識别每過三四年就有那麼大進步，幹脆看看能不能識别所有開放的語音，比如兩個人在打電話，能不能把電話通話内容識别出來，并且不要任何限制、完全開放，這是非常有名的「電話識别系統」（Switchboard）。

這可是一個難任務。在 90 年代中期，微軟剛建語音團隊的時候，我們用當時最好的技術來識别這樣的系統，錯誤率大概在 80% 左右。很多人付出很多努力，在 20 年前，大概這個系統可以做到 60% - 50% 左右的錯誤率。今天從 80% 到 6%，是過去幾十年經過了很多人的辛苦努力達到這樣的成就。我覺得這不僅是微軟的驕傲，也是整個在語音識别、人工智能領域辛勤工作的科研人員的一個很大驕傲，很具有曆史意義。

因為語言是人和動物最大的差別。人類發展到今天，因為有語言、能溝通，可以團結團隊，一起征服很大的困難。今天機器能識别到這樣的水準，不僅僅是微軟的研發人員，也是 IBM、Google、百度和很多人一起努力，才推動了這個技術的進步。從曆史角度來看，從 20 年前 60%，十年前 50%，以至今天的 6.3%，這是一個非常令人驕傲，也是令我自豪的成就。

今天做這到這個水準，所采用的技術是相當豐富的，核心技術是深度學習。神經網絡有很多不同的模型，我們現在這個系統中将多種組合，最後結果達到 6.3%。

我們最主要的貢獻是：

第一，這個系統裡面沒有 bug，因為要在标準資料上做到這樣的水準，實際上展現了工程的完美；

第二，這個系統完全是用微軟的 CNTK 開源工具做出來的。微軟能做到今天的水準，全世界所有做語音識别的人用 CNTK 這樣的工具也能達到這樣的水準，這完全是沒有問題的。當然但具體參數用多少，我們有很多經驗。

第三，其中最核心的技術是把 ResNet 用到語音識别。此前微軟亞洲研究院做 ImageNet 用到了突破性的 ResNet（殘差網絡，Residual Networks），我們第一次把 ResNet 用到語音識别發現效果也非常不錯，這也是令我們非常驕傲的事情。去年 ImageNet 上微軟亞洲研究院憑借 ResNet 拿了冠軍，今年能在語音上取得新的突破，它的貢獻功不可沒。

機器之心：剛才也說到十年前，識别錯誤率是 50%，今天到達了 6.3%。這十年來您覺得這個速度是快還是慢，語音識别最終可能會達到人類水準，在這之後技術未來的發展方向是什麼？

黃學東：這個速度還是相當驚人的。過去 20 年，基本上每年錯誤率都會較上一年下降 15% 左右，按照這樣的速度推下去，語音識别達到人的水準指日可待。但是人的魯棒性比機器好很多，比如我們可以隔很遠說話，人聽起來沒有問題；或者在雞尾酒會大家都在談話，人的耳朵可以很靈敏，要想聽什麼東西，他可以聽什麼東西。但是機器這個能力相對比較差，在高噪音、有口音、小孩兒說話或出現不熟悉的内容的情況下，機器 6% 的水準可能會變成 20%、30%。

這是人和機器的最大差別，人的魯棒性非常好，一個新的課題過來，他可以通過會話的方式跟你溝通，也能得到很好的結果。而機器對噪音的抗噪性不夠強，對新的課題會話溝通能力比較差。最重要的一點是，語音識别并沒有了解你的語義。了解語義是人工智能下一個需要攻克的難題，這也是我們團隊花很多時間和精力正在做的事情。

要做好語音識别需要更好的語義了解，這是相輔相成的。因為你沒有知識，你就聽不懂别人講的話。比如我講一個很高深學問的問題，如果聽的一方沒有對我說的話題有足夠的知識，基本上是對牛彈琴。

機器之心：從最早的 HMM 模型到最近幾年 RNN、LSTM 和注意力模型，它們促進了語音識别技術的飛躍。那具體在語音識别技術上的突破還需要哪方面的支援，還有哪些前沿研究可以介紹給我們嗎？

黃學東：我們現在用 LSTM 模型取得的進步就很好，将圖象識别的最新技術用到語音識别效果也不錯，然後通過 LSTM 和 ResNet 這樣的組合使微軟的系統得到了新的突破。

再往前走，大資料，大的模型更加精細的深度學習算法，當然還有很多東西可以做。怎麼樣提高自由組合，然後通過語義了解來幫助語音識别，這都是亟待需要做的事情。

另一個就是抗噪。在高噪音的情況下，人能做的很好。但是機器現在抗噪相當困難。我們這個系統實際有三個好東西：一是 LSTM；一是 CNN 的改進版 LACE，是我們團隊自己研發的；第三個是用了 ResNet。這三個模型和一般的深度學習模型都不太一樣，我們通過這三個模型的大組合，取得了突破性的進步。

現在語音都是在雲上，三個模型同時在做計算，然後再組合起來，這對 Cloudbase 的語音識别沒有任何技術問題。

機器之心：您在之前的采訪中也提到微軟建立語音識别研究團隊的時候是得到比爾蓋茨的全力支援。你對現任的 CEO 納德拉有什麼評價？現在微軟在語音識别技術上的投入大概是怎樣的情況？

黃學東：9 月 30 日，微軟剛剛宣布，由沈向洋上司五千人團隊負責人工智能。微軟對人工智能的投入是相當重視的，在納德拉的上司下，我們對人工智能的重視是前所未有。現在微軟研究院和人工智能産品都在沈向洋上司之下，這改變了微軟研究院沒有産品任務的過去，對人工智能的重視提到了公司前所未有的戰略高度。

其次，微軟研究院在建立的時候就有這樣的口号，要讓計算機能看、能聽、能說、能想、能學習。實際上在 25 年前微軟研究院建立的時候，人工智能就已經是我們的戰略目标了。是以微軟的嚴謹和我們的執行是一脈相承的。微軟研究院建立的時候，語音識别、計算機視覺、自然語言處理等是最早幾個核心團隊。

我當時負責語音識别技術團隊建立，今天的全球執行副總裁沈向洋當時加盟了微軟研究院計算機視覺的團隊。現在微軟亞洲研究院的院長洪小文，當時也是在語音識别團隊。是以不管是比爾蓋茨，還是今天的納德拉，微軟對人工智能一直是非常重視的。我們當然可以說雲為先、移動為先。從我個人來看，現在正在轉向為智能為先。

機器之心：我們知道微軟對人工智能非常重視，那語音識别方面在整個布局中大概是什麼樣的位置呢？

黃學東：因為 Cortana 小娜是個人助理，不僅僅通過文本（Text），也可以通過語音來互動，是以語音識别是非常重要的第一步。語音是人和人交流最自然的工具，讓人和機器交流更加自然、更加迅速、快捷、友好非常重要，我們對它的投入從來沒有減弱。微軟研究院在建立之初，最開始的團隊之一就是語音識别。

機器之心：您從 1993 年加入微軟，到現在差不多 20 年了，這期間語音研究思路上有哪些變化？微軟在語音産品的思路上又有哪些變化？

黃學東：變化非常大。微軟 1995 年第一次在 Windows 上推出了語音識别的 API（Speech API，簡稱 SAPI），非常具有曆史意義。SAPI 是工業界第一個完全基于 PC 的 API，也正是由我的團隊推出來。過了二十年，「微軟認知服務」（原「牛津計劃」）再次推出，是以雲為先的語音 API。很湊巧從 1995 年到 2015 年，20 年完成了從 PC 端到雲端的變化。現在「微軟認知服務」包括 21 個不同的 API，其中語音識别、語言處理等部分都由我現在的團隊負責。

是以我很感慨，20 年的風風雨雨，微軟從 PC 電腦為中心完全轉型為以雲為中心，其中沒有變的就是人工智能。不管當時 PC 為中心還是今天雲為中心，人工智能都是中心的中心。

微軟再往前走，雲中心之後應該是以智能雲為中心。人工智能沒有大資料、沒有強大的計算能力，就不會有很大的智能。

今天的人工智能為什麼能夠脫離過去幾十年人工智能的寒冬。最主要的原因是兩個，一是現在的資料量變大了，一是計算機運算能力提高了。有足夠的計算能力，計算機「死記硬背」也會顯得好像很聰明。其實深度學習、神經網絡這些東西早就有了，但那時計算能力不夠，資料量也不夠大，是以沒有太多用。

現在看來深度學習能把以前不能做的事情做到了，我們每個人都在說深度學習怎麼怎麼牛，怎麼怎麼樣。但最主要的不要忘記了，因為現在有計算能力，有大的資料，才達到了以前我們沒有達到的水準。

微軟開源深度學習的工具 CNTK，Cortana、Bing、HoloLens AI 的訓練（training）等都是在 CNTK 上實作的，不僅僅這個 6.3% 的語音識别技術是在 CNTK 上跑的，我們的 Cortana 的識别、産品系統都是在這上面跑。

CNTK 和其他的開源軟體最大的不一樣，是它能做大規模、分布式深度學習，性能體驗也非常好。一般開源軟體隻能在一台 4 個 GPU 的電腦上運作。但 CNTK 在 64 台機器上運作都沒問題，是真正的大規模、分布式的深度學習開源軟體。我們今天能重新整理語音識别紀錄，真是歸功于 CNTK 這個開源工具。

CNTK 是我們的「秘密武器」。我們把秘密武器開源了，但是裡面裝什麼樣的子彈、彈藥，你自己決定。

事實上微軟是開源最大的貢獻者，可以稱為「無名英雄」。我們将時間和精力全部投入在創新最優秀的技術，服務于我們的客戶。Switchboard（詞錯率 6.3%）這個東西不是誰都可以做出來的，這展現了微軟在人工智能技術、深度學習技術上二三十年的積累。

機器之心：現在有多少團隊或者人在采用 CNTK？它的應用怎麼樣？

黃學東：CNTK 這個技術是我的團隊開發的，服務于整個微軟公司内部所有的産品、所有的需求。既然能夠滿足微軟公司内部所有産品的人工智能的需求，也可以開源為社會服務。因為這樣的理念，CNTK 選擇了開源，當時也并沒有去炒作，我們更關注的是性能。跑大規模的人工智能實驗，通常需要一到兩個月的時間，把訓練速度提上去才是重中之重。

8 月，香港浸會大學釋出論文《Benchmarking State-of-the-Art Deep Learning Software Tools》

香港浸會大學最近對單機單卡性能做了比較，這根本不是 CNTK 的長處

，它更擅長分布式系統做大規模的計算。這個研究在單機單卡環境建立了四個系統：标準的全連接配接神經網絡（FCN）、計算機視覺的 AlexNet、微軟亞洲研究院研發的 ResNet 和 LSTM。他們比較了 CNTK、Caffe、Torch、TensorFlow，在單機單卡 CNTK 表現不是優秀的情況下，仍在全連接配接神經網絡和 LSTM 兩項中拿了冠軍。如果在多機多卡的情況下，差别就更大了。

機器之心：您個人的工作軌迹是怎樣的？似乎其間有在 Bing 等其他部門工作，是否給您的語音識别工作您帶來啟發或影響？

黃學東：在加入微軟之前，我在卡耐基梅隆大學工作，後來上司微軟語音識别和語音産品研發超過了十多年。之後決定不做語音，去做其他事情。我做了一些新産品的研發，後來又去 Bing 搜尋和廣告部門工作了六年。兩年前我才重新負責公司語音的研究。通過過去兩年的努力，我們再次又拿到了這個創新的技術。是以我非常感慨，技術日新月異，需要大家一起努力。我們也是站在前人的肩膀上，才能走到這一天。

微軟語音識别技術的研究一直沒有停止過，從前我們的重心放在開發 Cortana 這個語音識别系統身上，Cortana 語音識别的水準也是相當優秀的。

當然不同的工作之間都是相通的。語音識别需要語義了解才能做的更好。Bing 是搜尋，是大資料、大計算、了解語言相結合的工作。搜尋以前都是以文本為标準，這都是與語音識别等相通的。我在産品部門做的事情，并沒有通過發表文章的形式呈現在各位面前，大家能看到隻是微軟 Bing 這款産品。

同時語音團隊還一直往前在走。是以兩年前我回到研究院重新上司語音團隊，并不是從零開始做起，已經有一支非常優秀的團隊。現在這支優秀團隊重新設定目标，攻克難關。再加上我們使用了很多 GPU，把 CNTK 這個工具做得更完善。有了武器、有了彈藥，再加上一支本來很優秀的團隊，當然是攻無不克。

機器之心：最後問一個比較大的問題，在整個人工智能布局上，您認為語音識别的定位是怎樣的？

黃學東：就像我們在跟人講話的時候把他的嘴去掉，或者把他耳朵去掉，語音識别對與人工智能是非常重要的。當然腦子最重要，人工智能就像孟子講「勞心者治人，勞力者治于人。」有腦子、能推理，能了解周圍的環境，能了解人心，有 EQ、有 IQ，這才是最強大的。

人工智能最重要的是要有知識，能了解語言、能幫助人溝通、能推理、能分析大資料，能得出最優秀的結論。最後能做夢，那才了不起。語音識别是把音頻轉換成文字的過程，這個過程相當複雜，展現了人工智能今天最優秀的技術能達到的水準。

圖象識别也是類似都是從 A 到 B 轉換的學習。到了了解語言、了解語義、深刻地領會意思，就不再是簡單的 A 到 B 的映射過程。因為語意沒有音義，我講了一句話具體是什麼意思？你要把它翻譯成文字定義是非常清楚的，但意義每個人都有不同的了解。這才是人工智能最核心的關鍵。

通過語音識别做機器翻譯，或是通過計算機視覺技術描述圖像，隻是做到了 Perception（感覺）。人工智能不僅僅要有感覺，還要有認知（Cognition），這才到了進階階段。除了認知還要有情感（Emotional Intelligence），這是更進階的，是「勞心者」了。我覺得人工智能最進階階段是要「勞心」，不僅僅要感覺，要有認知，還要「心知」。「知心」最難，人都不一定能達到這個水準。

現在人工智能最優秀的進步是在感覺階段，包括語音識别，視覺圖像識别等等。目前機器翻譯還是從 A 到 B 的轉換，對語意的了解非常膚淺。認知現在還沒有大的突破，「心知」就更沒有戲了。

不知道這是不是太悲觀，但我們還在感覺和認知的過渡階段。感覺這個門檻基本上會進步非常快。今後兩年，語音識别的水準基本上是沒有問題。然後下一步大的任務是認知，自然語音的了解、語意的了解和知識的積累。别小看這個東西，如果能了解語言，人工智能會很強大，它可以讀世界上所有的教科書、所有的文章。

現在沒有一個機器人能把世界所有海量的知識，各個語言、各個國家、新聞、報紙、教科書所有東西都積累起來。當然，現在通過搜尋引擎要查什麼就可以查什麼，但它并沒有了解，隻是把文字摘下來。有了什麼都能了解的人工智能，它就像愛因斯坦一樣聰明，上知天文、下知地理，從海洋到實體到數學，什麼都知道。

但這個路途還相當遙遠，即使要做好了，無非是 IQ 很高了，可是離 EQ 還很遠。

專訪微軟首席語音科學家黃學東： CNTK 是詞錯率僅 5.9% 背後的「秘密武器」

繼續閱讀

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark