小度戰平人類最強大腦後，我們和吳恩達聊了聊

作為機器之心新欄目 AI Talk 的一部分，我們對這次視訊專訪的内容進行了剪輯，完整采訪可見下面文字整理版本。

關于小度和聲音/語音技術

機器之心：簡單介紹一下，小度在本期節目中使用到的識别技術及其原理？

吳恩達：在比賽中，小度使用了 2 種前沿的聲紋識别算法，為了識别出某個人，會把兩種算法的結果結合在一起。

其中一種方法是基于卷積神經網絡，這是一種端對端的方式。卷積網絡把輸入切成聲音片段，然後嘗試識别這些片段是不是來自同一個人。這個神經網絡是在 2 萬多人的大約 5000 多小時的音頻資料上訓練出來的。這是一個很大的音頻資料集，它使得神經網絡變得相當準确。

我們的第二個系統也有神經網絡，但結構不同。第二個系統采用聲音片段作為輸入，神經網絡輸出 5000 維表征語音，并基于此進行統計模組化。通過統計模組化後的結果，抽離出說話人相關的資訊，選擇出 500 個特征來表征說話人的屬性，而不是說話的内容。随後，使用這 500 個特征比對兩個說話人，并判斷出是否是同一個說話人。

最終，我們用這兩個神經網絡讓它們投票，進而做出最終決策。

機器之心：看起來語音識别要比語義識别更簡單一些，你認為什麼時候可以實作人類水準的機器語義識别，進而讓人類可以和機器順暢地交流？

吳恩達：讓計算機以人類的水準來完全了解自然語言，這還需要很長的時間，可能需要幾年，也可能是幾十年，我們難以确定。但我們可以預見在一些非常垂直的應用領域，比如詢問天氣、叫外賣、拿快遞，或者推送今天的新聞這樣的基礎問題。這些方向非常的垂直，我們看到了自然語言處理在這些方向上的快速發展。以百度的度秘為例，你已經能與這個機器人進行交流，它可以給你合理的答案。在垂直領域它可以做得很好，研究人員有時間考慮到所有的可能性。

我認同你所說的語音識别在過去兩年已經取得了巨大的發展。事實上，語音識别如今很準确，使得更多使用者用它作為文本輸入。

幾個月前，斯坦福大學聯合百度與華盛頓大學做了一項研究，表明目前的手機端語音輸入要比鍵盤輸入快 3 倍還要多。事實上，過去 12 個月裡，我們看到所有百度産品上的語音日使用量增加了一倍，也就是語音服務的使用增長了一倍。是以，那些想要更高效、更便利地使用手機的使用者更傾向于使用語音輸入。

機器之心：百度語音平台免費提供了一些 API，它能實作什麼功能？如何從中受益？

吳恩達：語音已經變成一個非常重要的人機互動方式，在百度大腦，我們正在努力實作越來越多的語音功能并幫助人們用上這種強大的能力。在我們的網站上，最受歡迎的語音功能是語音識别、TTS（尤其是情感 TTS）以及語音喚醒。我們的團隊在不斷努力将越來越多百度的最好語音技術放到網站上。我們知道，對于第三方公司來說，擷取這些技術是非常有用的，但也還需要知道如何有效地使用這些技術。是以百度大腦做的另一件事情是創造能夠幫助第三方組織、開發者和公司了解如何最有效地在他們的産品中使用這些技術的材料。是以我們也正在将越來越多這些訓練材料放到我們的面向公衆的網站上。

機器之心：百度是如何提升語音輸入法的識别精度的？其中最困難的部分是什麼？

吳恩達：你知道，機器學習系統得到最好表現的一種最可靠的方式是在大量的資料上訓練大型模型。如今百度的語音識别系統是建立在 5 萬小時的資料上的，這是一個超過 5 年的音頻資料。此外，我們在超級計算機上訓練模型，它給了我們非常大的計算能力，進而建立足夠大的神經網絡吸收這些資料。

除此之外，我們面臨的一些挑戰是在缺少資源的語言和方言中。我們在嘗試讓百度語音識别系統覆寫更多的方言。在有很小資料集的方言上，我們嘗試了在國語上學到的東西，并将這些知識用到不同的方言上。是以，百度有很多積極性的研究是關于在沒有國語那樣大量資料的情況下，研究在方言上做到最好的算法。

另一個研究挑戰是如何讓語音識别在沒有很多資料的新領域、新應用場景中有好的表現。例如，在不同的語音應用場景，語音片段聽起來也各不相同，比如很多口語化的語音的識别問題。在這些小的新垂直應用中，我們沒有很多的資料。是以我們也在做大量的研究，想要搞清楚從現有收集到的 5 萬小時的資料中能學到什麼，然後專門應用到新的垂直領域與新應用中，這些領域中的音頻品質或說話方式與我們的訓練資料有很大不同。

你知道，語音識别有了極大的發展，在很多領域有很大的應用。但在語音上，仍有許多的研究需要完成。

機器之心：在 CES 2017 上，百度釋出了 DuerOS，你也曾提到今年是對話機器元年，應該如何了解？

吳恩達：我認為我們進入了語音對話接口成為必要事物的計算新時代。20 年前，我們大部分使用台式計算機或筆記本的鍵盤。大約 10 年前，喬布斯釋出了 iPhone，開啟了手觸螢幕與手機以及其他裝置互動的時代。

我認為人機交流的下一個時代是語音交流接口，而且我認為這一趨勢如今剛好起飛。因為這一技術剛好到達了這樣一個點，你可以坐在家中與對話計算機進行交流，詢問航班以及其他資訊，而且它們能了解你說的什麼，并為你提供有用的資訊和服務。

是以，我對對話計算時代黎明的到來非常樂觀。事實上，我們在中國感受到的一件令人激動的事是我們看到了很多的創新，不同的團隊建立了不同的很有創意的硬體。比如，小魚在家、智能音箱、電視盒子等等。

有了 DuerOS，我們希望能幫助所有的這些硬體制造者将人工智能、語音對話智能加入到硬體中，進而讓更多這樣的裝置進入家庭。

機器之心：你認為語音識别技術未來将在哪些領域發揮最大作用？

吳恩達：我認為語音在 4 個類别中将會快速起飛。

第一個是手機。因為在智能手機上語音輸入要比鍵盤輸入更快，是以百度在手機的語音識别上增長迅速。

第二個是家居場景。我們看到了智能音響（smart speakers）的崛起，出了智能音響，我認為小魚在家、電視盒子這樣的裝置也在增加。我們把這種坐在家的體驗叫做背靠式體驗（lean back experience），也就是你能背靠沙發發号施令，然後各種家居裝置會了解你的需求并作出回應。

第三種是汽車場景。在你駕駛的時候，手放在方向盤上用說的方式與汽車交流，它就知道你想做什麼。是以我認為在這個場景中也會發展。

最後是可穿戴裝置。大部分可穿戴裝置沒有很大的界面，比如智能手表等。是以我認為在這個垂直領域，語音會慢慢發展。

是以，我認為語音是讓你與機器交流如此高效的一個接口，它會在這些垂直領域有很快的發展。可能也有其他領域。

機器之心：您怎麼看語音識别技術的商業前景？

吳恩達：在手機百度、百度地圖、百度輸入法等許多百度的産品中，我們可以看到過去幾年中語音的使用變得越來越頻繁了，因為這對使用者來說是一個友善得多的文本輸入方式。是以有大量第三方硬體制造商、軟體開發商和開發者想使用語音來幫助他們的使用者與他們的應用或裝置進行更加自然和友善的交流；百度大腦項目也是一樣，我們通過我們免費的語音識别 API 釋出了我們的産品，讓第三方也能用上我們的技術。語音識别是最難、門檻最高的技術之一，在百度，我們有幸能夠使用足夠的資源開發出非常好的語音系統。是以我們希望能夠通過我們的技術來幫助許多開發者和企業組織，讓他們的使用者也能将語音作為一種輸入方式。

百度的人工智能研究團隊

機器之心：百度人工智能團隊的日常工作是怎樣的？是什麼創新機制在支撐團隊保持創造力？

吳恩達：現在正是從事人工智能工作的好時候，你能看到有人将人工智能比作是「新型電力（new electricity）」——就像一百年前電力變革了一個又一個的行業一樣。我認為人工智能也将類似地給交通和通信等許多行業帶來變革。我們很幸運有這麼多出色的人才在百度工作，他們不僅在努力使用百度的資料和計算資源來提升這些技術，而且也在尋找新的語音識别和人臉識别等技術并将它們投入到可以真正幫助人們的新場景、新産品和新應用中。每天我到百度工作時，我都為我們有這些能夠幫助很多人的技術而感受振奮。

在這裡我想額外補充一點。我想對所有還在考慮自己的職業生涯的年輕人說一句，我知道當你很年輕的時候，有時候你無法确定該追求怎樣的事業。我認為我們現在正生活在一個人工智能領域有無窮機會的時代，如果你還不确定你該做什麼，可以考慮加入我們來開發人工智能、研究人工智能，未來幾年這一領域将有非常大的機會。

機器之心：在将人工智能研究成果産品化的過程中，百度人工智能團隊是如何與其它業務部門協作的？

吳恩達：将最新的人工智能投入到産品中通常需要多個不同職能的團隊的協同。比如說，将語音識别技術內建到手機百度應用中，實際上是有很好的語音識别技術的語音技術團隊和有很好的搜尋技術的搜尋團隊的合作成果；正是這種互相了解的合作才讓我們的手機百度具備了出色的語音輸入能力。再舉另一個例子，今天在進行金融交易時，我們會使用人臉識别來确認人們的身份，這也是我們 IDL 的計算機視覺團隊與金融服務團隊（他們有金融産品和深度的領域知識）合作的成果。是以在百度工作，這方面還是非常好，我們的技術團隊可以很容易去創造或發明新技術，并且可以輕松地和其它出色的産品團隊合作，将這些新技術快速投入到産品中進而為他們的海量使用者提供幫助。

機器之心：百度在招募人才、組建人工智能團隊方面，有哪些經驗可以分享？

吳恩達：你知道如今人工智能發展迅速。我認為百度持續在做的一件事是在職員上做投資，擴充我們的團隊。據我所知，百度在職員培養、訓練上的投資要比其他公司都大，我們進行正常的課程進而讓團隊了解最新的人工智能技術，是以我們的團隊會變得越來越好。

在美國和中國，我認為百度正在獲得這樣的聲譽：如果你想要學習人工智能，這裡就是你該去的地方。也許很多人不了解，但我認為對全世界的科技巨頭而言，李彥宏是第一個意識到深度學習巨大潛力的上司者。我認為李彥宏具有很深的技術背景，同時對人工智能技術有着透徹的了解。我們很幸運在百度成立 17 年的時間裡，有他一直在帶領着公司建立并且積累基礎的人工智能科技。我認為我們現在的這些成果都是建立在李彥宏打下的基礎之上的。

我們都知道 IDL（百度深度學習實驗室）主任是林元慶，但很少有人知道其實 IDL 的第一位主任是李彥宏本人。他預見了深度學習的發展趨勢，并希望百度首先投入其中。不僅僅是在中國，放眼全世界的科技公司，你很難找出一個和李彥宏相似這樣有預見性的上司者了。

對人工智能領域的看法和期望

機器之心：小度在《最強大腦》的節目中表現優異，但人工智能技術在實際應用層面還面臨諸多挑戰，比如無人駕駛汽車的安全性等，您怎麼看待這一類難題？

吳恩達：當飛機在大霧或雨天着陸的時候，基本上都是在用基于計算機軟體的全自動駕駛。是以，我認為如今已經有了能做出與性命相關決定的軟體。我認為，如今有了人工智能，這些重要決定将會更容易作出。無論它是設定在自動駕駛内，還是醫療領域中（比如自動診斷）。當然，我認為人工智能研究者還面臨着一個重大責任——就是在各個垂直領域内作出謹慎的評估，這才能夠讓人們更加相信人工智能。

說到自動駕駛汽車，這是近年來快速發展的另一領域。它面臨的一個重大挑戰就是：現有的交通法規大部分是為人類駕駛員所寫的。是以自動駕駛在發展中面臨的最大挑戰就是需要制定既适用于人類又适用于計算機駕駛員的新法規。我認為這是加速全球自動駕駛普及的關鍵。

機器之心：很多人說可怕的不是人工智能，而是人工智能落到的壞人手裡。您怎麼看待這一說法？如何防止出現這樣的現象？

吳恩達：之前我們将人工智能比作是新時代的電力——就像是一百年前電力是新出現的超級力量一樣，現在的超級力量就是人工智能。在絕大多數情況下，電力都給我們這個世界帶來巨大的好處，我們現在幾乎不能想象沒有電的生活；但不幸的是，電力也被用在一些不好的方面。幸運的是，我認為現在絕大多數人工智能領域内的人都是好人，我們做人工智能是因為我們希望幫助人類。是以我相信總的來說，人工智能将給這個世界帶來很大的積極影響。我也認為每一個人工智能工程師和研究者都有個人責任，確定其成果能夠有益于這個世界。基于我對全球人工智能業界的了解，我認為現在全球人工智能行業整體上都在做着非常有益于這個世界的事情。

機器之心：你曾經在《哈佛商業評論》中撰文呼籲各大公司設立首席人工智能官（Chief AI Officer），你認為首席人工智能官需要具備什麼樣的特質？

吳恩達：百度是世界上最好的人工智能公司之一，我們在公司的每一天都在思考人工智能。我希望能夠将我們的一些想法和人工智能社群以及世界上的其他人分享，進而幫助推動全球人工智能的發展。

關于首席人工智能官，我認為目前人工智能所面臨的難題之一是：将這種我們已經擁有的技術應用到能夠真正有助于我們的業務的使用案例中。是以我認為首席人工智能官應當具備兩種關鍵技能：一是了解這種技術（這很重要卻也很難），二是了解自己公司的業務并且搞清楚如何将這些讓人驚歎的人工智能技術和你的業務比對起來，進而讓你能夠創造出重要的價值。

機器之心：大公司都在重金投資人工智能領域，它們也在資料量上擁有絕對優勢，您認為初創型公司還有機會在競争中占據主導位置嗎？

吳恩達：我們最好的語音識别系統大約是在 5 萬小時的資料上訓練的。我們的語音識别系統，也就是小度這次使用的這套系統是在 2 萬說話人資料的基礎上訓練的。是以如今就有一些問題，如果你想要獲得頂級系統，我們就需要大量的資料。是以在一些領域中，小公司使用如今已有的科技建立百度這樣有效的系統還是很有挑戰的。

但我認為在一些垂直領域中，例如，在罕見疾病的醫療成像上，全世界在這些領域可能都沒多少圖像。是以，我認為在這些垂直領域中，即使少量的資料也可能建立有相當好表現的系統。

盡管如此，我也認為百度的資料、資本、超級計算機，再加上我們的人才，确實使得我們能更快地建立最好的人工智能系統。

機器之心：人工智能的技術研究在哪些方面改變了百度，又将如何滲透到更多的行業？

吳恩達：人工智能已經完全變革了百度——從網頁搜尋到我們組織外賣送遞的方式，再從我們推薦内容的方式到我們進行人臉識别、身份認證、語音識别的方式等等。是以這些都已經用到了人工智能。我認為除了變革百度的産品之外，我們也很高興能将人工智能技術提供給第三方，讓它們也能使用我們的語音、計算機視覺、NLP 等等各種不同的人工智能技術來變革自己的産品。

我認為，人工智能會在未來改變所有行業的形态。有的時候我的朋友會和我打賭，看看某個行業在最近幾年不會被人工智能所改變。你也可以嘗試想想看，實際上我們很難想出在未來幾年不會受到人工智能影響的行業。我最喜歡的例子是理發師，實際上我發現創造一個能夠理發的機器人是很困難的。曾經我在台上演講也說過類似的話，但我有一位機器人學教授朋友告訴我，她說對于大部分的發型來說确實如此，機器人很難幫他們理發；但她也指出：「至于你的發型嘛，我可以讓個機器人剪出來。」是以我覺得實際上我們很難确定一個不會被人工智能改變的領域，我認為不管你的業務是什麼，都可以考慮一下利用人工智能來增強你的優勢。

機器之心：你想對中國的人工智能從業者和機器之心說些什麼？

吳恩達：我認為中國很幸運有機器之心這樣的頂尖媒體将全世界的人工智能進展快速分享給中國的讀者。實際上，中國和世界的資訊傳播有一種奇怪的不對稱——全球的人工智能進展可以非常快速地傳播到中國，但有時候百度等在中國釋出或發表的進展卻很少讓世界其它地方的人知曉，這可能是因為他們并不閱讀中文的媒體。當然我希望這種世界向中國的知識共享能夠繼續，我也希望我們能做些什麼來幫助世界其它地方的人更快地了解中國的人工智能發展和前沿成果，這樣我們就能讓整個世界的人工智能研究社群都更快速地進步了。

「AI Talk」是機器之心最新出品的視訊訪談欄目，旨在邀請國内外人工智能頂級專家分享對技術和行業的觀點，為大家呈現更為直覺、豐富的内容。

小度戰平人類最強大腦後，我們和吳恩達聊了聊

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希