天天看點

脫離現實場景去空談“識别準确率”都是耍流氓

 “對真正做技術的人來說,一項技術最有意思的不是它什麼時候能work,而是它什麼時候不work。最近我們經常從媒體上看到‘語音識别準确率97%、98%、甚至99%’這樣誤導性的标題黨,但要知道這樣誇張的準确率隻可能在非常受限的場景下獲得。不信就請走進一個正進行着熱烈讨論的會議室,掏出手機放桌上,打開語音輸入法做個會議記錄吧。這樣日常真實場景下的語音識别準确率,别說97%,斷斷續續勉強看懂就不錯了。在衆多真正有意義的場景下,語音識别的準确率遠沒有标題上宣傳的那麼高,脫離現實場景去談準确率統統都是耍流氓。我認為語音行業的“圈内人”應該更嚴肅的去思考,我們這個行業的工作在學術研究上到底在哪些方面取得了實質性的進展,在工業應用上到底在哪些方面實實在在的幫助到大衆,在商業模式上到底在哪些方面有所創新。“如果問到業界目前熱衷于讨論的“識别準确率哪家強?”,來自阿裡的智能語音技術總監鄢志傑(花名:智捷)可能會給你一個不一樣的答案。

随着語音和人工智能(ai)業務的發展勢頭越來越迅猛,語音互動無處不在,甚至被視為是人工智能時代的“标配”。就在不久之前,在全球上億觀衆觀看的2016雙11晚會上,除了各路明星閃耀捧場之外,還有一位特别來賓:阿裡雲人工智能et。由阿裡雲人工智能et參與的一場魔術為晚會增加了科技色彩,也成為這一年雙11的熱門話題。聽懂問題、現場觀察和思考、模仿人類的聲音回答問題……一系列的行為使得阿裡雲人工智能et震驚了全場。探究其背後,這個魔術涉及到數學、語音、圖像等技術,數學支撐了撲克牌編碼和“猜牌”的原理,語音支撐了主持人與et的交流、圖像支撐了對觀衆狀态的跟蹤和識别。

脫離現實場景去空談“識别準确率”都是耍流氓

在語音技術方面,則主要涉及了語音識别(分辨出主持人華少的語音并對其進行識别)、語音合成(對華少說話、向現場觀衆報出猜牌結果)、對話和語言了解(完成整個對話流程)等技術,上述這些技術,都來自于鄢志傑(花名:智捷)所在的阿裡雲資料事業部智能語音團隊研發的智能語音互動(intelligent speech interaction)系統。

本期雲栖社群訪談,我們特邀到智捷,一起聊聊語音互動,聽聽他是如何看待阿裡雲et背後的智能語音技術,以及對語音識别領域的産業觀察的。

<b>受訪嘉賓:</b>

鄢志傑,阿裡雲資料事業部智能語音技術總監,在加入阿裡巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業于中國科學技術大學,獲博士學位。研究領域主要包括語音識别、語音合成、說話人識别驗證、ocr/ 手寫識别、機器學習算法等。在語音及文本識别領域頂級學術期刊及會議發表多篇論文,長期擔任語音領域頂級學術會議及期刊的專家評審,并擁有多項美國及pct專利,目前是 ieee senior member。其研究成果被轉化并應用于微軟公司及阿裡巴巴集團的多項産品中。

<b>下面是雲栖社群對鄢志傑的專訪實錄:</b>

<b>雲栖社群:能自我介紹下并談談所從事的工作嗎?</b>

<b>智捷:</b>基本上我是做語音相關核心技術的研究和産品化工作的,包括語音識别、語音合成、聲紋識别驗證等等。我們的任務是讓機器能聽懂人類的語音,同時還能開口說出人類的語言。除此之外,還有一些技術在人機智能語音互動中不可或缺,例如麥克風陣列技術、語音前端信号處理技術、遠場語音識别、語音喚醒等等,這些也都是我們的關注點。總之,所有能夠去實作極緻的語音互動體驗的核心技術子產品,我們都會去做。

<b>雲栖社群:業内的語音技術方向的産品和研發都比較多,你對産業的觀察是怎樣的?</b>

<b>智捷:</b>語音技術的研究及其應用在曆史上起起伏伏已經有很多次了,最近這幾年研究上取得了一些突破性進展、應用變得越來越多、宣傳上更是随處可見,但放到更長的時間次元上來看,今天不過是從“伏”到又一次“起”而已。不知道大家是否知道,遠在1969年,bell labs的john pierce曾寫過一封公開信《whither speech recognition?》,彼時也是語音技術如日中天、funding無數、一些應用開始有了苗頭的時代。在這封信中,pierce嚴厲的批評了當時的語音技術研究和産業狀況,并最終直接導緻了bell labs以及美國政府在70年代初的好幾年時間減少甚至停止了對這一領域研究工作的資金支援。現在看來,這封信中的一些觀點并非完全正确,但其中的一些段落在近50年後的今天讀起來,卻還是給人“yesterday once more”的感覺:“speech recognition has glamor. funds have been available. results have been less glamorous. general-purpose speech recognition seems far away. special-purpose speech recognition is severely limited. it would seem appropriate for people to ask themselves why they are working in the field and what they can expect to accomplish.”好消息是,經過幾十年的起起伏伏,從總體上講語音技術還是震蕩上升的,并取得了令人矚目的進展。一方面,今天在某些限定領域、友好的說話人、較高的信噪比、以及有利的信号采集信道下,語音識别已經可以達到很高的準确率;在一些固定風格下,語音合成也可以達到很高的自然度;在一些超大規模的說話人識别任務上,機器憑借其天然的存儲優勢甚至可以達到超越人類的水準。另一方面,從總體來說,我認為今天的語音技術離大衆的期待仍存在明顯的差距。對真正做技術的人來說,一項技術最有意思的不是它什麼時候能work,而是它什麼時候不work。應該跳出“語音識别準确率97%、98%、甚至99%”這樣的誤導性标題黨,思考我們這個行業的工作在學術研究上到底在哪些方面取得了實質性的進展,在工業應用上到底在哪些方面實實在在的幫助到大衆,在商業模式上到底在哪些方面有所創新。語音産業曆史上的起起伏伏已經證明過,“起”的時候吹過的牛皮越多,“伏”的時候就摔得越慘。

<b>雲栖社群:語音技術涉及多方面,語音識别、語音合成等,可否系統的介紹下阿裡雲et的語音系統? </b>

<b>智捷:</b>簡單來說et是一個強大的基于模型、資料和計算的學習系統(learning machine)。

首先是模型,就是對你要學習的問題的抽象。在et的語音技術部分,我們在很多方面使用了大規模的深度學習模型。例如在語音識别上,我們在業界第一個上線了lc-blstm模型,這一模型對語音識别的準确率帶來了很大的提升,也越來越多的得到了業界的關注的驗證。我們還持續在演進這個模型,最新的研究成果是我們将使用這一模型用于語音識别的速度加速了3倍,并同時獲得了更高的精度。試想一下在阿裡雲的大規模資料中心裡,3倍的速度提升意味着什麼:這意味着省下了2/3的伺服器機架、2/3的電力消耗,使得阿裡雲的客戶可以用很低的成本來享受到普惠的語音識别能力。同樣在語音合成方面,我們用深度學習模型來解決分詞、多音字消歧、停頓預測等等問題,讓我們的語音合成系統說出的話既要講得對(不要念錯字)、又要講得好(抑揚頓挫、清晰自然)。

其次是資料,阿裡巴巴是一家資料公司。每天通過我們的幾大超級app(手機淘寶、支付寶等)、客服呼叫中心、移動作業系統yunos、tob和toc(天貓魔盒等)的産品,我們有大量的真實資料會被收集到雲端。這些資料在匿名化、去除敏感資訊後可以被利用并不斷疊代進化我們的産品和服務,使得語音識别、語義了解的準确度通過機器學習不斷提升。

最後是計算,這也正是阿裡雲的強項。阿裡雲在雲計算方面的優勢使得我們天然擁有一個很好的“雲資料、大計算”基礎。在這個基礎之上,我們建構了專為語音領域機器學習任務優化的軟硬體結合的平台,包括硬體、軟體、中間件,存儲、計算及其之間的互聯互通方案等。這一平台可以使得我們可以以極高的效率完成各種模型的實驗、參數調優以及生産。對于一個數萬小時的語音訓練資料庫,我們僅需要數天時間即可完成end-to-end的訓練和測試。這樣的能力極大的釋放了我們創新和生産的速度,也意味着我們可以用更少的人力去支援更多的客戶,進而大大的降低使用阿裡雲語音服務的客戶所需要付出的成本。

<b>雲栖社群:在雙11現場舞台這種場景下,et的語音系統有哪些技術難點?這些難點是如何解決的?</b>

<b>智捷:</b> 最大的難點是我們語音識别的目标主持人華少,并不是上述所謂“友好的說話人”。大家知道,華少的語速高達每分鐘400字,而我們的et是用大量普通人的語音資料來訓練的,他們每分鐘也就200-300字,這就意味着我們的訓練資料中根本看不到這麼“超人”的語速資料。當天現場還有一個花絮:大家知道,晚會直播節目常常會逾時,et魔術節目排得比較靠後,開始的時間比預定的已經延誤了幾十分鐘,而et後面緊接着就是馬老師的魔術以及零點的雙十一啟動。是以,華少和子佼必須以盡可能快的速度完成et魔術節目,以免影響零點的倒計時。我們後來在回放當天的錄音時發現,華少當時明顯加快了主持的節奏,是以,“中國好舌頭”的語速是對et最大的考驗。

好在我們有一些技術上的準備使得et承受住了壓力,并使得節目順利完成了。首先,很多眼尖的網友也發現了,華少會以“聰明的et”作為提醒et的喚醒詞,這就使得et規避了很多不必要的幹擾,能夠專心聽喚醒詞後面的語句;其次,我們的語言了解子產品具有較好的泛化性,能夠對語音識别的典型錯誤進行一定程度的容錯。應該說,當天華少的語音識别準确率比我們曆來的正常水準都要明顯低,這在一定程度上是意料之外的。還好語義了解子產品非常給力,沒有受什麼影響并最終完成了魔術,這種容錯來自于平時打下的基礎,也算是情理之中。

<b>雲栖社群:et可以實時将華少的現場口播翻譯成文字,一旦出現錯誤,et還會結合上下文語境進行毫秒級修正,這是如何做到的?</b>

<b>智捷:</b>這個功能其實專業的語音識别系統都具備。我們總是基于解碼所在的目前時刻向前回溯,并尋找一個最佳的解碼路徑作為文字輸出。當解碼不斷向前進行時,由于看到的資料更多,回溯的結果也可能會發生變化。這就是為什麼大家看到結果會“修正”的原因。

<b>雲栖社群:et背後的語音技術已經應用到産品中了嗎?</b>

<b>智捷:</b> 當然。在阿裡巴巴集團和螞蟻金服的好多産品中都有我們的影子。例如手機淘寶、支付寶、釘釘、天貓魔盒、yunos手機等等。我們提供語音的能力,幫助使用者更快的找到商品或服務;在阿裡雲,我們的能力也被以公有雲或專有雲的形式輸出,幫助生态上的合作夥伴應用于智能客服、智慧法庭、直播、安全等方方面面;阿裡雲還與yunos共同成立了i3 (institute of interactive intelligence)實驗室,在網際網路汽車、機器人、智能音箱電視、智能家居等方面支援各類iot産品的語音互動。

我們還在集團和螞蟻的智能客服系統中承擔着語音技術的支援角色。例如今天螞蟻的95188客服電話,客戶的問題首先會被“小蟻”機器人來回答;今天手機淘寶裡的客服機器人“阿裡小蜜”,你也可以用語音跟它對話,而其中的語音識别能力就是我們提供的;今天集團和螞蟻客服中心的服務電話都會被我們的語音識别技術記錄下來,作為質檢的基礎及後續資料挖掘和機器學習的原料。

<b>雲栖社群:當大規模的語音資料沉澱下來後,是否可以被挖掘利用?</b>

<b>智捷:</b>已經在挖掘利用了。在智能客服中心,語音資料沉澱下來後被用于服務品質的質檢,提高客服人員的服務品質和問題解答的一緻性;這些資料還被用于讓機器自動的去學習使用者問題和小二解答之間的關聯,進而使得越來越多的問題可以讓機器人自動回答。

<b>雲栖社群:在你看來,下一步et的語音技術需要解決什麼問題?重點發展方向是?</b>

<b>智捷:</b>語音識别方面重點還是要解決目前“不work”的那些場景,例如應用領域不限定、說話人不友好(口音、說話方式等)、噪音、遠場等。

語音合成方面,主要是更佳的、富有變化的情感表現力、篇章級的自然度等,讓人長時間聽而不感到厭煩。

聲紋方面,還需要有較大的基礎技術突破來破解目前應用上“食之無味棄之可惜”的雞肋現狀。

互動技術方面,要研究在iot大潮下如何使得人與機器的溝通在互動上更自然、更易用。

<b>延伸閱讀:</b>

繼續閱讀