天天看點

智能語音未來十年技術趨勢預測

來源 阿裡語音AI 公衆号

“ 對未來十年作出預測,絕對是一件冒險的事情。事實已經無數次證明,科技的發展往往遠遠超過人們的想象,且近年來各類技術進展的加速度,更有不斷加快的趨勢。

站在一個全新十年的節點上,我們不妨回望過去,再試圖展望未來。試着通過這些回望和展望,能夠尋覓到技術新十年的蛛絲馬迹。

回望過去,在語音技術的應用和研究領域發生了許多有意義的标志性事件。”

第一,手機場景被“解鎖”。

語音技術的應用一直以來都是一個不斷突破并“解鎖”新的場景的過程。衆所周知,語音是人與人之間最自然的互動方式。人類對語音的聽清、聽懂,幾乎是“放之四海而皆準”的。

應對不同的背景噪音、口音、說話方式、主題等等,人類都能幾乎無障礙的使用語音進行交流。例如,即使在一個雞尾酒會上,人類說話人之間仍能交談自如(Cocktailparty effect)。

然而對機器來說,聽清、聽懂人類語音,到目前為止仍是遠未解決的問題。過去我們笑稱“脫離現實場景去空談識别準确率都是耍流氓”

語音識别的準确率直接決定了後續的語義了解、對話等互動技術的性能,是以,不斷提升語音識别在各類複雜場景下的準确率、不斷讓此前做不了或做不好的場景變得可能,一直是無數研究者和實踐者孜孜以求的課題。

過去,以Siri釋出開始,到Googlevoice search的推出,再到shortmessage dictation(例如今天的一些手機語音輸入法),手機場景的語音互動正式跨過了門檻,被逐漸解鎖。

要知道在此前,語音識别技術頂多能夠在close-talking microphone(近講麥克風)條件下,做speaker-independent(說話人無關)的、有限場景的聽寫任務,且準确率有限(典型的英文word errorrate在30%左右)。更不要說類似Siri的手機語音助手互動式應用了。

實作這一“解鎖”,主要歸功于移動網際網路的發展,讓大規模手機語音資料的收集變得可能;其次是以深度學習為代表的機器學習技術應用于語音領域,并持續的取得發展;再次是以GPGPU、分布式計算叢集為代表的算力的大幅提升;最後是與語音互動有關的部分NLP技術的長足進展,包括超大規模語言模型、NLU等。

第二,遠場語音互動被“解鎖”。

與上述手機場景一樣,以Amazon Echo及其背後的Alexa的釋出為代表,遠場語音互動在過去的十年被“解鎖”。這主要得益于麥克風陣列信号處理、語音喚醒技術及IoT硬體的突破。目前,智能音箱已經不陌生,各類帶有遠場語音互動能力的IoT硬體也正如雨後春筍般層出不窮。

今天,如果加上手機、智能音箱等,全球預計有超過30億語音助手在為人類服務。我們正通過這種人與人之間最自然的互動方式,擷取移動網際網路上的内容和服務。

沿着遠場語音互動的路徑,以麥克風陣列、多模态技術為加持的公共空間嘈雜環境下的語音互動也在逐漸得到解鎖。

今天我們可以看到,即使在嘈雜的地鐵站、餐廳,一些語音售票問詢機、語音點餐機等,都逐漸得到應用。

這類場景此前因為噪聲、特别是人聲噪聲的幹擾問題,通常無法得到理想的語音互動體驗。實踐者的探索目前已延申至這個領域,并取得了初步的成功。

第三,語音合成“成長的煩惱”

以前,每一位從事語音合成的技術人員,都夢想有朝一日由機器合成的語音可以接近真人發音。

今天,随着技術的突破性進展,我們已經從努力追求真人發音,到開始擔心機器語音合成技術過于逼真、以緻“以假亂真”的冒用問題,大家可以去體驗目前最新的語音合成技術能夠達到的水準。

今天,定制一個高品質聲音所需的成本(錄音的時間和資金)已經比十年前降低了至少一個數量級。定制一個較低音質、娛樂性的、普通人的聲音,隻需要用手機錄制大約20句話。

這意味着在未來,我們每個人都有望定制一個自己的“聲替”,儲存自己的聲音特征,或替你去回答别人打來的電話等等。

第四,Smooth-talkingAI assistant正走進人類的生活

以Google的Duplex demo為起點,smooth-talking AIassistant被MITTechnology Review評選為2019年十大科技進展,阿裡巴巴的名字因為菜鳥語音助手的成功應用也被提及。

今天越來越多的電話是由機器人接起,或由機器人呼出的。不知各位在過去的一年是否也有接到過AI打來的電話呢?

第五,語音技術在研究領域的進展未曾停止

曆史上語音技術在研究領域的進展通常脈沖式的。以語音識别準确率為例,通常一個新的技術被提出後,會帶來突破性的進展,伴随它的則又是長達10年的沉寂期。

例如,随着80年代末大詞彙量說話人無關連續語音識别系統被提出,一直到90年代末,各類discriminativetraining準則才再一次将語音識别準确率推向下一個高度,随後又是10年左右的沉寂。

語音合成也類似,從2000年左右HMM-basedTTS開始,也經曆了類似長度的沉寂期。

過去,我們欣喜的看到,在語音技術領域的創新,表現在語音識别準确率、語音合成自然度等名額上,不再是脈沖式的靈光一現,更像是細水長流式的持續演進。而且從十年的尺度上回看,日積月累的進步竟累積成了突飛猛進。

在語音識别上,DNN、CNN、RNN、(B)LSTM、FSMN、CTC、attention、transformer等不斷重新整理準确率;語音合成上,DNN、RNN、WaveNet、Tacotron等不斷重新整理自然度;聲紋上,i-vector、x-vector等技術不斷推動其取得更高精度。相應的,與語音互動有關的NLP技術,也随着NLP大方向上的進展而持續取得進步,且語音與NLP的基礎技術(例如transformer)有逐漸融合的趨勢。

第六,語音技術開始展現出更廣闊的商業化前景

以前,在工業界的語音應用幾乎沒有什麼太大的商業價值。很多時候甚至是為軟體系統的accessibility功能而存在的(例如為TTS為視障、ASR為殘障人士提供操作界面)。這也間接造成世界上隻有一些大公司玩得起語音技術。由于招聘規模有限,語音方面人才的培養也逐漸降溫。

今天,伴随着AI技術又一春,以及語音技術本身水準的提升,語音已經開始展現出比以往任何時候都廣闊的商業化前景。随着而來的,是大公司加大投入,以及一批創業公司的誕生、發展,直至語音技術領域人才的炙手可熱。

今天在電話客服、司法政務、教育、網際網路、IoT、電力等等行業,語音技術的應用方興未艾。在語音技術的應用方面,中國也逐漸實作了從趕到超的跨越,在很多方面走在世界前列,也發展出衆多的傳統語音技術提供商及雲上的語音技術提供商。

第七,公民個人隐私等問題正日益受到重視

随着語音助手類應用越來越多走進人們的日常生活,語音技術在公民個人隐私、資料合規、反騷擾甚至詐騙等方面正日益受到更高的重視,相關的熱點事件偶有發生,行業規範和法律法規亟待完善。

可以預見随着下一個十年的到來,這方面的規範會逐漸加強,人們仍需尋找技術進步、安全,與個人隐私方面的平衡和共識。

下面我們逐一來看一下各個語音相關技術能力上的過去回顧和未來展望。

語音識别研究

語音識别的研究由來已久,最早可以追溯到上世紀50年代,但是在過去很長時間語音識别普遍采用的是基于混合高斯模型-隐馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的架構。

2009年,深度學習技術被應用于語音識别,基于混合深度神經網絡-隐馬爾可夫模型(DNN-HMM)的架構替代了原來的GMM-HMM架構。

進一步的, 通過結合大資料,計算力,更強模組化能力的神經網絡結構,基于神經網絡的語音識别系統性能達到了實用化的要求,在智能互動系統裡得到廣泛的使用。

近幾年,語音識别的研究主要的方向是如果建構端到端的語音識别系統(End-to-End ASR)。傳統的語音識别裡,包含聲學模型、語言模型和發音詞典,整個識别系統的建構包含複雜的流程。

端到端語音識别的目标是簡化語音識别系統的建構流程,用一個神經網絡直接端到端模組化語音信号和最終的輸出文本。

關于端到端語音識别主要的研究方向有兩個:1)基于Attention-Encoder-Decoder的端到端語音識别;2)基于RNN-Transducer的端到端語音識别。

目前端到端的語音識别的研究包含:

1)網絡結構的改進:從之前普遍采用的循環神經網絡,開始使用更多種類的網絡結構,例如深層的卷積神經網絡(DCNN),Transformer等等。

2)流式(streaming)識别:Attention-Encoder-Decoder采用的attention需要利用整句的資訊沒法進行流式解碼,目前的研究主要關注在如何進行online attention。

3)小尺寸的端上語音識别模型:随着IOT裝置的普及,以及對使用者資料隐私的保護,可以運作在裝置上的小尺寸的語音識别模型是一個很強的需求。

端到端的識别系統不需要使用額外的大尺寸的語言模型,剛好适合于端上語音識别的需求。

站在新的一個十年,未來建構小尺寸的流式端到端語音識别系統研究将成為工業界應用的趨勢。

除了端到端語音識别,關于多語種語音識别,多模态語音識别,複雜場景下聯合前端信号處理的語音識别也是目前語音識别研究領域關注的重點。

目前通用的中英混讀語音識别已經取得了顯著的進展,開始走向了實用化,進一步的如何擴充到更多語種,以及資源受限的語種是一個研究難點。

聯合音頻和視訊的語音識别(audio-visual ASR)在噪聲環境下展現出了很大的潛力,但是受限了訓練資料擷取的難度,目前主要還是停留于研究階段。

聯合前端信号處理的語音識别在噪聲環境下獲得了顯著的性能提升,但是讓識别系統能夠處理複雜的場景,例如雞尾酒會(Cocktail)問題,需要聯合更多的技術,例如陣列信号處理,說話人分離,語音聲學模組化等。語音識别的研究由來已久,最早可以追溯到上世紀50年代,但是在過去很長時間語音識别普遍采用的是基于混合高斯模型-隐馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的架構。

聯合前端信号處理的語音識别在噪聲環境下獲得了顯著的性能提升,但是讓識别系統能夠處理複雜的場景,例如雞尾酒會(Cocktail)問題,需要聯合更多的技術,例如陣列信号處理,說話人分離,語音聲學模組化等。

語音合成研究

最近兩年的TTS(語音合成)可謂是波瀾壯闊,整個方向的技術、産品和業務形态都發生了翻天覆地的變化。

這個變化首先是從學術界發起的。雖然整個deep learning技術在2010年後就被引入到了語音識别領域,并發揮了巨大的作用。但在TTS方向,一直應用的比較緩慢。直到2016年Google的WaveNet、2017年MILA的Char2Wav和2017年Google的Tacotron,這幾個工作的提出,才将deeplearning的強大能力賦予整個TTS方向,從音質、表現力和模組化難度幾個方面都顯著的超越了過去。

以這幾個傑出工作為開端,學術界和工業界的同學也紛紛在各自領域進行了延伸,形成了目前百花齊放的局面。

而最近兩年,最大的變化是大家開始将學術界的第一流成果帶入到實際産品中,将高體驗的音質效果、接近真人的表現力和小資料量定制聲音的能力産品化。

例如Google Cloud在2018年上線了基于TPU的WaveNet産品化,Microsoft Azure在2018年上線了基于GPU的全Neural産品方案。阿裡雲也在2018年上線了全Neural産品方案,并且考慮到實際客戶和業務的擴充需求,也經過大量的優化工作,該方案是目前業内唯一的完全基于CPU的全Neural産品化方案。

站在新的一個十年,随着核心技術方案的更新換代,對應的産品和業務形态也随之變化。

阿裡巴巴集團客服和螞蟻客服已經采用了最新的TTS産品,為使用者提供更有表現力的智能客服體驗,2019年雙十一期間為數百萬使用者解答問題;天貓精靈也在2019年用最新的技術方案提供高體驗的合成效果,還能為父母根據少量資料定制父母聲音的TTS。

同時,阿裡雲也在2019年對外推出新一代語音合成定制服務,可以依靠新技術提供快速低成本定制服務,例如移動端第一财經APP,就是基于使用者提供的财經新聞主播資料,定制了一款高表現力合成聲音,進而可以在APP上為實際使用者提供高體驗的新聞朗讀效果。

智能麥克風

自從100多年前發明麥克風以來到大約2010年,麥克風的形态從Ribbon,動圈,炭粒,PZT,電容, ECM到MEMS等發生了多次變化,但作為語音通信器件的功能一直沒變。

随着近年來人工智能的發展,麥克風被賦予了新的功能,即作為自動語音識别的前端拾音器件,接收到的聲信号不再是給人耳聽的,而是給具有語音識别功能的機器聽的了,從使用者角度看,麥克風擁有了智能,即麥克風能聽懂人聲與人類交流。

例如這幾年流行的智能音箱,則是麥克風智能拾音的一個典型的産品形态。

目前,像手持麥克風,非免提的手機等場景的近場智能拾音已經基本不成問題,但遠場智能拾音仍是一個挑戰。

相對于目前火爆的視訊AI,由于聲環境的複雜性,遠場智能語音的信号鍊路更長。

首先,由于房間混響的存在,遠場麥克風收到的信号不再是純淨的目标聲源信号,而是原始聲源與房間傳遞函數卷積而來的,而且,房間傳遞函數往往由于空氣擾動,溫度的細微變化等原因是時變的,特别是在高頻頻段;

其次,由于環境聲噪聲與元器件電噪聲的存在,遠場麥克風信号的信噪比可能不高。

另外,像智能音箱場景,從揚聲器來的聲學回波會耦合到麥克風,而目前的自适應抵消器技術在一些場景下還不能完全消除回波。

最後,非目智語音的幹擾人聲也帶來挑戰。

對于上述挑戰,麥克風陣列作為一個明星技術被各大廠商廣泛使用,而智能拾音的性能則很大程度上取決于陣列信号處理算法, 算法的目标函數一般是提高DRR (Direct ReverberantRatio),信号噪聲比,信号幹擾比與更徹底的回波消除。

相對于單個麥克風單元,麥克風陣列由于使用多顆麥克風而大大增加了自由度,這給算法工程師提供了很大的想象空間,各廠商的算法也百花齊放,最常用的算法有MVDR (minimum variancedistortionless response), GSC(general sidelobe canceller), BSS(blind source separation), etc。

阿裡達摩院則是業内首家把信号處理算法與聲學設計相融合,提出了差分指向性麥克風陣列的概念,并且通過原型機證明了可行性:在真實的複雜聲環境下與國際知名品牌對比測試,達摩線性陣列拾音器具有明顯優勢。

基于麥克風陣列的智能拾音器一般有兩種産品形态:定向拾音與全向拾音。

定向拾音器一般用于可控的聲學場景,例如司法審訊場景,審訊人員與嫌疑人的位置是固定的,并且是預設的,是以拾音器的位置固定,且隻需要拾取預定幾個方向的聲源,同時抑制混響與噪聲來提高DRR與信噪比,這類拾音器一般基于線性陣列。

全向拾音這個名稱則往往會導緻一些混淆,因為有一類麥克風單元也稱為全向麥克風,但DRR不高,高品質的全向拾音器則利用多顆全向/定向麥克風單元來達到全向拾音且高DRR的目标,這一般基于單環或多環的圓形陣列。達摩院基于定向單元的圓形拾音器與業界标杆做過對比,主觀評價明顯優異。

智能麥克風的陣列算法除了上述的四個目标,分角色的語音轉文字則是一個比較新的産品需求。該需要的技術難點之一在于說話人在說話時的位置可能會時變,說話時的頭的朝向也有可能會變,例如利用白闆作presentation的場景,是以基于麥克風陣列角度的分角色就有可能不準确。很多廠商也在嘗試結合聲紋技術來解決這個問題。

智能拾音器的另一個趨勢是功能上的all-in-one:通信功能,智能語音功能,與錄音筆功能。這三個功能對于語音的要求很多是相同的,例如降噪,去混響。

但有些方面則不同,通信功能的要求是低延遲,低失真,高帶寬,多人說話時需要混音,以及适當的混響與舒适噪聲填充;智能語音功能的要求則對延遲,失真要求沒那麼高,但對多人同時說話需要分離出目智語音;錄音筆的要求與通信要求有些類似,但在延遲上可以放寬,不需要填充舒适噪聲。

站在新的一個十年,智能拾音器作為Speech AI鍊路中的第一個鍊條則扮演了重要角色,其聲學設計與信号處理直接影響到系統的性能,是以開始受到了業界越來越多的重視。

語音是資訊的一個基本載體,有了人類以來就一直就有語音,是個曆史悠久的研究領域,在這個人工智能時代,語音必将煥發出新的生命。

語音互動

2019年,該領域一個很明顯趨勢是語音入口的總量持續增長:根據Juniper Research的資料,目前全世界已經累計有25億個語音助理存在,包含了智能家居、智能車載、智能手機和可穿戴裝置等諸多品類。

其中作為最為引人關注的智能音箱品類,根據 Strategy Analytics的資料,安裝總量從2018年的1.14億台上升到2019年的2.079億台。

另外,智能穿戴品類中TWS耳機品類迎來大爆發,2019年全年全球出貨總量超過1億台,其中各個主要的手機廠商是最積極的參與者,帶來的一個可能的後果就是使用者使用率本不高的手機語音助手,随着TWS耳機的普及可能迎來一個使用率的提升。

另外,一個趨勢,就是語音入口迅速往更加多樣的裝置上進行擴充,比如亞馬遜就推出帶Alexa的眼鏡、TWS耳機、微波爐、夜燈等等,并且開始支援記憶體小于1MB的低資源嵌入式系統裝置,這些都為語音裝置的擴充帶來了更多的可能。

另外一個方面,語音互動本身朝着個性化互動和更加自然的互動方向發展。在個性化服務方面,蘋果的HomePod可以根據聲音識别不同家庭成員的身份,并且根據使用者的身份生成使用者profile,提供個性化音樂、月曆、語音備忘錄和提醒等服務。

在讓互動更加自然方面,全球主要的語音互動提供商推出了連續自然對話的能力,可以做到跟裝置一次喚醒,多次對話。

站在新的一個十年,隐私問題也将成為未來語音裝置普及的核心問題之一。

這是因為随着語音入口的普及,語音互動也收到了多方面的挑戰。其中最大的一個是語音裝置引起的安全和隐私問題開始受到媒體和大衆的關注,2019年4月份起,媒體開始關注Alexa&GoogleAssistant 的隐私問題,對業界普遍采用的使用使用者資料進行标注和訓練的方法提出了挑戰并做了大肆報道。

在對使用者隐私及其敏感的歐洲地區(有GDPR等使用者資料保護協定),歐盟對Alexa使用使用者語音資料的行為做出了調查。最後作為應對,Alexa可以讓使用者18個月定期自動删除錄音的功能。

模組化智能語音硬體

物聯網通信模組是将基帶晶片、射頻晶片、存儲晶片、電容電阻等各類元器件內建到一塊電路闆上,提供标準接口,各類物聯網終端通過嵌入物聯網通信子產品快速實作通信功能。

同樣地,将智能語音涉及到的麥克風陣列拾音、遠場語音增強算法、語音喚醒、本地語音識别乃至本地語義了解等,也內建到一塊電路闆上,提供标準的接口,各類智能語音裝置也能通過标準化模組,快速實作語音連接配接功能。

1.用2個關鍵連接配接能力賦能

語音模組通過提供2個關鍵連接配接能力(語音連接配接能力和網絡連接配接能力),賦能下遊終端廠商和應用廠商,無需深度的通信和聲學支援,就能快速完成一款産品的落地。

2.模組的能力架構

智能語音未來十年技術趨勢預測

圖表 1. 被控型架構(傳統IoT模組)

智能語音未來十年技術趨勢預測

圖表 2. 達摩院自主架構

圖1所示的傳統IoT架構,依賴音箱(或網關)作為控制中心,隻能在有限的空間,提供比較單一的服務。

如圖2所示,我們将語音和網絡能力內建模組中。下遊廠商在同時獲得語音和網路連接配接能力的同時,還能開發自己的BOT,形成裝置自助工作、甚至多種裝置系統控制的能力架構。并且,在我們各種形态的模組,都能該系統能力架構。

3.模組的産品形态

智能語音未來十年技術趨勢預測

圖表 3. Linux版高配模組

智能語音未來十年技術趨勢預測

圖表 4. RTOS低資源模組

智能語音未來十年技術趨勢預測

圖表 5.音視訊多模态模組

随着無處不在的語音智能戰略的推進,以電視、音箱、故事機、售票機為代表的裝置智能化趨勢明顯,遠場和多模态語音互動技術發展進入深水區,語音實驗室前端處理組在低于-30dB的極低信回比、低于-15dB的極低信噪比、公衆空間等場景的語音增強算法得到進一步錘煉,持續在最具挑戰的各類邊界場景能力保持業界領先。

同時随着接入語音互動能力的裝置進一步進入算力低端化,邊緣語音互動算法的資源(記憶體、算力、功耗等)開銷要求逐漸嚴格,對語音互動高性能的算法設計和工程優化提出了更高要求,達摩院語音實驗室結合領先的算法設計、對理論和場景的深入了解,結合模組和晶片戰略,與平頭哥深入合作,軟硬芯一體化深度優化,推動達摩院領先算法與平頭哥「無劍SoC平台」融合,助力語音算法從晶片端開始的技術普惠生态建立。

站在新的一個十年,随着深度學習技術的深入,晶片和模組上的前端處理算法會進一步融合基于數理方程的信号處理和基于深度神經網絡的機器學習方法,甚至進一步的,會出現完整的端到端模組化的神經網絡模型,實作回聲消除、降噪、語音喚醒和語音識别等互動功能在統一低資源模型上的落地。

感覺計算與認知計算會取得突破性進展,通過創新的聲學設計、信号處理和深度學習,「雞尾酒聚會」問題将會得到解決。創新的算法進展也會進一步推動軟硬一體、感覺認知一體的深入,晶片等硬體會出現認知回報型的設計,存算一體、類腦計算取得實質性突破。

公衆場所智能語音技術應用

公衆場所強噪音環境下的語音識别一直是個比較困難的問題,也極大的限制了語音互動技術在公衆場所的應用和普及。

之前國内的主要語音廠商都曾嘗試過在公衆場所應用語音識别,但是都因為無法解決噪音幹擾問題而失敗。自2017年底阿裡巴巴達摩院通過結合多模态、改進信号處理、以及語音識别、語義了解等方面全鍊路的優化,成功的解決了公衆場所噪音環境的下的語音識别問題。

在2018年初将這項技術迅速的從實驗室落地到生産環境中,推出第一代面向公衆場所的語音互動技術方案。這套語音互動技術實作了強噪音環境下的語音識别,能在85-90db背景噪音下實作90%以上的語音識别率,并且支援免喚醒語音互動,流式多輪多意圖語義了解等功能。

在2019年達摩院又再次在第一代的技術的基礎上,推出了第二代多模态語言互動技術方案。第二代相對于第一代在成本,功耗,性能,體積,內建度都有巨大的進步,還增加國語和方言的自動區分識别,高拟真度語音合成等新功能,整個技術水準相對競品整整領先一代。

随着公衆場所強噪音環境下語音識别技術的突破,原本難以實作的在公衆場所用語音互動也變的可行和成熟。公衆場所可能未來會成為家居和車載以外另一個語音互動應用的重要場景。

在這些場所中,交通領域對于語音互動應用走在了最前面。目前以語音售票機和語音問詢機為代表的公衆空間語音互動産品正在越來越為交通行業所接受和認可。目前已經在全國一些城市的多個交通樞紐都部署了語音售票機,并在過去的一年中服務了上百萬旅客,得到各方好評。現在越來越多的城市開始進一步嘗試運用語音問詢機去解答客戶問題,解放人力,提高服務效率。同時在類似黨建,稅務,醫院,景區等場景也逐漸開始運用語音互動為客戶服務。

語音識别“自學習”技術

在語音AI技術浪潮中,場景化和碎片化仍然是阻礙AI産業化落地的難題,即便正常AI廠商投入大量人力和财力來進行領域模型和重點項目專項調優的建設,但也僅僅隻能覆寫非常有限的場景。

為了從根本上解決這一語音技術供給問題,達摩院語音實驗室17年專有雲釋出了自學習平台這一語音技術供給基礎設施,并在18年公共雲正式上線,提供人名/地名、業務關鍵詞、句子&篇章級定制優化能力。它把傳統模型優化調參、評估、上線的複雜過程變成了資料驅動的點選動作,使得識别效果優化不再依賴于語音識别廠商的專家服務,讓每一個合作夥伴甚至最終客戶的營運人員無需了解AI技術即可自主自助快速顯著提升自己場景的識别準确率以滿足業務需求,樹立了系列标杆案例。

在過去的一年裡,一方面我們釋出了自學習平台2.0,正式将聲學定制優化加入到自學習序列,并開始探索從資料抽取到上線的全鍊路服務能力。

另一方面生态夥伴的力量開始逐漸爆發,在自學習平台的支援下,優化問題開始逐漸降維成資料問題,不少擁有資料的合作夥伴紛紛加盟,開始建立其自己行業領域模型,大幅改善識别效果,語音AI在行業落地的“最後一公裡”問題開始逐漸得以更好解決。

更讓人高興的是越來越多的友商開始加入我們改變語音供求關系的行列。微軟在2019年正式釋出了Custom Speech對外提供聲學和語言模型的定制能力,并以預覽版地方式在Office 365中提供組織級别的場景話術和人名的優化能力,這一做法也與我們從18年開始在釘釘的探索不約而同。同樣,百度也在今年4月正式釋出了語音識别自訓練平台,提供對于語言模型的定制能力。

聲紋及音頻分析技術

達摩院語音實驗室聲紋及音頻分析技術團隊,近一年來集中對深度神經網絡架構結構進行創新,将發音内容引入到網絡模組化中,在公開的聲紋識别測試資料集上,系統性能取得非常顯著的提升。同時,探讨了具有多會話注冊和噪音的魯棒聲紋識别技術,重點在于對注冊和開發資料中呈現的聲紋資訊的組織和利用;長時無關任務下,與目前最先進的系統相比,為基于低維i-Vector模組化探索出一套更多樣化的解決方案,實作了模組化前資訊配置多樣化,進而支援多模型混合部署,降低了計算成本。

達摩院語音實驗室開創性地解決了聲紋識别技術在大規模應用過程中遇到的資料标注難題,通過循環學習方法,讓模型具備從“簡“到“難“學習并掌握不同資料、不同信道、不同文本内容的能力。這種非監督自學習的訓練架構,在顯著提升系統識别性能的同時,大幅降低模組化資料标注成本,使得聲紋識别技術在智能語音互動領域得到大規模應用。

下一個十年,語音AI必将無處不在

站在新的一個十年做“預測”,我們還是從過去尋找一些脈絡。

語音技術在研究領域預計将持續取得“量變”的進展。這意味着語音識别的準确率會持續重新整理,語音合成的自然度會持續提升,語音互動的智能度會越來越讓人感到驚訝。語音技術在逐漸解決感覺智能層面的問題後,會越來越将中心放到認知智能層面,并期待有新的具備“質變”性質的研究會推動後者大步向前。

語音技術将再次“解鎖”此前做不好、做不了的場景。在手機、遠場、電話等場景被“解鎖”後,以會議為代表的諸多更困難的場景,預計會在下一個十年被陸續“解鎖”。

語音技術将成為人人可獲得的“水電煤”。語音技術被供給的方式将在下一個十年完全雲化。任何人隻要需要,哪怕他沒有太多的語音技術專業知識,都可以從雲上獲得開箱即用并可自主自助優化的語音技術。就像今天任何一個開發者都可以從雲上獲得虛拟主機、雲存儲一樣,語音技術不再掌握在少數人或少數大公司手中,而是成為通用的、标品的、雲上的技術。

人類更多包含語音的活動,将被數字化、結構化并存檔。無論是演講、電話、訪談、會議、研讨,越來越多的語音将被記錄下來。因為語音技術的發展,這些資料比以往任何時候都更具價值。基于對這些資料的分析、了解、搜尋,有望在效率、決策等多方面為人們帶來新的價值。

語音技術在公民個人隐私方面必将受到挑戰,新的保護隐私技術将成為研究和應用的熱點。端上計算、邊緣計算等其它領域技術,将助力語音技術在隐私保護方面更進一步。隐私保護的資料交換或訓練算法将被提出。我們将努力在隐私保護與資料利用之間尋求平衡。

上一個十年開啟了語音技術大規模應用的時代。下一個十年,無論人們是在家裡、車裡、辦公室裡、公共空間,或是線上虛拟空間,随時都會有可以與之通過語音進行互動的界面來連接配接人與人、人與網際網路。語音AI必将在我們身邊變得無處不在。

智能語音産品官網連結:

https://ai.aliyun.com/nls
智能語音未來十年技術趨勢預測

繼續閱讀