10月30日消息,剛剛結束的李佳琦直播間裡,剁手黨通過阿裡語音機器人首次實作與主播的實時互動。直播過程中,數十萬使用者同時用語音回答李佳琦的提問,最終機器人在50毫秒内就完成了語音識别和語音回報全過程,反應速度是傳統語音的20倍。

今年雙11期間,淘寶直播間推出 “語音猜價格”功能,觀衆在直播間也能實作語音互動,例如動動嘴就可以響應主播發出的猜産品價格任務。語音機器人成為決定這一互動過程能否順暢的關鍵。
據介紹,一場淘寶直播的觀衆數量可達百萬甚至千萬,并且使用者分布在全國各地,口音差異較大,目前主流的語音技術方案很難做到短時間内快速響應如此體量的使用者語音,例如類似Siri識别使用者語音的響應時長就在1秒以上,無法滿足直播場景強互動的要求。
此次淘寶直播間采用了達摩院最新的移動端離線端到端語音識别技術。基于全新的網絡結構和語音識别架構,即便在低配手機上,也能在50毫秒内完成語音互動過程,速度是傳統語音識别的20倍;此外,該技術還解決了快語速、重口音等問題,高難度場景中的語音識别錯誤率降低近三成。
達摩院語音實驗室技術專家萬玉龍表示,”在實時性要求極高的場景,傳統的雲端語音方案無法滿足需求,這套語音技術的創新在于同時實作了識别速度和準确度的提升,語音AI模型部署在每個使用者的淘寶直播APP上,即便直播間有千萬級别的使用者,AI也不會漏聽慢判。”
過去幾年,阿裡語音AI在基礎研究和應用上取得了一系列突破。2019年,阿裡語音AI入選《麻省理工評論》”全球十大突破性技術”,是唯一上榜的中國科技公司;今年7月IDC釋出的《中國AI雲服務市場半年度研究報告》顯示,阿裡語音AI以44%的市場佔有率,在雲上語音AI市場中位居第一。
原文位址:
https://www.doit.com.cn/p/387329.html通路2020阿裡巴巴雙11技術全觀專題:
https://developer.aliyun.com/topic/1111techs/2020了解更多關于2020雙11的技術幹貨内容