天天看點

中國人工智能學會通訊——智能語音技術與産業應用展望 1.2 智能語音産業應用的現狀和挑戰

智能語音産業應用,基本上都是從語音控制、語音識别和語音互動作為切入點建立起來的,根據不同的定位和形态,目前主要分為以下4類。

(1)APP類純軟語音應用。如Apple Siri和Microsoft Cortana等,在手機、平闆或PC上以軟體方式解決操作和聊天等問題,内置各種搜尋、問答和對話服務。

(2)軟硬一體的語音互動應用。如智能音箱Amazon Echo、智能電視、智能語音空調等應用,語音成為主要互動手段,實作控制和相關内容服務擷取。

(3)垂直領域的語音轉寫應用。如醫療語音病例錄入、法律語音轉寫、語音客服資料分析等,将語音資料進行實時或離線轉錄,後期做結構化分析。

(4)基于語音識别的口語評測等應用。對使用者口語語音進行發音、流利度、韻律等評估,并檢測口語發音、文法等錯誤,幫助使用者提升口語水準。

智能語音産業應用,目前還面臨着使用者普及率、認可度和活躍度不夠高的問題,原因是多樣的,這些挑戰主要包括下面4個方面。

(1)基礎技術需要繼續改進和完善。特别是複雜應用場景、噪聲、口音和專業領域的語音識别穩定性和适應性,是擴大實用範圍的關鍵,更多的是針對具體應用問題進行優化,提高準确度;與此同時,還要提高語義了解和容錯能力,減少使用者人機互動過程出錯的影響。

(2)統一的智能語音互動設計标準和規範。語音是新興人機互動方式,與傳統的觸屏互動相比,優勢在于表達豐富和快速一鍵直達的能力;劣勢在于不像GUI所見即所得那麼直覺,還有一定出錯率,會給使用者造成一定的互動心理障礙。

(3)高內建度的智能語音互動方案。除了手機、平闆之外,智能裝置普遍沒有錄音功能,降噪更難解決,開發者對語音相關引擎的優勢、局限了解不清晰,加上使用者對語音互動的認知還缺乏統一規範,高內建度的智能語音互動方案,對快速落地就特别重要。

(4)标準和開放的内容和服務接口。智能語音互動方案,解決的是使用者以更加快捷和自然的方式擷取内容服務的問題,但内容和服務本身,需要針對智能語音互動方式進行優化,是一個重要的問題。

繼續閱讀