天天看點

亞馬遜Alexa即将推出基于AI的耳語模式

亞馬遜Alexa即将推出基于AI的耳語模式

文章來源:ATYUN AI平台 

亞馬遜推出了一系列功能,這些功能将通過其Alexa語音平台推向新的和現有的智能揚聲器。其中一個是“耳語模式”,這使得Alexa能夠通過耳語來回應低聲說話。在今天發表的部落格文章中,亞馬遜Alexa語音系統專家Zeynab Raeesy透露了該功能的AI基礎。

大部分工作都在一篇論文“基于LSTM的耳語檢測”中詳細介紹,該論文将于12月在IEEE口語技術研讨會上發表。

Raeesy表示,“如果你在一個孩子剛剛入睡的房間裡,而其他人走進來,你可能會低聲說話,表明你正試圖讓房間保持安靜。另一個人也可能開始低語,我們希望Alexa以這種自然,直覺的方式對會話線索做出反應。”

Raeesy解釋說,使低語言難以解釋的原因在于它主要是清音,也就是說,它不涉及聲帶的振動。與普通語音相比,它在低頻帶中往往具有更少的能量。

她和同僚研究了兩種不同神經網絡的使用,數學函數層在人腦的神經元之後松散地模組化,以區分正常和低聲的單詞。

兩個神經網絡在架構上有所不同,一個是多層感覺器(MLP),第二個是長期短期記憶(LSTM)網絡,它按順序處理輸入,但是在相同的資料上訓練。所述資料包括(1)對數濾波器組能量,或記錄不同頻率範圍内的信号能量的語音信号的表示,以及(2)“利用”低聲和正常語音之間的信号差異的一組特征。

在測試中,他們發現LSTM通常比MLP表現更好,具有許多優點。正如Raeesy所解釋的那樣,Alexa的語音識别引擎的其他元件完全依賴于日志濾波器組的能量,并且為不同的元件提供相同的輸入資料使整個系統更加緊湊。

然而,這并非一帆風順,至少在最初階段。因為Alexa通過短暫的沉默(一種稱為“結束指向”的技術)識别指令的結束或回複,LSTM的信心度在話語的尾端下降。為了解決這個問題,研究人員對整個話語的LSTM輸出進行了平均分析,最後,丢棄最後1.25秒的語音資料對于保持性能至關重要。

耳語模式将于10月份以美國英語提供。

本文轉自ATYUN人工智能媒體平台,原文連結:亞馬遜Alexa即将推出基于AI的耳語模式

更多推薦

擴充高品質AI資料标記的基本技巧與提示

Bloomreach:為互聯數字型驗提供動力

AI分析兩種語言變量以預測精神疾病,準确率達93%

開發者都應該了解的SOLID原則(上)

亞馬遜Alexa即将推出基于AI的耳語模式

歡迎關注ATYUN官方公衆号,商務合作及内容投稿請聯系郵箱:[email protected]

繼續閱讀