亞馬遜Alexa即将推出基于AI的耳語模式

2023-03-06 07:50:29

文章來源：ATYUN AI平台

亞馬遜推出了一系列功能，這些功能将通過其Alexa語音平台推向新的和現有的智能揚聲器。其中一個是“耳語模式”，這使得Alexa能夠通過耳語來回應低聲說話。在今天發表的部落格文章中，亞馬遜Alexa語音系統專家Zeynab Raeesy透露了該功能的AI基礎。

大部分工作都在一篇論文“基于LSTM的耳語檢測”中詳細介紹，該論文将于12月在IEEE口語技術研讨會上發表。

Raeesy表示，“如果你在一個孩子剛剛入睡的房間裡，而其他人走進來，你可能會低聲說話，表明你正試圖讓房間保持安靜。另一個人也可能開始低語，我們希望Alexa以這種自然，直覺的方式對會話線索做出反應。”

Raeesy解釋說，使低語言難以解釋的原因在于它主要是清音，也就是說，它不涉及聲帶的振動。與普通語音相比，它在低頻帶中往往具有更少的能量。

她和同僚研究了兩種不同神經網絡的使用，數學函數層在人腦的神經元之後松散地模組化，以區分正常和低聲的單詞。

兩個神經網絡在架構上有所不同，一個是多層感覺器（MLP），第二個是長期短期記憶（LSTM）網絡，它按順序處理輸入，但是在相同的資料上訓練。所述資料包括（1）對數濾波器組能量，或記錄不同頻率範圍内的信号能量的語音信号的表示，以及（2）“利用”低聲和正常語音之間的信号差異的一組特征。

在測試中，他們發現LSTM通常比MLP表現更好，具有許多優點。正如Raeesy所解釋的那樣，Alexa的語音識别引擎的其他元件完全依賴于日志濾波器組的能量，并且為不同的元件提供相同的輸入資料使整個系統更加緊湊。

然而，這并非一帆風順，至少在最初階段。因為Alexa通過短暫的沉默（一種稱為“結束指向”的技術）識别指令的結束或回複，LSTM的信心度在話語的尾端下降。為了解決這個問題，研究人員對整個話語的LSTM輸出進行了平均分析，最後，丢棄最後1.25秒的語音資料對于保持性能至關重要。

耳語模式将于10月份以美國英語提供。

本文轉自ATYUN人工智能媒體平台，原文連結：亞馬遜Alexa即将推出基于AI的耳語模式

更多推薦

擴充高品質AI資料标記的基本技巧與提示

Bloomreach：為互聯數字型驗提供動力

AI分析兩種語言變量以預測精神疾病，準确率達93％

開發者都應該了解的SOLID原則（上）

亞馬遜Alexa即将推出基于AI的耳語模式

歡迎關注ATYUN官方公衆号,商務合作及内容投稿請聯系郵箱:[email protected]

繼續閱讀