天天看點

IBM 語音識别新方向:仿生蝙蝠耳能用聲納精準“聆聽”

IBM 語音識别新方向:仿生蝙蝠耳能用聲納精準“聆聽”

蝙蝠使用生物聲呐,為夜晚在叢林中飛行導航。他們的超音波脈沖,可以比人造聲呐裝置更精确地對聲音進行定位。為複制、駕馭這種能力,ibm 學院獎獲得者 rolf müller 教授協同他在弗吉尼亞理工學院(virginia tech)的團隊,設計了一種人造蝙蝠耳。

rolf müller 的研究引起了 ibm 的注意。ibm 專家韓金萍(音譯)的神經計算團隊,和 ibm watson 語音專家崔曉東(音譯)和他的同僚, 看到了 müller 教授人造“動态外耳”(dynamic peripheral,蝙蝠可轉動的外耳使它們的生物聲呐更加準确)的潛力 ,并希望借此提高人類語音了解的能力。他們把 müller 的博士生 anupam gupta 納入團隊,一同他們探索人造蝙蝠仿生耳在語音處理的應用。

他們發現,這些仿生耳不僅是很有效的聲呐裝置,對語音識别同樣能起到作用。

IBM 語音識别新方向:仿生蝙蝠耳能用聲納精準“聆聽”

模仿菊頭蝠的人造耳

研究團隊根據蝙蝠改變耳朵形狀的能力,仿制了一個動态接收系統。它能提高自動語音識别系統(asr)的精确度,還能更準确地對談話者定位。韓金萍将在他們的論文《受菊頭蝠啟發的接收動力學把動态特點加入語音信号》,及本周美國聲學協會第 172 屆會議上展示了這一發現。

這些動态系統有潛力發展成讓使用者“像蝙蝠那樣聆聽”的語音接收裝置。這會改進現有的助聽器和指向性傳聲器。并可應用于任何需要對聲音來源進行定位、了解的場景。

設想你身處一個忙碌、吵鬧的集市。聽清楚你旁邊的人在說什麼都可能是一項挑戰。有了這項技術,同伴的聲音就能被一個可變形的助聽器識别,然後翻譯成你能聽懂的話。它還可以過濾掉鬧市的雜音,和其他人嗡嗡的說話聲。

蝙蝠的超音波具有 10 – 200 khz 的頻率,而人耳隻能識别 20 hz – 20 khz 的聲音。是以對我們來說它聲調太高,大多數是聽不到的。為了駕馭蝙蝠的生物聲呐頻率和精度,gupta 加入韓金萍團隊編寫能夠把語音訊号轉化為超音波脈沖的代碼——然後再把超音波轉化為我們能夠聽到的正常語言。

這首先需要建立一個資料庫。為了盡可能地簡化,韓金萍團隊使用了卡内基梅隆大學開源資料庫中,11 個美式英語朗讀者的英語字母和數字的發音。

舉例子,以字母“a” 或者數字“1”形式出現的資料,被麥克風接收,然後轉化為超音波信号。超音波揚聲器播放該信号。随後,具有“動态外耳”的人造蝙蝠耳接收信号。最後,軟體把超音波信号轉化為原始資料——字母“a” 或者數字“1”。

雖然隻包含字母和數字的聲音信号資料庫有較大限制,但通過分析它,韓金萍團隊表示人造耳用“動态、方向性的的時間頻率模型”豐富了語音信号。下一步,研究人員把人造耳處理後的聲音與原始語音進行對比,來衡量人造耳的精度。是以,他們把原始語音資料和經人造耳處理的聲音資料,放入分類器( classifier )中進行識别。67% 的語音信号能被成功識别出來。而在沒有動态外耳的對照組中,隻有 35% 的聲音資料被識别。

有了更多的可用分析資料後,研究員們将着手用行業基準來對該系統進行測試,并開發仿生學習算法。再或者,将來他們可能會開發一個“聆聽” app,把智能手機麥克風變成接入物聯網的指向性麥克風,來幫助使用者選擇現實中他想要聽到的聲音。ibm 研究人員認為,實作它并不是太遙遠。

【招聘】雷鋒網(公衆号:雷鋒網)堅持在人工智能、無人駕駛、vr/ar、fintech、未來醫療等領域第一時間提供海外科技動态與資訊。我們需要若幹關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優良的外翻編輯加入。工作地點深圳。履歷投遞至 [email protected] 。兼職及實習均可。