天天看點

聆聽天籁的背後,為你解讀天籁AI語音輔聽/增強算法

3月3日愛耳日,中國聯通聯合騰訊會議旗下天籁實驗室釋出“暢聽王卡更新版”,在語音通話和實時字幕雙場景下,讓聽障使用者不僅“聽得清”,同時也能“看得清”。

在這背後,依托于天籁實驗室專為聽障人群打造的天籁AI語音輔聽/增強算法,創造性地采用了“用增強語音的方式來做語音增強”,從騰訊會議實踐出發,一路向善,不斷地将技術價值向外延伸。

來源丨騰訊天籁實驗室

聽得清=零噪聲?

你可能也曾遇到過這樣的場景:

在一個嘈雜的餐廳中,同桌的兩人在專注地交談,盡管周圍噪聲很大,但兩人耳中隻聽到對方的說話聲,似乎完全聽不到談話内容以外的各種噪音。

這是聲學領域裡常見的“雞尾酒效應”。

事實上,不同頻率聲音的言語能量和可懂度有所不同,那怎麼樣的聲音才能被“聽得清”,繼而能被“聽得懂”呢?

不妨來聽聽這樣一組聲音。

語音A(原始帶噪語音)

在波形上,能直覺感受到有很強的風噪幹擾。

在聽感上,由于噪聲幹擾,語音可懂度非常低。

語音B(簡單降噪邏輯處理後語音)

将語音A進行降噪處理後,波形變得非常幹淨。然而,聲音的可懂度并沒有提高。

聆聽天籁的背後,為你解讀天籁AI語音輔聽/增強算法

簡單的降噪邏輯雖然能夠對噪聲進行抑制,但這種做法破壞了語音結構,導緻聲音忽高忽低,語音的可懂度卻沒有獲得提升。是以,語音增強和降噪,并不能劃等号。

而對于聽障人群來說,這個問題尤為關鍵。

相對來說,聽障使用者可感覺的語音成分非常少,隻能通過有限頻段的感覺,來獲得語音的感覺。若隻采用簡單的“降噪”思維來處理,往往會造成一種“噪聲處理地太幹淨,但我反而聽不清你在說什麼”的窘境。

用增強語音的方式來做語音增強

這仿佛是個魚與熊掌不可兼得的問題。但回歸人類聽覺本質,問題似乎就能迎刃而解。

盡管人們對聲音信号的感覺和處理過程仍待探索,但有一件事情是清楚的:越能從接收的信号中準确提取語音成份,可懂度就越好。“于是我們想到了從“語音”,而非“噪聲”的角度來切入處理。”天籁實驗室研究人員說。

針對于聽障使用者的體驗痛點,天籁實驗室的研究人員創造性提出了用“增強語音”的方式來做“語音增強”的思路,并研發出天籁AI語音輔聽/增強算法——cSENN (一種基于語音上下文關系深度學習的語音增強方法)。

天籁AI語音輔聽/增強算法

通過天籁自主研發的AI算法識别出帶噪語音裡面的語音的成分,先用一種合理的方式将其保護起來,再對聲學的噪聲進行有效的抑制。

這個做法,在對背景幹擾聲做了有效的抑制的同時,也能保持較高的語音可懂度,讓使用者聽得更清。

不妨來聽聽語音A經過天籁算法增強後的效果。

語音C(天籁技術增強後語音)

從波形上看,似乎跟簡單“降噪”處理的效果差不多,但是明顯地,增強後的語音保留得更好、輸出語音平穩,同時把噪聲抑制到理想水準。

聆聽天籁的背後,為你解讀天籁AI語音輔聽/增強算法

這項技術,也在騰訊天籁行動,被應用于中國聯通暢聽王卡中。

在“暢聽王卡更新版”中,在天籁AI語音輔聽/增強算法的加持下,使用者将在語音溝通、實時字幕雙場景下均獲得更好的體驗,實作典型噪音場景下單一位元組言語識别率提升66%,和實時字幕别準确率提高5.5-9.9個百分點。

以下是一段實錄視訊:在上行發送端非常嘈雜的情況下,下行接收端的通話品質和字幕效果均表現優異。

注:下行端采取手機外放方式錄屏,音頻品質有影響

源自騰訊會議,一路向善

聽得清、聽得真,是騰訊會議緻力于給使用者提供的音頻體驗。

作為騰訊會議旗下的頂尖音頻實時通信和處理研發團隊,天籁實驗室從騰訊會議的大量實踐場景出發,此前基于上千小時的語音噪聲資料,通過深度學習和AI算法,已經成功消除300多種環境噪聲,并已成功應用在騰訊會議上。

此前,騰訊會議推出的個性化語音增強功能,也是天籁實驗室在“用增強語音的方式來做語音增強”思路下的一個成功實踐,能夠在環境噪聲消除的基礎上,進一步消除周圍人聲的幹擾,凸顯主講人的聲音信号,仿佛一個“會找主人的麥克風”,打造更加幹淨、純粹的溝通體驗。

該技術的準确率在微軟組織的ICASSP 2022 DNS個性化語音增強比賽評測中排名第一,MOS分相對微軟提供的基準線高出0.57,相對處理前的語音MOS分高出1.41。

“騰訊天籁行動”正是天籁AI技術在聽障領域應用的“技術價值外溢”, 為兩億騰訊會議使用者提供會議降噪,在億級産品上進行了成熟驗證後,保障良好的視訊會議體驗的同時,踐行騰訊科技向善理念,在技術公益領域探索,将技術用于人工耳蝸降噪、AI輔聽和字幕識别優化等場景,解決社會問題,将社會責任真正融入産品及服務之中。

未來,天籁實驗室也将持續保持開放,也期望有更多的夥伴加入我們,共同為廣大使用者打造更加純淨、高質的音頻體驗。

繼續閱讀