攻破“雞尾酒會”難題，人聲分離給生活帶來了哪些改變？

試想一下，在一個嘈雜的雞尾酒會上，同時存在着許多不同的聲源：多個人同時說話的聲音、餐具的碰撞聲、音樂聲等等。如何在酒會上分辨出特定人物的聲音，這對于我們人類來說十分簡單。

但對于計算機來說，要把一個音頻信号分割成多個不同的語音來源，依然有許多棘手的問題需要解決。當許多人的語音交疊在一起的時候，AI時常措手不及。1953年Cherry提出“雞尾酒會”問題至今，仍然沒有人能夠解決機器深度學習識别分離人聲的問題。

但是，近日在GoogleResearch 軟體工程師 Inbar Mosseri 和Oran Lang 發表的論文《Looking to Listen at the CocktailParty》中，采用了一個全新的視聽模型為“雞尾酒會”問題提供了一個合适的解決之道。

音頻-視覺語音分離模型，解決“雞尾酒會效應”

為了解決“雞尾酒會”問題，谷歌從YouTube上搜尋了10萬個高品質講座和演講視訊生成訓練樣本，通過約2000 個小時的視訊片段分析，訓練出基于多流卷積神經網絡（CNN）的模型，将合成雞尾酒會片段分割成視訊中每個說話者的單獨音頻流。

該試驗中，輸入是一名或多名發聲對象，同時被其他對象或嘈雜背景所幹擾的視訊。輸出的是将輸入視訊的音軌分解成純淨的音軌，并對應上相應的說話者。

所謂的音頻-視覺語音分離模型，就是加強選中人的語音，同時減弱同一時間其他人的音量。該方法适用于具有單一（主）音軌的常見視訊，使用者也可以自行選擇傾聽對象來生成對其的單一音軌，或者基于語境由算法進行對特定發聲對象進行選擇。

而在模型訓練過程中，網絡系統（分别）學習了視覺和音頻信号的編碼，然後将它們融合在一起形成一個音頻-視覺表現。通過這種表現，網絡系統可以學會為每位發聲對象對應輸出時頻掩碼。輸出的時頻掩碼與噪聲輸入頻譜圖相乘，随後轉換成時域波形，進而形成每一位說話者單獨純淨的音頻信号。

基于神經網絡模型架構

此外，在多人發聲的場景下，視覺信号除了有效提升語音分離的品質，還可以把分離之後的音軌和視訊裡的人物對應起來。此種方式為其後的語音識别領域提供了許多的可能性。

解決“雞尾酒會效應”這一難題意味着什麼？

“雞尾酒會效應”難題的解決為語音識别領域的許多問題提供了思考路徑，同時視覺-音頻網絡識别系統的提出，也為人聲分離提供了視覺+聽覺的解決方式。随着技術落地，當人聲分離技術真正應用于市場中會對産品有哪些改變呢？智能相對論分析師柯鳴認為，其在以下四個方面會有較大突破。

1. 人聲分離助力CC（隐藏式字幕）發展

隐藏字幕（Closed Captioning）是電視節目和電影中為有特殊情況或者需要的觀衆準備的字幕，其可以起到用解釋性語言描述畫面的作用。

Caption 這個詞，有輔助聽力障礙的人士用意。Caption一般還包含了效果音的提示，這些聲音正常人可以分辨，而對于障礙人士則必須通過字幕。

比如美國的「流言終結者」節目，除了可以看到「TV PG」分級标簽以外，也顯示了 CC 标志表明節目提供隐藏式字幕，以此來服務那些需要特殊幫助的群體。

《流言終結者》

同樣，谷歌人聲分離技術對于促進CC發展有較大前景。多通道系統中對于特定人聲的分離能夠簡化節目、電影制作流程，其在語音識别的預處理，以及視訊字幕方面能産生良好效果。

對于視訊自動字幕加載系統而言，多名發生者同時發聲導緻的語音重疊現象是一項已知的挑戰，與此同時，将音頻分離至不同的源也有助于呈現更加準确和易讀的字幕。人聲分離技術可以在語音原聲的基礎上直譯出各個對話主題的聲音，并将其分開，利用AI實作字幕自動化，這極大程度上保證了字幕的同步性與準确性。

2. 人聲分離降低AI同傳“烏龍率”

在2018年博鳌論壇上，騰訊AI同傳搞了一個大烏龍。除了翻譯不準确的問題意外，現場還被曝光翻譯系統崩潰“抽風”，出現亂碼的情況，讓現場相當尴尬。

騰訊AI同傳的“車禍”現場

事後，騰訊指出：出現此種烏龍的原因在于中英雙語切換頻率的問題。當聲源在兩種語言之間不斷轉換時，背景中、英文識别引擎就會同時開始工作，這會導緻兩種識别引擎互相“掐架”，語音識别混亂。最終翻譯結果隻能選擇一種語言進行輸出，導緻引發錯誤。

而人聲分離技術的應用，似乎為AI同傳中的人聲識别提供了一個有效的解決途徑。對于多種語言的識别流暢化後，AI同傳的品質也相應會得到一定的提高。

3. 或可為智能音響提供“保險箱”

AI人聲分離加強智能音響識别精準度

智能音箱的問世，使得普通家庭進入了語音互動的時代，其使用的簡易性甚至超過了智能手機。有業者認為，智能音箱将會取代智能手機，成為家庭自動化或者智能家居生活的入口，自然語言對話将成為主流和高效率的使用者界面。

與此同時，智能音響在應用過程中，也面臨着諸多挑戰，其主要展現在語音識别技術、聲紋識别等諸種技術上。目前，智能音箱的技術難題在于語音識别技術如何在嘈雜的環境中識别語音指令——包括酒吧和體育場等人聲鼎沸的場景。

為此，微軟在Xbox上部署了一款名為Voice Studio的應用，專門收集人們在玩遊戲或看電影時的對話資訊。為了吸引使用者貢獻自己在玩遊戲過程中的對話内容，該公司為參與其中的使用者提供了各種各樣的獎勵，包括點卡和遊戲道具。

但是，效果并不盡如人意。如何在嘈雜環境識别人聲、如何分别多人聲音依然是智能音箱的難題。日後，随着智能家居的普及，智能音響成為了物聯網環境下與其他家居溝通的“鑰匙”，而AI人聲分離技術的應用，攻克技術問題的同時也為智能音響提供了一個安全性較強的“保險箱”。

4. 為無人駕駛提供仿生啟示

“雞尾酒會效應”在動物界的應用為無人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例，其在飛行過程中會發射一系列超音波，超音波遇到障礙後反射回來，蝙蝠通過感覺反射信号到達兩耳的時間差來判斷障礙物的方向，通過感覺反射信号的強度來判斷障礙物的距離。

蝙蝠發出的超聲信号一般是在110kHz的一個掃頻信号，通過感覺不同頻率信号的衰減程度，就可以辨識障礙物的材質，進而可以判斷障礙物是否為捕食對象。

蝙蝠是如何區分自己和他人發出的超音波信号的呢？科學家通過研究發現，蝙蝠并沒有改變發出的超聲頻率，而是通過叫聲變大，持續時間變長，發射頻率增多等方式來解決的。

動物界的“雞尾酒會效應”啟示無人駕駛：想提高雷達的定位精度，提高信噪比是根本。比如，蝙蝠叫聲變大，相當于提高了信号的能量；而叫聲持續時間變長和叫聲頻率增多，則是增加了信号的樣本點數。在噪聲不相關的情況下，經過簡單的平均就可以降低噪聲的影響。這一點，将會為機器人和無人駕駛汽車帶來了新的啟發。

無人駕駛的雷射雷達探測

此外，視覺-音頻語音識别分離模型應用于無人駕駛領域能大程度提高雷達、雷射等距離傳感器測量出路面資訊的性能，而這正是無人駕駛安全保障的基礎。

随着日後無人駕駛的普及，人聲分離模式或可衍生出“雷聲分離”，将雷達誤收風險降到最低，進而保證無人駕駛障礙識别方面的安全性。

誠然，新技術的應用需要一段時間。谷歌官方目前也表示：“正在探索使用這個技術到谷歌系列産品中去”。随着“雞尾酒會”難題的解決，AI語音識别将會有長足進展。具體投入産品後表現怎樣，還需要市場來檢驗。

攻破“雞尾酒會”難題，人聲分離給生活帶來了哪些改變？

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希