天天看點

清華團隊研發腦啟發AI模型,為感覺資訊處理提供全新範例

作者:DeepTech深科技

人類天生具有分離各種音頻信号的能力,比如區分不同的說話者的聲音、或将聲音與背景噪音區分開來。這種天生的能力被稱為“雞尾酒會效應”。

中樞聽覺系統通過分析聲音流中的模式的統計結構(例如頻譜或包絡),可以輕松地在混合的聲音中識别特定的目标聲音。

在 AI 領域,設計與人類一樣強大的語音分離系統長期以來一直是一個重要目标。

先前的神經科學研究提示:人類大腦經常利用視覺資訊來幫助聽覺系統解決 “雞尾酒會問題”。

受到這一發現的啟發,視覺資訊被納入進來以改善語音分離品質,由此産生的方法被稱為多模态語音分離方法。

如果系統能夠捕捉到唇部運動,這一額外線索将有助于語音處理,因為它在嘈雜環境中補充了語音信号的資訊丢失。

然而,現有的多模态語音分離方法的分離能力仍遠遠不及人類大腦。

基于此,清華大學生物醫學工程學院苑克鑫教授團隊打造了一款腦啟發 AI 模型(CTCNet,cortico-thalamo-cortical neural network)。

清華團隊研發腦啟發AI模型,為感覺資訊處理提供全新範例

圖 | 苑克鑫(來源:苑克鑫)

該模型的語音分離性能大幅領先于現有方法,不僅為計算機感覺資訊處理提供了新的腦啟發範例,而且在智能助手、自動駕駛等領域有潛力發揮重要作用。

苑克鑫表示:“CTCNet 是在皮層-丘腦-皮層環路和 A-FRCNN 基礎上的結果。”

近些年,苑克鑫課題組針對進階聽覺丘腦及其皮層聯接的架構和生理學特性進行了系統性研究。

在此基礎上,結合清華大學計算機系胡曉林教授課題組之前的語音分離應用算法,他們提出了一種多模态語音分離方案。

然後,使用公開資料集進行了一系列的語音分離測試和調參,最終才得到了具有優異語音分離性能的 CTCNet。

清華團隊研發腦啟發AI模型,為感覺資訊處理提供全新範例

(來源:TPAMI)

是以,本次研究是在機制研究的基礎上引發的應用研究。

“總體而言,這是一個雙向奔赴的合作過程。作為一名 AI 研究者,也許可以通過閱讀腦科學領域的文獻來獲得靈感,但與腦科學研究者的直接溝通一定是最為高效。”苑克鑫說。

他繼續表示,在沒有相應知識的情況下,AI 研究者通過閱讀文獻來了解大腦的工作原理是有一定困難的。

而作為腦科學研究者,應該有将研究成果向 AI 領域轉化的意識和意向,主動與 AI 領域的研究者接觸、讨論,這樣才有可能碰撞出火花。

事實上,AI 研究者在沒有腦科學知識的情況下,已經在試圖模拟大腦的部分功能,隻不過腦科學研究者并不知道。

通過接觸和了解,腦科學研究者就有機會将其研究成果遷移至 AI 研究者已經開展的腦功能模拟的嘗試中,進而助力于開展真正有效的腦啟發 AI 研究。

苑克鑫表示:“通過本次研究,我深切體會到了神經科學與 AI 領域的研究人員之間加強交流,對于有效開展腦啟發 AI 相關工作的重要性。”

清華團隊研發腦啟發AI模型,為感覺資訊處理提供全新範例

圖 | 胡曉林(來源:百度百科)

據了解,苑克鑫與胡曉林都同時是清華大學與大腦研究相關的三個中心的兼職研究員,是以經常有機會互相聽對方的工作報告,這成為了他們發起合作的契機。

另外,由于神經科學與 AI 是兩個截然不同的學科,合作的成功離不開雙方團隊成員的密切交流。

雖然在交流過程中經常出現詞同意不同的情況,甚至出現互相聽不懂對方在說什麼的情況,但是雙方都有足夠的耐心去了解對方措辭的内涵,這成為了最終合作成功的重要保障。

最終,相關論文以《由皮層-丘腦-皮層環路啟發的視聽語音分離模型》(An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits)為題發在 Transactions on Pattern Analysis and Machine Intelligence(TPAMI)[1]。

胡曉林團隊的碩士生李凱是第一作者,苑克鑫團隊的博士後謝鳳華、以及胡曉林團隊的博士生陳航分别是第二作者和第三作者,苑克鑫和胡曉林擔任共同通訊作者。

清華團隊研發腦啟發AI模型,為感覺資訊處理提供全新範例

圖 | 相關論文(來源:TPAMI)

下一步:

首先,他們将解析在單丘腦神經元水準上視、聽覺資訊的空間和時間整合模式,希望能夠借助于該模式實作對 AI 模型的更新,進一步提高模型的語音分離性能,使其能夠應對更加複雜的自然場景;

其次,他們将探索該模型在其他應用場景,如探索在噪音背景下的醫學信号檢測中的應用潛力;

最後,他們将解析在中樞感覺系統中處于更低層級腦區,如中腦中的多模态神經元的解剖、功能聯接架構,進而探索這些聯接架構啟發 AI 模型建構的潛力。

預計拟建構的一系列 AI 模型,将能逆向揭示不同多模态感覺核團、及其中的神經元,在中樞感覺資訊進行中可能扮演的重要角色和工作機制。

參考資料:

1.K. Li, F. Xie, H. Chen, K. Yuan and X. Hu, "An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits" in IEEE Transactions on Pattern Analysis & Machine Intelligence, vol. , no. 01, pp. 1-15, 5555.

營運/排版:何晨龍

繼續閱讀