人民大學提出聽音識物AI架構，不用人工标注，嘈雜環境也能Hold住

不用人工标注，也能讓AI學會聽音尋物。

還能用在包含多種聲音的複雜環境中。

比如這個演奏會視訊，AI就能判斷出哪些樂器在發聲，還能定位出各自的位置。

這是中國人民大學高瓴人工智能學院最近提出的新架構。

對于人類而言，聽音識物是一件小事，但是放在AI身上就不一樣了。

因為視覺和音頻之間對應關系無法直接關聯，過去算法往往依賴于手動轉換或者人工标注。

現在，研究團隊使用聚類的方法，讓AI能夠輕松識别各種樂器、動物以及日常生活中會出現的聲音。

同時，這一方法還能遷移到無監督的物體檢測任務中，其成果被發表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》 (TPAMI)。

建構物體視覺表征字典

具體來看這個架構，可以分為兩個階段：

在第一階段，AI要在單一聲源場景中學習物體的視覺-音頻表征；然後再将這一架構遷移到多聲源場景下，通過訓練來辨識更多的聲源。

通俗一點來講，就是讓AI先能把一種聲音和其聲源物體的樣子聯系起來，然後再讓它在“大雜燴”裡分辨不同的種類。

以聽音樂會舉例。

研究人員喂給AI的都是樂器獨奏視訊，可能包含大提琴、薩克斯風、吉他等等。

然後運用聚類的方法，讓AI把所有的樣本進行劃分。聚類的每一個簇，被認為能夠代表一種語義類别的視覺表征集合。

由此一來，AI便在無形之中掌握了不同樂器在外觀和聲音上的關系，也就是可以聽音識物了。

在這個過程中，研究人員針對每個簇進行特征提取并打上僞标簽，可以建構出一個物體視覺表征字典。

第二階段中，研究人員讓這個架構先能從視覺方面定位出畫面中存在的不同物體，然後再根據聲音資訊過濾掉不發聲物體。

其中，定位物體這一步用到了第一階段中得出的物體視覺表征字典。

具體來看，對于某一幀多聲源的場景，AI會先從畫面中提取到不同物體的特征，然後再和字典中的各個類别比對，進而完成聽音識物的初步定位。

之後，将畫面中存在物體的定位結果與發聲區域進行哈達瑪積，過濾掉不發聲的物體，同時還能細化發聲物體的定位結果。

從直覺識别效果中看，該方法能夠很好辨識畫面中的發聲物體，而且在視覺識别準确度上表現也更好。

△每行前3張為真實演奏場景，後4張為合成場景

在具體表現上，研究人員分别使用了合成音樂、二重奏等4個資料集來測試這個架構識别的水準。

結果顯示，此次提出的新方法表現都非常nice，尤其是在樂器分布更加均衡的資料集上。

那麼不聽音樂、隻聽日常的聲音，表現又會如何呢？

作者分别展示了成功和失敗的一些例子：

△一些成功案例

△一些失敗案例

作者表示，出現失敗的情況中，一方面是無法定位到正确的聲源位置（如上圖第一行）。

還有一些是不能辨識某些場景中的特定聲音（如上圖第二行）。

此外，這種方法還能遷移到物體檢測任務中去。比如在ImageNet子集上的無監督物體檢測表現也值得關注。

團隊主要來自人大AI學院

本項研究由中國人民大學高瓴人工智能學院主導，通訊作者為GeWu實驗室胡迪助理教授，主要内容由GeWu實驗室博士生衛雅珂負責。

胡迪于2019年博士畢業自西北工業大學，師從李學龍教授。曾榮獲2020年中國人工智能學會優博獎，受中國科協青年人才托舉工程資助。

主要研究方向為機器多模态感覺與學習，以主要作者身份在領域頂級國際會議及期刊上發表論文20餘篇。

中國人民大學文繼榮教授也參與了此項研究。

他目前為中國人民大學高瓴人工智能學院執行院長、資訊學院院長。

主要研究方向為資訊檢索、資料挖掘與機器學習、大模型神經網絡模型的訓練與應用。

論文位址：https://arxiv.org/abs/2112.11749

項目首頁：https://gewu-lab.github.io/CSOL_TPAMI2021/

人民大學提出聽音識物AI架構，不用人工标注，嘈雜環境也能Hold住

繼續閱讀

2022樂橙新品釋出會：14款新品齊發軟體硬體全面更新

有沒有給視訊配音的軟體？分享能給視訊配音的軟體

别讓ChatGPT跑了

梗圖搜尋神器來了！還能搜視訊，網友：找了六年的梗圖兩分鐘解決

用ChatGPT作弊，小心被抓，反剽竊水印技術讓學生噩夢提前到來

谷歌“狂飙”生成式AI賽道，最新模型可憑文字、圖檔“創作”音樂

情人節送禮指南2023

ChatGPT發瘋怎麼辦？小冰李笛：兩個關鍵，我可破之

特斯拉公布兩項全新專利，将提升視覺感覺系統

體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

從 Air到Max，Rokid 問題究竟在哪

小紮親自官宣Meta視覺大模型！自監督學習無需微調

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI

驚聞人民大學資訊學院，後為高瓴人工智能學院研究所學生，盜用全校學生學籍資訊，自編了一個顔值打分系統，根據學生的證件照照片，給

#熱聞分享大家說##大學生資訊被盜#7月1日，網傳中國人民大學一名2019級畢業男生在讀碩士研究所學生期間，利用專業技術盜取

我和導師、清華大學教授羅老師；中國人民大學高瓴人工智能學院博導孫老師；中國人民大學附屬中學資訊學技術主任袁老師等專家給2