天天看點

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

不用人工标注,也能讓AI學會聽音尋物。

還能用在包含多種聲音的複雜環境中。

比如這個演奏會視訊,AI就能判斷出哪些樂器在發聲,還能定位出各自的位置。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

這是中國人民大學高瓴人工智能學院最近提出的新架構。

對于人類而言,聽音識物是一件小事,但是放在AI身上就不一樣了。

因為視覺和音頻之間對應關系無法直接關聯,過去算法往往依賴于手動轉換或者人工标注。

現在,研究團隊使用聚類的方法,讓AI能夠輕松識别各種樂器、動物以及日常生活中會出現的聲音。

同時,這一方法還能遷移到無監督的物體檢測任務中,其成果被發表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》 (TPAMI)。

建構物體視覺表征字典

具體來看這個架構,可以分為兩個階段:

在第一階段,AI要在單一聲源場景中學習物體的視覺-音頻表征;然後再将這一架構遷移到多聲源場景下,通過訓練來辨識更多的聲源。

通俗一點來講,就是讓AI先能把一種聲音和其聲源物體的樣子聯系起來,然後再讓它在“大雜燴”裡分辨不同的種類。

以聽音樂會舉例。

研究人員喂給AI的都是樂器獨奏視訊,可能包含大提琴、薩克斯風、吉他等等。

然後運用聚類的方法,讓AI把所有的樣本進行劃分。聚類的每一個簇,被認為能夠代表一種語義類别的視覺表征集合。

由此一來,AI便在無形之中掌握了不同樂器在外觀和聲音上的關系,也就是可以聽音識物了。

在這個過程中,研究人員針對每個簇進行特征提取并打上僞标簽,可以建構出一個物體視覺表征字典。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

第二階段中,研究人員讓這個架構先能從視覺方面定位出畫面中存在的不同物體,然後再根據聲音資訊過濾掉不發聲物體。

其中,定位物體這一步用到了第一階段中得出的物體視覺表征字典。

具體來看,對于某一幀多聲源的場景,AI會先從畫面中提取到不同物體的特征,然後再和字典中的各個類别比對,進而完成聽音識物的初步定位。

之後,将畫面中存在物體的定位結果與發聲區域進行哈達瑪積,過濾掉不發聲的物體,同時還能細化發聲物體的定位結果。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

從直覺識别效果中看,該方法能夠很好辨識畫面中的發聲物體,而且在視覺識别準确度上表現也更好。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

△每行前3張為真實演奏場景,後4張為合成場景

在具體表現上,研究人員分别使用了合成音樂、二重奏等4個資料集來測試這個架構識别的水準。

結果顯示,此次提出的新方法表現都非常nice,尤其是在樂器分布更加均衡的資料集上。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

那麼不聽音樂、隻聽日常的聲音,表現又會如何呢?

作者分别展示了成功和失敗的一些例子:

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

△一些成功案例

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

△一些失敗案例

作者表示,出現失敗的情況中,一方面是無法定位到正确的聲源位置(如上圖第一行)。

還有一些是不能辨識某些場景中的特定聲音(如上圖第二行)。

此外,這種方法還能遷移到物體檢測任務中去。比如在ImageNet子集上的無監督物體檢測表現也值得關注。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

團隊主要來自人大AI學院

本項研究由中國人民大學高瓴人工智能學院主導,通訊作者為GeWu實驗室胡迪助理教授,主要内容由GeWu實驗室博士生衛雅珂負責。

胡迪于2019年博士畢業自西北工業大學,師從李學龍教授。曾榮獲2020年中國人工智能學會優博獎,受中國科協青年人才托舉工程資助。

主要研究方向為機器多模态感覺與學習,以主要作者身份在領域頂級國際會議及期刊上發表論文20餘篇。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

中國人民大學文繼榮教授也參與了此項研究。

他目前為中國人民大學高瓴人工智能學院執行院長、資訊學院院長。

主要研究方向為資訊檢索、資料挖掘與機器學習、大模型神經網絡模型的訓練與應用。

人民大學提出聽音識物AI架構,不用人工标注,嘈雜環境也能Hold住

論文位址:https://arxiv.org/abs/2112.11749

項目首頁:https://gewu-lab.github.io/CSOL_TPAMI2021/

繼續閱讀