不用人工标注,也能讓AI學會聽音尋物。
還能用在包含多種聲音的複雜環境中。
比如這個演奏會視訊,AI就能判斷出哪些樂器在發聲,還能定位出各自的位置。
這是中國人民大學高瓴人工智能學院最近提出的新架構。
對于人類而言,聽音識物是一件小事,但是放在AI身上就不一樣了。
因為視覺和音頻之間對應關系無法直接關聯,過去算法往往依賴于手動轉換或者人工标注。
現在,研究團隊使用聚類的方法,讓AI能夠輕松識别各種樂器、動物以及日常生活中會出現的聲音。
同時,這一方法還能遷移到無監督的物體檢測任務中,其成果被發表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》 (TPAMI)。
建構物體視覺表征字典
具體來看這個架構,可以分為兩個階段:
在第一階段,AI要在單一聲源場景中學習物體的視覺-音頻表征;然後再将這一架構遷移到多聲源場景下,通過訓練來辨識更多的聲源。
通俗一點來講,就是讓AI先能把一種聲音和其聲源物體的樣子聯系起來,然後再讓它在“大雜燴”裡分辨不同的種類。
以聽音樂會舉例。
研究人員喂給AI的都是樂器獨奏視訊,可能包含大提琴、薩克斯風、吉他等等。
然後運用聚類的方法,讓AI把所有的樣本進行劃分。聚類的每一個簇,被認為能夠代表一種語義類别的視覺表征集合。
由此一來,AI便在無形之中掌握了不同樂器在外觀和聲音上的關系,也就是可以聽音識物了。
在這個過程中,研究人員針對每個簇進行特征提取并打上僞标簽,可以建構出一個物體視覺表征字典。
第二階段中,研究人員讓這個架構先能從視覺方面定位出畫面中存在的不同物體,然後再根據聲音資訊過濾掉不發聲物體。
其中,定位物體這一步用到了第一階段中得出的物體視覺表征字典。
具體來看,對于某一幀多聲源的場景,AI會先從畫面中提取到不同物體的特征,然後再和字典中的各個類别比對,進而完成聽音識物的初步定位。
之後,将畫面中存在物體的定位結果與發聲區域進行哈達瑪積,過濾掉不發聲的物體,同時還能細化發聲物體的定位結果。
從直覺識别效果中看,該方法能夠很好辨識畫面中的發聲物體,而且在視覺識别準确度上表現也更好。
△每行前3張為真實演奏場景,後4張為合成場景
在具體表現上,研究人員分别使用了合成音樂、二重奏等4個資料集來測試這個架構識别的水準。
結果顯示,此次提出的新方法表現都非常nice,尤其是在樂器分布更加均衡的資料集上。
那麼不聽音樂、隻聽日常的聲音,表現又會如何呢?
作者分别展示了成功和失敗的一些例子:
△一些成功案例
△一些失敗案例
作者表示,出現失敗的情況中,一方面是無法定位到正确的聲源位置(如上圖第一行)。
還有一些是不能辨識某些場景中的特定聲音(如上圖第二行)。
此外,這種方法還能遷移到物體檢測任務中去。比如在ImageNet子集上的無監督物體檢測表現也值得關注。
團隊主要來自人大AI學院
本項研究由中國人民大學高瓴人工智能學院主導,通訊作者為GeWu實驗室胡迪助理教授,主要内容由GeWu實驗室博士生衛雅珂負責。
胡迪于2019年博士畢業自西北工業大學,師從李學龍教授。曾榮獲2020年中國人工智能學會優博獎,受中國科協青年人才托舉工程資助。
主要研究方向為機器多模态感覺與學習,以主要作者身份在領域頂級國際會議及期刊上發表論文20餘篇。
中國人民大學文繼榮教授也參與了此項研究。
他目前為中國人民大學高瓴人工智能學院執行院長、資訊學院院長。
主要研究方向為資訊檢索、資料挖掘與機器學習、大模型神經網絡模型的訓練與應用。
論文位址:https://arxiv.org/abs/2112.11749
項目首頁:https://gewu-lab.github.io/CSOL_TPAMI2021/