不止視覺，CMU研究員讓機器人學會了聽音辨物！

作者 | 蔣寶尚

編輯 | 陳大鑫

在機器人技術中，雖然我們已經在視覺和觸覺方面取得了巨大的進步，但是對聲音的研究一直稍有欠缺。

近日，來自卡内基梅隆大學的研究員們，首次對聲音和機器人動作之間的互相作用進行了大規模研究。

具體而言，他們開發了一款名為 Tilt-Bot的機器人，能夠通過傾斜托盤研究物體運動和聲音之間關系，準确率接近80。另外，研究成果以論文的形式發表在《機器人學：科學與系統》（Robotics: Science and Systems）上。

論文下載下傳位址：

https://arxiv.org/pdf/2007.01851.pdf

項目github位址：

https://github.com/Dhiraj100892/swoosh

Tilt-Bot本質上是個托盤機器人，由多個關節的機械臂、托盤和固定裝置組成，托盤四周有邊框，上面貼着用于記錄物體撞擊的聲波捕捉裝置。

圖注：運動中的物體和聲音資料收集

如上圖所示，托盤的正上方還固定了一個攝像頭，用于捕捉物體運動軌迹，後期再與聲音變化相比對。

實驗時，研究人員會把不同的物體放到托盤中，機械臂随後開始向前後左右傾斜，托盤中的物體也随之移動。

如果傾斜過大，物體就會撞到邊框并發出響聲，撞擊力度越大，捕捉到的聲波波峰也就越高。

是以，受過訓練的機器人隻需要分析物體滑動和撞擊的聲音記錄，就可以區分不同物體。另外，作者在論文中提到，即使同是金屬質地的螺絲刀和扳手也可以成功分辨，總體成功率接近 80%。

值得一提的是，作者在實驗過程中，根據收集的資訊還建立了包含60個物體，15,000個互動（碰撞等）的聲音-動作-視覺資料集。資料收集過程如下動圖所示：

另外，在論文中作者也給出了在實驗中得到的三個觀察：1、聲音是完成細粒度物體檢測任務的神器；2、聲音是行動的訓示器；3、從聲音可以推斷出物體的實體屬性。

其中，第一個觀察意味着：僅僅根據一個物體發出的聲音，一個AI學習模型就可以從60個物體中以79.2%的準确率識别該物體；第二個觀察意味着，通過聲音，AI學習模型就可以預測外力對該物體施加了什麼動作；第三個觀察意味着，通過聲音可以測試物體隐含的實體特性。

以上三個觀察，作者用了三種研究方法進行證明。

研究方法

為了了解和研究聲音與動作的協同作用，卡内基梅隴大學的研究人員重點研究了三大類學習任務：1、細粒度分類(或執行個體識别)；2、逆向模型學習；3、下遊正向模型學習（downstream forward-model learnin）。

其中，在細粒度識别任務中，一般是用視覺圖像作為輸入來完成的。在作者的論文中，主要是以音頻作為輸入研究“聲音”中包含什麼樣的資訊。

具體而言，對于作者TiltBot資料集中的60個物體，作者先建立一個包含80%資料的訓練集和一個包含20%資料的測試集。

然後，作者訓練一個簡單的CNN，隻把音頻資訊作為輸入，并輸出産生聲音的對象的執行個體标簽。這個架構類似于下圖☟

經過測試，模型能夠達到76.1%的分類準确率。另外，為了進一步了解聲音給能夠提供哪些資訊，作者研究了“聲音”模型的常見分類錯誤，總的來說有兩種情況：第一，同一物體的顔色無法識别；第二，當聲音很小，例如物體隻是稍動一下，物體的資訊就會被掩蓋掉，也會造成分類失敗。如下圖所示：

圖注：兩類分類錯誤

在逆學習模型的任務中，主要解決“物體動作識别”任務。另外，此模型研究的是聲音是否包含有關行為、動作的因果資訊。

在問題設定中，模型将物體互動（物體碰撞等動作）之前和之後的觀測作為輸入，具體而言互動之前物體的圖像，以及互動期間産生的聲音，模型輸出的是互動期間的動作。由于逆模型學習可以在以前未見過的物體上進行測試，是以作者在論文中提到，此模型不僅可以在訓練中測試音頻特征的泛化，而且還可以在新對象上測試音頻特征的泛化。

在前面兩個問題中，我們已經看到聲音确實包含細粒度執行個體和動作的因果關系的資訊。但是用什麼樣的損失函數訓練适用于多個下遊任務的音頻嵌入呢？

一種方法是在Tilt-Bot資料上訓練執行個體識别任務上的嵌入，而另一種選擇是在逆模型任務上進行訓練。這兩個任務都編碼不同形式的資訊，其中分類編碼對象的可識别屬性，反向模型編碼對象的實體屬性。

但是，作者從多任務學習的工作中得到了啟發，訓練了一種聯合嵌入，可以同時對分類和動作資訊進行編碼。

另外，作者在論文中還提到，了解音頻嵌入中包含的資訊還有一種方法，即給定輸入對象執行個體的前三個最近（最相似）的對象執行個體。例如，将長螺絲刀與長蝴蝶刀相比對；将黃色物體與其他顔色物體相比對。如下圖的TSN特征圖所示，進一步證明了相似的物體是如何接近的，而實體上不同的物體是如何相距較遠的。

在下遊正向模型學習任務中，主要研究是否可以在與對象進行實體互動之前使用聲音來提取該對象的實體屬性。此靈感來自于最近關于環境探測互動的工作：實作真正的政策之前，需要使用探測互動來了解潛在的因素。

而在卡内基梅隆大學的這項工作中，具體是通過把探測互動産生的聲音，用作表示對象的潛在參數。

總結

卡内基梅隆大學的“聽音辨物”工作主要有三個貢獻：

第一，建立了最大的聲音-動作-視覺機器人資料集；

第二，證明了可以使用聲音進行細粒度的物體識别；

第三，證明了聲音是動作的訓示器。