天天看點

标題黨太吓人?這篇文章會告訴你DeepMind關系推理網絡的真實面貌

每當DeepMind發表一篇新論文時,媒體都會狂熱的跟蹤報道,而且會使用很多誤導人的短語。比如關于該關系推理網絡的報道:

DeepMind開發了一種神經網絡,能夠感覺其周圍的物體。

實際上這種報導不僅僅是誤導性的,而且使得很多不明真相的吃瓜群衆感到恐慌:AI真的已經強到如此地步了嗎?在這篇文章中,将介紹DeepMind論文:A simple neural network module for relational reasoning,試着通過最簡單的方式介紹這個最新的架構。

從最簡單的角度來說,關系推理就是學着去了解不同物體之間的關系(思想)。這種能力被認為是智能的一個基本特征。作者使用了一個圖來解釋什麼是關系推理:

圖1,模型需要關注一個不同形狀、大小、顔色的物體,并能夠回答關于多個物體之間關系的問題

作者提出了一種神經網絡,其本質是為了捕捉關系(就像卷積神經網絡是為了捕捉圖像的特征)。他們提出了一個如下定義的架構:

等式1:推理網絡的定義

解釋:

對O的關系網絡是函數fΦ,其中O是想要學習關系的一組物體。

gθ是關于兩個物體:oi, oj的方程。輸出為我們所關心的“關系”。

Σ表示計算所有可能的物體對,計算他們的關系并加和。

在學習神經網絡,反向傳播等的時候,我們很容易忘記這點,但實際上,神經網絡就是一個數學函數!是以,上面等式1描述的就是一個神經網絡,更準确的說是兩個神經網絡:

1.       gθ,計算了一對物體之間的關系

2.       fΦ,計算了所有g的加和,并計算了整個模型的最終輸出

gθ和fΦ在最簡單的情況下都是多層感覺機。

作者提出了關系神經網絡作為元件。他們可以接受編碼過的物體作為輸入,并從中學習關系,更重要的是,他們可以很容易的插入到卷積神經網絡,以及長短期記憶網絡(LSTM)中。

卷積網絡可以通過圖像學習到物體。這對于實際應用有很大幫助,因為從圖像中推理遠比使用者手工定義物體數組更實用。

LSTM和單詞嵌入何以用來了解問題的含義。這同樣更有實際意義,目前模型已經可以接受英文句子作為輸入,而不是編碼的數組。

作者提出了一種方法将關系網絡、卷積網絡、LSTM網絡結合到一起,建構了一種端到端的神經網絡,以學習物體之間的關系。

圖2:端到端關系推理神經網絡

圖2的解釋

圖像會通過一個标準卷積神經網絡(CNN),在這個過程中卷積神經網絡會通過k個濾波器提取圖像特征。推理網絡中的“物體”即是圖中網格每點的特征向量。例如,途中黃色的向量就代表一個“物體”。

問題會通過一個LSTM網絡,這會産生該問題的特征性向量。可以粗略地表示這個問題的“含義”。

對于等式1,這裡有一個輕微的修正,加入了一個額外的項:

額外的一項q,表示LSTM的最終狀态。

在這之後,從CNN網絡中得到的“物體“以及從LSTM網絡中得到的向量被用來訓練關系網絡。每個物體對,以及從LSTM中得到的問題向量都被用作gθ(一個神經網絡)的輸入。

将gθ的輸出求和,作為fΦ(另一個神經網絡)的輸入。然後優化fΦ以回答問題。

作者在幾個資料集上展示了該模型的有效性。這裡隻介紹一個最重要的資料集中的結果—CLEVR資料集。

CLEVR資料集包括不同形狀、大小和顔色的物體的圖像。模型會被問到如下圖的問題:

這個立方體的材質與這個圓柱體的材質一樣嗎?

圖3:物體的類型(上),位置組合(中&下)

作者表示,在準确度方面,其他系統都遠遠落後于他們的模型。這是由于關系網絡就是為捕捉關系而設計的。他們的模型達到了前所未有的96%+的準确度,相比之下,使用stacked attention模型的準确度隻有75%。

圖3.1 CLEVR資料集上不同方法的比較

關系網絡機器适合于學習關系。該方法可以高效地使用資料。同時該方法也足夠靈活,可以與CNN,LSTM一起作為一個混合解決方案。

本文也想通過正确的解讀,來打破許多大型媒體關于“AI将會接管一切”的宣傳,讓大家正确的了解目前最好的方法能夠做到什麼程度。

本文作者:高雲河

繼續閱讀