天天看點

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

一, 介紹:

這篇文章是在ReGAT-關系感覺圖形注意網絡用于視覺問答的基礎上的進一步研究,

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

文章首先通過一個例子說明ReGAT模型隻考慮了圖像的區域之間的關系,沒有考慮問題的單詞之間關系就會造成答案錯誤。例如上圖,問題是裁判員的衣服顔色是什麼,答案卻是黑色而不是藍色。原因就在于沒有考慮問題中單詞之間的關系(

這其實類似于注意力中隻考慮圖像各區域的自注意而沒有考慮單詞的注意力

本文貢獻:

1)提出了一種雙通道圖卷積網絡(DC-GCN)來同時捕捉視覺和文本的關系,并設計了注意對齊子產品來對齊多模态表示,進而減少視覺和語言之間的語義差距。

2)探索如何通過圖卷積網絡在語言層面建構單詞之間的句法依賴關系,以及在視覺層面建構對象之間的關系。

3)我們在VQA-v2和VQA-CP-v2資料集上進行了大量的實驗和消融研究,以檢驗我們DC-GCN模型的有效性。實驗結果表明,該DC-GCN模型在現有方法的基礎上取得了較好的性能。

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

本文首先通過faster rcnn得到圖像特征hv(100×2048),然後先将每個單詞嵌入300次元的Glove向量中,再将單詞嵌入送到LSTM編碼中得到問題特征hq(14×300),每個圖像100個區域,每個問題14個單詞。

分别經過圖像圖卷積子產品和問題圖卷積子產品得到更新後的圖像特征Hv和Hq,然後再送入注意對齊子產品來對齊多模态表示,進而預測答案。

在具體分析之前,可以看到,送入圖像圖卷積子產品的出來區域特征還有空間關系,這個空間關系就是每個區域的位置特征(x1,y1,x2,y2),送入問題圖卷積子產品的除了問題嵌入,還有依賴解析,即每個單詞之間的關系,具體有以下幾種:

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

二,詳細分析:

2.1圖像卷積子產品(I-GCN)

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

圖像卷積子產品的處理步驟如上圖所示:

1,全連接配接圖:首先建立每個節點(區域的每個對象)建立全連接配接圖。一張圖檔中的每個區域作為一個頂點。

2,通過空間關系剪枝,得到稀疏圖。有重疊就有關系,邊為1,無重疊就無關系,即邊為0。

3,然後計算權重。具體地,通過計算兩個區域特征的相關性分數,計算兩個區域重疊的面積,來确定兩個區域之間關系權重。文章認為重疊越多的關系越大。

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

Sij是兩個區域的相似性分數,hvi表示第i個圖像節點特征,[hvi, hvj]是一種級聯操作

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

aij是兩個對象之間的權重,圖檔中的紅色數字。

4,然後是通過圖卷積進行節點更新,最後進行不同層級的更新,得到最終的Hv

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

A是區域關系矩陣,區域i和j有關系,則Aij=1,否則,Aij=0

在L層後輸出

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

2.2問題卷積子產品(Q-GCN)

與圖卷積類似,不同的是11種空間關系(覆寫,包含,重疊等)變成了上面的15種語義依賴分析的關系(det 決定因素,dep 依賴關系,root 根節點等)。

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

每個句子中的單詞視為一個節點,同樣是經過全連接配接,剪枝稀疏圖,賦予不同權重,更新節點,得到Hq。

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

2.3注意對齊子產品:

通過上面的圖像圖卷積和問題圖卷積子產品得到更新後的圖像和問題特征Hv,Hq

首先是問題的自注意,然後是問題引導圖像的注意。

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

最後進行答案預測:

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

三,實驗結果

模型在VQA2.0上面确實得到了不錯的結果,但是,在VQA-cp 2.0上面的結果遠低于CSS模型的結果(58.95%)

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記
Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記

一些個人看法:

1,文章的主要貢獻在于在ReGAT的基礎上添加了問題的圖卷積,如果想繼續深入研究,注意力的是一方面,圖卷積的順序可能也是一方面。就像注意力機制一樣,注意力的順序連接配接方式。(而且為什麼隻對問題有自注意,對圖像沒有自注意,個人認為對問題進行自注意可能會省略資訊,而對圖像沒有自注意,可能會有噪聲,因為一個圖像取100個區域,而一個問題隻有14個單詞。)

2,文章提出的觀點有一點點缺陷,文章開頭例子是想說明之前的工作沒有考慮問題對答案的影響,而實際上,文章提出的模型解決問題并不在于添加了問題的圖卷積,而是在于後面的問題對于圖像的引導。

3,文章内容中對關系的考慮,過多的考慮空間關系,而沒有考慮圖像的語義關系。

作者的消融實驗隻考慮了I-GCN和Q-GCN對實驗的影響,對上述疑問并過多沒有考慮

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering論文筆記
以上隻是個人看法,另外ReGAT模型隻看了一篇部落格,沒有看原文也沒有跑代碼,如果了解有誤,歡迎批評指正

繼續閱讀