【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

2023-06-25 08:24:03

Deep Modular Co-Attention Networks for Visual Question Answering

先了解下這個要幹嘛：

Visual Question Answering (VQA)：給一個圖檔和關于這個圖檔的問題，然後模型輸入這兩個資料，輸出答案。

文章中用得到的資料庫VQA-v2裡的一個例子：

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

把中間的亂七八糟給蓋住：

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

輸入問題：胡子是用什麼做的？

輸出答案：香蕉

需要設計網絡做到同時了解文本内容，抓住關鍵詞，同時了解圖檔中關鍵區域的内容：“哪裡是胡子”這個問題肯定得先定位出來才能解下來回答“是用什麼做的”。

網絡既能了解文本又能了解圖像，一聽就比較神奇，這就涉及到多模态（兩種不同的資料類型）了。

文章中認為此類問題的關鍵是共同注意力機制 “co-attention”，同時關注文本中的key word以及圖檔中的key objects。

之前的研究可以利用淺層網絡實作 “co-attention”，但是效果一般，加深的網絡相比于淺層網絡也沒什麼提升。

文章中針對上面的問題，提出了 Modular Co-Attention Network 網絡，這個網絡又由MCA layer組合而成。

每個MCA layer都由兩個元素組成，1 self-attention 2 guided-attention

MCA layer

Modular Co-Attention Layer

兩個基本單元，self-attention unit (SA)和guided-attention unit (GA)，本質上是一樣的，其實就是受transformer的啟發，the scaled dot-product attention ，具體可以參考[1]；

這兩種單元可以做特定的組合，能夠得到三種不同結構的 MCA layer；

self-attention unit (SA)

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

一個輸入X;

一個輸出Z;

輸入 X X X X = [ x 1 ; . . . ; x m ] ∈ 2 R m ⇥ d x {X = [x_1; ...; x_m]}\in2 R^{m⇥d_x} X=[x1;...;xm]∈2Rm⇥dx

multi-head attention學習到了成對輸入元素之間的關系， < x i , x j > <x_i, x_j> <xi,xj>

得到的輸出Z，直接會經過FC(4d)-ReLU-Dropout(0.1)- FC(d)；

guided-attention unit (GA)

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

兩個輸入X和Y;

一個輸出Z；

X ∈ R m ⇥ d x X\in R^{m⇥d_x} X∈Rm⇥dx

$Y = [y_1 ; …; y_n ]\in R^{n⇥d_y} $

Y對X的attention具有指導作用；

GA對X與Y元素之間 < x i , y j > <x_i, y_j> <xi,yj>的組合關系進行模組化；

組合

三種組合

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

不同的輸入以及連接配接方式；

MCAN

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

兩種deep co-attention模型：stacking 和encoder-decoder；

![[外鍊圖檔轉存失敗,源站可能有防盜鍊機制,建議将圖檔儲存下來直接上傳(img-st4bjlwy-1605009424297)(./1605008116068.png)](https://img-blog.csdnimg.cn/20201110200549996.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzM3NDc3MTc1,size_16,color_FFFFFF,t_70#pic_center)

stacking模型是由多個MCA層串聯成的，輸出的是最終的圖像特征和問題特征。encoder-decoder模型思路來自于Transformer模型，編碼器是由L個SA單元來學習問題特征，解碼器是用SGA單元，根據問題特征來學習圖像特征。

圖像特征次元 X ∈ R m ⇥ d x X \in R^{m⇥d_x} X∈Rm⇥dx.

文本query是将輸入的問題先劃分為單詞，最多為14個單詞，之後再用300維的GloVe word embeddings方法将每一個單詞轉化為一個向量。詞嵌入再輸入一個單層的LSTM網絡（有個隐藏單元)，輸出一個query的特征矩陣Y。

參考

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob

Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010, 2017.

【論文閱讀】Deep Modular Co-Attention Networks for Visual Question Answering

先了解下這個要幹嘛：

MCA layer

self-attention unit (SA)

guided-attention unit (GA)

組合

MCAN

參考

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡