天天看點

【CVPR2018】如何增強Attention Model的推理能力

目前Attention Model已經被用到了機器視覺,自然語言了解,語音識别,機器翻譯等等各行各業。各種各樣的Attention Model也被各種Task使用。如何增強Attention Model的推理能力、在使用Attention Model的時候提升模型性能,成為了一個關鍵的問題。在本文中,我們介紹一種在CVPR 2018大會提出的方法,可以通過極為簡單的改進有效的提升Attention Model的性能。

論文題目:Stacked Latent Attention for Multimodal Reasoning

【CVPR2018】如何增強Attention Model的推理能力

什麼是Attention Model

首先我們用下圖的例子簡單的重溫Attention Model:

【CVPR2018】如何增強Attention Model的推理能力

給定Hidden State,Attention Model可以學到對輸入(圖示中為圖像)Tensor最相關的Mask,并使用Mask對輸入Tensor進行權重和,并将權重和後得到的Content Vector作為Attention Model的輸出。換而言之,Attention Model可以學到給定輸入中最重要的部分,進而對輸入進行“總結”。

增強Attention Model的性能的方法——Stacked Attention Model

接下來我們介紹一種非常常用的增強Attention Model的性能的方法:Stacked Attention Model。顧名思義,就是簡單的拼接(Stack)多個Attention Model,将前一個AttentionModel的輸出作為下一個Attention Model的輸入。具體實作如下圖所示:

【CVPR2018】如何增強Attention Model的推理能力

在今年剛剛召開的CVPR大會中,研究者對這種常用的增強Attention Model的方法進行了探索,提出了上圖中方法的缺陷,并通過極為簡單的改進有效地增強了Attention Model的推理性能:

【CVPR2018】如何增強Attention Model的推理能力

研究者發現,在Attention Model“總結”輸入Tensor的同時,造成了資訊瓶頸(Information Bottleneck),該資訊瓶頸會導緻模型性能下降。同時因Attention Model的SoftMax集中在Pathway上而造成了梯度彌散,進而導緻在使用多層Attention Model時模型難以優化(Optimize)。

研究者提出,通過簡單将多層Attention Model的隐變量(Latent State)連接配接(Concat)起來(上圖綠色虛線),就可以解決資訊瓶頸和梯度彌散問題。如上圖所示,在沒有綠色虛線的情況下,模型僅僅将多層Attention Model疊加起來,此方法不但1)在每兩個Attention Model之間造成了資訊瓶頸,同時2)因主要Pathway中有多個SoftMax,而造成梯度彌散。

文章提出,僅僅通過增加上圖中的綠色虛線,将前一層Attention Model中的隐變量(LatentState) 連接配接(Concat)到下一個Attention Model中,就可以1)打破資訊瓶頸,同時2)通過提供了新的Pathway避開原Pathway中的多個SoftMax,進而緩解梯度彌散,進而3)提升模型性能。

【CVPR2018】如何增強Attention Model的推理能力

實驗表明,當将多層Attention Models的隐變量連接配接起來,随着簡單增加所連接配接的Attention Model的數量,整體模型性能得到了顯著的提升。同時梯度彌散問題得到了明顯的緩解:

【CVPR2018】如何增強Attention Model的推理能力

該文章的更多細節可以參考:

http://openaccess.thecvf.com/content_cvpr_2018/papers/Fan_Stacked_Latent_Attention_CVPR_2018_paper.pdf

原文釋出時間為:2018-07-02

本文作者:專知

本文來自雲栖社群合作夥伴“

專知

”,了解相關資訊可以關注“

”。

繼續閱讀