【CVPR2018】如何增強Attention Model的推理能力

2018-07-02 23:50:00

目前Attention Model已經被用到了機器視覺，自然語言了解，語音識别，機器翻譯等等各行各業。各種各樣的Attention Model也被各種Task使用。如何增強Attention Model的推理能力、在使用Attention Model的時候提升模型性能，成為了一個關鍵的問題。在本文中，我們介紹一種在CVPR 2018大會提出的方法，可以通過極為簡單的改進有效的提升Attention Model的性能。

論文題目：Stacked Latent Attention for Multimodal Reasoning

什麼是Attention Model

首先我們用下圖的例子簡單的重溫Attention Model：

給定Hidden State，Attention Model可以學到對輸入（圖示中為圖像）Tensor最相關的Mask，并使用Mask對輸入Tensor進行權重和，并将權重和後得到的Content Vector作為Attention Model的輸出。換而言之，Attention Model可以學到給定輸入中最重要的部分，進而對輸入進行“總結”。

增強Attention Model的性能的方法——Stacked Attention Model

接下來我們介紹一種非常常用的增強Attention Model的性能的方法：Stacked Attention Model。顧名思義，就是簡單的拼接（Stack）多個Attention Model，将前一個AttentionModel的輸出作為下一個Attention Model的輸入。具體實作如下圖所示：

在今年剛剛召開的CVPR大會中，研究者對這種常用的增強Attention Model的方法進行了探索，提出了上圖中方法的缺陷，并通過極為簡單的改進有效地增強了Attention Model的推理性能：

研究者發現，在Attention Model“總結”輸入Tensor的同時，造成了資訊瓶頸（Information Bottleneck），該資訊瓶頸會導緻模型性能下降。同時因Attention Model的SoftMax集中在Pathway上而造成了梯度彌散，進而導緻在使用多層Attention Model時模型難以優化（Optimize）。

研究者提出，通過簡單将多層Attention Model的隐變量(Latent State)連接配接（Concat）起來（上圖綠色虛線），就可以解決資訊瓶頸和梯度彌散問題。如上圖所示，在沒有綠色虛線的情況下，模型僅僅将多層Attention Model疊加起來，此方法不但1）在每兩個Attention Model之間造成了資訊瓶頸，同時2）因主要Pathway中有多個SoftMax，而造成梯度彌散。

文章提出，僅僅通過增加上圖中的綠色虛線，将前一層Attention Model中的隐變量(LatentState) 連接配接（Concat）到下一個Attention Model中，就可以1）打破資訊瓶頸，同時2）通過提供了新的Pathway避開原Pathway中的多個SoftMax，進而緩解梯度彌散，進而3）提升模型性能。

實驗表明，當将多層Attention Models的隐變量連接配接起來，随着簡單增加所連接配接的Attention Model的數量，整體模型性能得到了顯著的提升。同時梯度彌散問題得到了明顯的緩解：

原文釋出時間為：2018-07-02

本文作者：專知

本文來自雲栖社群合作夥伴“

專知

”，了解相關資訊可以關注“

”。

【CVPR2018】如何增強Attention Model的推理能力

繼續閱讀

使用hector構圖_如何使用均衡的構圖拍攝更清晰的照片

GMS：基于網格運動統計的快速極度魯棒的特征比對摘要1 簡介2 本文的方法3 應用于快速記分的網格架構4 實驗 5 結論

如何使用前景和背景建立更清晰的照片

在Ubuntu16.04上提取相鄰序列圖像之間的ORB的特征點，并用暴力方法找到比對點并連線一、什麼是ORB特征二、什麼是暴力比對三、實作代碼四、運作方法

Matlab中将二維灰階圖像三維顯示

anaconda中科大鏡像

車道線檢測

自監督｜「CoCLR」視訊自監督對比學習筆記

NLP從入門到放棄_IBM Model1IBM Model1

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡