“深度學習注意力機制”TKDE 2022研究綜述

新智元報道

來源：專知

【新智元導讀】注意力機制（Attention Mechanism）是深度學習中常用的子產品，作為一種資源配置設定方案，将有限的計算資源用來處理更重要的資訊，是解決資訊超載問題的主要手段。下面這篇是來自Erasmus University的Gianni Brauwers和Flavius Frasincar在TKDE上發表的《深度學習注意力機制》綜述論文。

注意力是一種重要的機制，可用于跨許多不同領域和任務的各種深度學習模型。這項綜述提供了一個關于深度學習注意力機制的重要概述。

各種注意力機制通過一個由注意力模型，統一符号，和一個全面的分類注意力機制組成的架構來進行解釋。

在此基礎上，本文綜述了注意力模型評價的各種方法，并讨論了基于該架構的注意力模型結構表征方法。最後，對注意力模型領域的未來工作進行了展望。

論文連結：https://ieeexplore.ieee.org/document/9609539/

引言

模拟人類注意力的想法最早出現在計算機視覺領域，試圖通過引入一個隻關注圖像特定區域而不是整個圖像的模型來降低圖像處理的計算複雜度，同時提高性能。

然而，我們今天所知道的注意力機制的真正起點通常是源于自然語言處理領域。Bahdanau等人的在機器翻譯模型中實作了注意力，以解決循環神經網絡結構中的某些問題。

在Bahdanau等人的強調了注意力的優點後，注意力技術得到了改進，并迅速流行于各種任務，如文本分類、圖像字幕、情感分析，以及語音識别。

注意力已經成為深度學習中的一種流行技術，原因有幾個。首先，整合了注意力機制的模型在上述所有任務和許多其他任務中都獲得了最先進的結果。

大多數注意力機制可以與基本模型聯合訓練，如使用規則反向傳播的循環神經網絡或卷積神經網絡。注意力向神經網絡模型引入了一種特定類型的解釋，這種解釋通常被認為非常複雜。

Transformer模型的引入進一步證明了注意力的有效性，進一步提高了注意力機制的受歡迎程度。注意力最初是作為循環神經網絡的擴充而引入的。然而，在中提出的Transformer模型是注意力研究的一個重大發展，因為它證明了注意力機制足以建立一個最先進的模型。

這意味着可以避免一些缺點，比如遞歸神經網絡特别難以并行化的事實。就像引入最初的注意力機制一樣，Transformer模型是為機器翻譯建立的，但很快就被用于其他任務，如圖像處理、視訊處理和推薦系統。

本綜述的目的是解釋注意力的一般形式，并提供一個在深度學習注意力技術的全面概述。本綜述與之前的研究主要差別在于，其他的綜述一般都關注某個領域内的注意力模型。然而，這項綜述提供了一個跨領域的注意力技術概述。

我們将以一種通用的方式讨論注意力技術，使它們能夠被了解并應用于各種領域。我們發現以往研究中提出的分類方法缺乏恰當區分各種注意力機制所需的深度和結構。某些重要的注意力技巧在以前的綜述中還沒有得到适當的讨論，而其他提出的注意力機制似乎缺乏技術細節或直覺的解釋。

是以，在本文中，我們通過使用統一符号的單一架構，結合技術和直覺的解釋，提出了重要的注意力技術，并對注意力機制進行了全面的分類。

通用注意力模型

本節介紹一種注意力一般性與相應的符号。本節中介紹的架構将在本文的其餘部分中使用。

為了實作一個通用的注意力模型，首先需要描述一個可以使用注意力的模型的一般特征。首先，我們将完整的模型稱為任務模型。這個模型隻接受一個輸入，執行指定的任務，并産生所需的輸出。

例如，任務模型可以是一種語言模型，它将一段文本作為輸入，并将内容摘要、情緒分類或逐字翻譯成另一種語言的文本作為輸出。或者，任務模型可以擷取圖像，并為該圖像生成标題或分割。任務模型由四個子模型組成: 特征模型、查詢模型、注意力模型和輸出模型。

注意力分類法

有許多不同類型的注意力機制和擴充，一個模型可以使用這些注意技術的不同組合。是以，我們提出了一種分類法，可以用來對不同類型的注意機制進行分類。

基于是否關注技術是設計來處理特定類型的特征向量（相關特性），特定類型的模型查詢（查詢相關）或者它僅僅是一個通用的機制，分成三大類。這些類别及其子類别的進一步解釋将在下面的小節中提供。

特征相關注意力機制

基于特定的一組輸入資料，特征模型提取特征向量，進而使注意力模型能夠關注這些不同的向量。這些特征可能具有特定的結構，需要特殊的注意力機制來處理它們。可以對這些機制進行分類，以處理以下特征特征之一: 特征的多樣性、特征的級别或特征的表示。

通用注意力機制

這個主要的類别包括了可以應用于任何類型的注意力模型的注意力機制。該元件的結構可以分解為以下幾個子方面:注意力評分函數、注意力對齊和注意力次元。

查詢相關的注意力機制

查詢是任何注意力模型的重要組成部分，因為它們直接決定從特征向量中提取哪些資訊。這些查詢基于任務模型的期望輸出，可以解釋為文字問題。有些查詢具有特定的特征，需要特定類型的機制來處理它們。

是以，這一類封裝了處理特定類型查詢特征的注意力機制。這一類中的機制處理以下兩個查詢特征之一:查詢的類型或查詢的多樣性。

注意力模型評價

在本節中，我們介紹了各種類型的注意力模型的評估。

首先，我們可以使用分類法來評估注意力模型的結構。對于這樣的分析，我們考慮注意力機制類别作為模型的正交維數。可以通過确定模型對每個類别使用的機制來分析模型的結構。

其次，我們讨論了評價注意力模型表現的各種技術。其中，注意力模型的性能可以通過外部或内部性能測量來評估。

結論

本研究綜述了近年來關于深度學習中的注意力模型的研究進展。注意力機制已經成為深度學習模型的一個顯著發展，因為它們已經表明可以顯著提高模型性能，在幾個研究領域的各種任務中産生了最先進的結果。

我們提出了一個全面的分類，可以用來分類和解釋不同數量的注意力機制提出的文獻。分類法的組織基于任務模型的結構，該任務模型由一個特征模型、一個注意力模型、一個查詢模型和一個輸出模型組成。此外，還使用基于查詢、鍵和值的架構讨論了注意力機制。

最後，我們展示了如何使用外在和内在的測量方法來評估注意力模型的表現，以及如何使用分類方法來分析注意力模型的結構。

參考資料：

[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251.

[2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.

“深度學習注意力機制”TKDE 2022研究綜述

繼續閱讀

預測完整糖肽的片段光譜，浙大開發深度學習方法DeepGlyco

斯坦福團隊研發新型深度學習模型，能預測碳捕集引起的地表位移

王子奇的私服穿搭經，建議長相闆正的男生深度學習下！

深度思考：視覺深度學習模型一定越大越好嗎？

南方測繪推薦 | 劉麗：聯合深度學習與面向對象分析的衛甯北山露天礦山采場資訊提取

【技術】汽車端到端大模型：AI對駕駛規則的深度學習

“AI”科普丨太全了！多模态深度學習的綜述！

學前教育｜董欣然：在遊戲工作坊中促進幼兒深度學習——以“彭城美食街”為例

深度學習硬體的進步：GPU、TPU 等

生成式AI原理技術詳解（一）——神經網絡與深度學習

聽說你缺GPU？送你一份輕量級深度學習的最全總結！

100種分析思維模型之：深度學習

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

深度學習算法在素材隐義标簽生成中應用研究

預測瞬态熔池變化，美國開發深度學習替代原位PBF-LB粉末床金屬熔融3D列印過程監測

看了極客灣的測評，發現A卡的專業性能其實也不弱A卡的ai性能和深度學習不行，沒有CUDA核心根本運作不了，軟體都進不去，