天天看點

“深度學習注意力機制”TKDE 2022研究綜述

新智元報道

來源:專知

【新智元導讀】注意力機制(Attention Mechanism)是深度學習中常用的子產品,作為一種資源配置設定方案,将有限的計算資源用來處理更重要的資訊,是解決資訊超載問題的主要手段。下面這篇是來自Erasmus University的Gianni Brauwers和Flavius Frasincar在TKDE上發表的《深度學習注意力機制》綜述論文。

注意力是一種重要的機制,可用于跨許多不同領域和任務的各種深度學習模型。這項綜述提供了一個關于深度學習注意力機制的重要概述。

各種注意力機制通過一個由注意力模型,統一符号,和一個全面的分類注意力機制組成的架構來進行解釋。

在此基礎上,本文綜述了注意力模型評價的各種方法,并讨論了基于該架構的注意力模型結構表征方法。最後,對注意力模型領域的未來工作進行了展望。

論文連結:https://ieeexplore.ieee.org/document/9609539/

引言

模拟人類注意力的想法最早出現在計算機視覺領域,試圖通過引入一個隻關注圖像特定區域而不是整個圖像的模型來降低圖像處理的計算複雜度,同時提高性能。

然而,我們今天所知道的注意力機制的真正起點通常是源于自然語言處理領域。Bahdanau等人的在機器翻譯模型中實作了注意力,以解決循環神經網絡結構中的某些問題。

在Bahdanau等人的強調了注意力的優點後,注意力技術得到了改進,并迅速流行于各種任務,如文本分類、圖像字幕、情感分析,以及語音識别。

注意力已經成為深度學習中的一種流行技術,原因有幾個。首先,整合了注意力機制的模型在上述所有任務和許多其他任務中都獲得了最先進的結果。

大多數注意力機制可以與基本模型聯合訓練,如使用規則反向傳播的循環神經網絡或卷積神經網絡。注意力向神經網絡模型引入了一種特定類型的解釋,這種解釋通常被認為非常複雜。

Transformer模型的引入進一步證明了注意力的有效性,進一步提高了注意力機制的受歡迎程度。注意力最初是作為循環神經網絡的擴充而引入的。然而,在中提出的Transformer模型是注意力研究的一個重大發展,因為它證明了注意力機制足以建立一個最先進的模型。

這意味着可以避免一些缺點,比如遞歸神經網絡特别難以并行化的事實。就像引入最初的注意力機制一樣,Transformer模型是為機器翻譯建立的,但很快就被用于其他任務,如圖像處理、視訊處理和推薦系統。

本綜述的目的是解釋注意力的一般形式,并提供一個在深度學習注意力技術的全面概述。本綜述與之前的研究主要差別在于,其他的綜述一般都關注某個領域内的注意力模型。然而,這項綜述提供了一個跨領域的注意力技術概述。

我們将以一種通用的方式讨論注意力技術,使它們能夠被了解并應用于各種領域。我們發現以往研究中提出的分類方法缺乏恰當區分各種注意力機制所需的深度和結構。某些重要的注意力技巧在以前的綜述中還沒有得到适當的讨論,而其他提出的注意力機制似乎缺乏技術細節或直覺的解釋。

是以,在本文中,我們通過使用統一符号的單一架構,結合技術和直覺的解釋,提出了重要的注意力技術,并對注意力機制進行了全面的分類。

通用注意力模型

本節介紹一種注意力一般性與相應的符号。本節中介紹的架構将在本文的其餘部分中使用。

為了實作一個通用的注意力模型,首先需要描述一個可以使用注意力的模型的一般特征。首先,我們将完整的模型稱為任務模型。這個模型隻接受一個輸入,執行指定的任務,并産生所需的輸出。

例如,任務模型可以是一種語言模型,它将一段文本作為輸入,并将内容摘要、情緒分類或逐字翻譯成另一種語言的文本作為輸出。或者,任務模型可以擷取圖像,并為該圖像生成标題或分割。任務模型由四個子模型組成: 特征模型、查詢模型、注意力模型和輸出模型。

注意力分類法

有許多不同類型的注意力機制和擴充,一個模型可以使用這些注意技術的不同組合。是以,我們提出了一種分類法,可以用來對不同類型的注意機制進行分類。

基于是否關注技術是設計來處理特定類型的特征向量(相關特性),特定類型的模型查詢(查詢相關)或者它僅僅是一個通用的機制,分成三大類。這些類别及其子類别的進一步解釋将在下面的小節中提供。

特征相關注意力機制

基于特定的一組輸入資料,特征模型提取特征向量,進而使注意力模型能夠關注這些不同的向量。這些特征可能具有特定的結構,需要特殊的注意力機制來處理它們。可以對這些機制進行分類,以處理以下特征特征之一: 特征的多樣性、特征的級别或特征的表示。

通用注意力機制

這個主要的類别包括了可以應用于任何類型的注意力模型的注意力機制。該元件的結構可以分解為以下幾個子方面:注意力評分函數、注意力對齊和注意力次元。

查詢相關的注意力機制

查詢是任何注意力模型的重要組成部分,因為它們直接決定從特征向量中提取哪些資訊。這些查詢基于任務模型的期望輸出,可以解釋為文字問題。有些查詢具有特定的特征,需要特定類型的機制來處理它們。

是以,這一類封裝了處理特定類型查詢特征的注意力機制。這一類中的機制處理以下兩個查詢特征之一:查詢的類型或查詢的多樣性。

注意力模型評價

在本節中,我們介紹了各種類型的注意力模型的評估。

首先,我們可以使用分類法來評估注意力模型的結構。對于這樣的分析,我們考慮注意力機制類别作為模型的正交維數。可以通過确定模型對每個類别使用的機制來分析模型的結構。

其次,我們讨論了評價注意力模型表現的各種技術。其中,注意力模型的性能可以通過外部或内部性能測量來評估。

結論

本研究綜述了近年來關于深度學習中的注意力模型的研究進展。注意力機制已經成為深度學習模型的一個顯著發展,因為它們已經表明可以顯著提高模型性能,在幾個研究領域的各種任務中産生了最先進的結果。

我們提出了一個全面的分類,可以用來分類和解釋不同數量的注意力機制提出的文獻。分類法的組織基于任務模型的結構,該任務模型由一個特征模型、一個注意力模型、一個查詢模型和一個輸出模型組成。此外,還使用基于查詢、鍵和值的架構讨論了注意力機制。

最後,我們展示了如何使用外在和内在的測量方法來評估注意力模型的表現,以及如何使用分類方法來分析注意力模型的結構。

參考資料:

[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251.

[2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.

繼續閱讀