ECCV2022 | 人大提出輕量級基于注意力的特征融合機制，在多個公開資料集上有效！代碼已開源！

【寫在前面】

本文在文本到視訊檢索的新背景下，作者重新探讨了特征融合這一古老的課題。與以往的研究隻考慮視訊或文本一端的特征融合不同，本文的目标是在一個統一的架構内實作兩端的特征融合。作者假設優化特征的凸組合比通過計算繁重的多頭自注意模組化它們的相關性更可取。作者提出輕量級注意特征融合(LAFF)。LAFF在早期和後期以及在視訊和文本末端都進行特征融合，使其成為利用各種特征的強大方法。LAFF的可解釋性可用于特征選擇。在五個公共基準集(MSR-VTT、MSVD、TGIF、V ATEX和TRECVID A VS 2016-2020)上的廣泛實驗證明LAFF是文本到視訊檢索的新基準。

1. 論文和代碼位址

ECCV2022 | 人大提出輕量級基于注意力的特征融合機制，在多個公開資料集上有效！代碼已開源！

Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

論文位址：https://arxiv.org/abs/2112.01832

代碼位址：https://github.com/ruc-aimc-lab/laff

2. 動機

文本到視訊檢索是用一個特别的文本查詢從很多未标記視訊中檢索對應視訊的任務。視訊和文本都必須嵌入到一個或多個跨模态的公共空間中，以便進行文本到視訊的比對。他的技術水準以不同的方法解決了這項任務，包括用于查詢表示學習的新型網絡，用于視訊表示學習的多模态Transformer，用于可解釋的跨模态比對的混合空間學習，以及最近的以端到端方式學習文本和視訊表示的CLIP2Video。另外，作者還研究了特征融合，這是文本到視訊檢索中一個重要但尚未充分開發的主題。

在給定以不同特征為代表的視訊/文本樣本的情況下，特征融合的目的是回答一個基本的研究問題，即**結合這些特征的最優方式是什麼?**本文所說的最優是指融合将使檢索性能最大化。同時對融合過程進行解釋，解釋個體特征的重要性。随着每一個特征的使用而引入額外的計算和存儲開銷，可解釋性對聚合過程的選擇至關重要，以平衡性能和成本。

特征融合本身并不新鮮。事實上，該主題已在多媒體内容分析和多模态或多視圖圖像分類等不同背景下進行了廣泛研究。這些早期的努力集中在結合手工制作的特征上，因為已知這類特征是特定于領域的，存在語義差距問題，是以單獨使用時不足以表示内容。雖然目前的深度學習特征已經比它們的前輩更強大，但似乎沒有一個特征可以統治一切。關于物體和場景的黑暗知識在預訓練的 2D 卷積神經網絡（2D-CNN）中更好地承載，而 3D-CNN 更适合表示動作和動作。對于文本到視訊的檢索，在結合各種深度視訊特征方面有一些初步努力，例如JE 、CE 和 MMT ，而 W2VV++ 和 SEA 顯示了組合不同文本特征以獲得更好查詢表示的潛力。最近的 CLIP 系列，由于其端到端的學習範式，實際上缺乏利用現有特征的能力。是以，即使在深度學習時代，特征融合的需求依然強烈。

作為特征融合的一種方法，向量連接配接通常在早期組合特征時使用。至于後期融合，并行學習多個特定于特征的公共空間，通過平均、經驗權重或專家混合 (MoE) 內建組合得到的相似性。随着特征數量的增加，向量連接配接會受到次元災難的影響，而為每個特征建構公共空間缺乏特征間的互動。此外，之前的作品要麼側重于視訊端，要麼側重于文本端。目前沒有嘗試開發一種統一的基于學習的方法，在文本到視訊檢索的上下文中對兩端都有效，如下表。

人們可能會考慮通過多頭自注意力（MHSA）進行特征融合，這是 Transformers 的基石。如下圖(a) 所示，MHSA 通過将特定特征與來自所有其他特征的資訊混合來轉換特定特征，混合權重由稱為 QKV 的自注意機制産生。請注意，該子產品最初是為 NLP 任務開發的，其中利用元素相關性對于解決語義歧義至關重要。然而，由于由不同的 2D-CNN 和 3D-CNN 提取的視訊特征是為了從不同方面描述視訊内容，作者推測優化它們的組合優于對它們的相關性進行模組化。此外，由計算的 MHSA 中的 self-attention 在很大程度上取決于特征間的相關性。是以，它往往會産生一種群體效應，即彼此相關的特征将受到更多關注。是以，相關但相對較弱的特征将被過分強調。是以，盡管 MHSA 在不同環境中的流行率很高，但作者認為 MHSA 對于目前任務來說不是最佳的。

作者在本文中提出了一個非常簡化的特征融合塊，稱為輕量級注意力特征融合（LAFF），見上圖（c）。LAFF 是通用的，适用于視訊和文本端。視訊/文本特征用凸方式組合在一個特定的 LAFF 塊中，學習組合權重以優化跨模态文本到視訊的比對。在特征層面進行融合，LAFF是以可以被視為一種早期的融合方法。同時，通過 MHSA 中使用的多頭技巧，可以在單個網絡中部署多個 LAFF，并以後期融合的方式組合它們的相似性。在早期和後期以及視訊和文本結束時執行特征融合的能力使 LAFF 成為利用文本到視訊檢索的多樣化、多層次（現成的）特征的強大方法。總之，本文的主要貢獻如下：

本文是第一個研究用于文本到視訊檢索的視訊端和文本端特征融合的工作。鑒于用于特征提取的深度視覺/語言模型的可用性越來越高，本文提出了一種有效的方法來利用這些黑暗知識來解決任務。
作者提出了 LAFF，一種輕量級的特征融合塊，能夠在早期和晚期進行融合。與 MHSA 相比，LAFF 更緊湊但更有效。它的注意力權重也可用于選擇較少的特征，而檢索性能大部分保持不變。
在 MSR-VTT、MSVD、TGIF、V ATEX 和 TRECVID A VS 2016-2020 五個基準上的實驗表明，基于 LAFF 的視訊檢索模型（上圖）與最先進的模型相比具有優勢，為文本到視訊的檢索提供了強大的基線。

3. 方法

作者提出了針對視訊和文本端的可訓練特征融合。具體地，假設具有由一組K1個視訊級特征，以及由一組K2個句子級特征。将構造兩個特征融合塊來分别将視訊和查詢編碼到它們的d維跨模态嵌入和中。它們的語義相似度s(x，q)相應地根據兩個嵌入來衡量，即：

這樣，針對給定查詢Q的文本到視訊檢索是通過按照它們的s(x，q)以降序對測試集合中的所有視訊進行分類來實作的。在下文中，作者将提出的LAFF描述為上面等式中融合塊的統一實作。然後詳細介紹了它在文本到視訊檢索中的使用方法。

3.1 The LAFF Block

在不失去一般性的情況下，作者提供了一組不同的k個不同的特征，大小如。由于特征是由不同的抽取器獲得的，是以不相容，作者将使用特征轉換層來校正不同的特征以使其具有相同的長度。要将第i個特征轉換為新的d維特征，作者使用：

其中σ是非線性激活函數。由于 LAFF 中非線性激活的輸出是計算餘弦相似度，在這項工作中使用 tanh。表示一個全連接配接層，輸入大小為 di，輸出大小為 d。每個輸入特征都有自己的Linear，當 di 等于 d 時Linear是可選的。

盡管轉換後的特征現在是可比較的，但它們對于表示視訊/文本内容并不同樣重要。是以，作者考慮權重融合，即：

權重 {a1, . . . , ak} 由輕量級注意力層計算如下：

如上圖(b) 所示，在執行等式中的權重時，無注意特征融合塊是 LAFF 的一種特殊情況，即。與 Attention-free 相比，LAFF 有更多的參數需要學習，見下表。正如消融研究将表明的那樣，如此少量的額外參數對于提高特征融合的有效性很重要。與 MHSA 相比，LAFF 的可訓練參數要少得多，是以資料效率更高。此外，由于 LAFF 的注意力權重直接用于特征的凸組合，是以 LAFF 比 MHSA 更具可解釋性。

3.2 Paired LAFFs for Text-to-Video Retrieval（1%25200%25200%2520-1%25200%25200)%2522%2520aria-hidden%253D%2522true%2522%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMAIN-3C%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-4C%2522%2520x%253D%25221056%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-41%2522%2520x%253D%25221737%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-46%2522%2520x%253D%25222488%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253Cg%2520transform%253D%2522translate(3237%252C0)%2522%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-46%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253Cg%2520transform%253D%2522translate(643%252C-150)%2522%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-76%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMAIN-2C%2522%2520x%253D%2522485%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-69%2522%2520x%253D%2522764%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253C%252Fg%253E%250A%253C%252Fg%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMAIN-2C%2522%2520x%253D%25224765%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-4C%2522%2520x%253D%25225210%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-41%2522%2520x%253D%25225892%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-46%2522%2520x%253D%25226642%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253Cg%2520transform%253D%2522translate(7392%252C0)%2522%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-46%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253Cg%2520transform%253D%2522translate(643%252C-150)%2522%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-74%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMAIN-2C%2522%2520x%253D%2522361%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-69%2522%2520x%253D%2522640%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253C%252Fg%253E%250A%253C%252Fg%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMAIN-3E%2522%2520x%253D%25229110%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%253C%252Fg%253E%250A%253C%252Fsvg%253E%22%2C%22id%22%3A%22K84vI%22%2C%22type%22%3A%22inline%22%7D">

，将視訊/文本特征聚合成一個 d 維跨模态嵌入向量，即：其中相似度是廣泛使用的餘弦相似度。是以，作者将最終的視訊文本相似度計算為 h 個個體相似度的平均值，整體架構如下圖所示。為了使可訓練參數的數量相對于 h 保持不變，作者設定，其中是根據實驗設定為 2,048 的常數。是以，多頭版本的 LAFF 不是一個合奏。作者使用 h = 8，除非另有說明。

LAFF for multi-level feature fusion

到目前為止，作者假設要融合的特征已經在視訊級别。事實上，由于其高度的靈活性，LAFF 可以輕松擴充為多級變體，以應對不同幀級和視訊級特征共存的情況。上圖顯示了這種變體，稱之為 LAFF-ml。 LAFF-ml 以自下而上的方式工作，其中一組特定的幀級特征通過特定的 LAFF 塊聚合以産生視訊級特征。假設有兩個不同的幀級特征，例如CLIP和rx101。每個都有自己的 LAFF 塊。然後通過視訊級 LAFF 塊融合（結果）不同的視訊特征。

Network Training

遵循先前工作的良好實踐，作者采用難負例挖掘的三重排序損失作為基本損失函數。對于給定訓練batch中的特定句子 q， x+ 和 x− 表示視訊相關和不相關的，是最違反排名限制的難負例：

其中 α 是控制排名損失邊際的正超參數。

在訓練産生多個相似性的跨模态網絡時，将每個相似性的損失組合起來比使用單個損失群組合的相似性得到更好的結果。是以，作者遵循這個政策，計算，即通過用 si 代替等式中的 s 在第 i 個空間中的損失。網絡經過訓練以最小化組合損失。

4.實驗

上圖展示了三種不同融合模型的性能曲線，即 W2VV++、SEA 和 LAFF。

上表比較了特征融合塊。 W2VV++ 使用的簡單特征連接配接作為基線。LAFF 表現最好，其次是 Attention-free、串聯基線和 MHSA。 Attention-free 雖然非常簡單，但在組合越來越多的文本特征方面比 MHSA 更有效。

每個特征的 LAFF 權重的可視化結果。

如上表所示，與單一損失對應物相比，使用組合損失訓練的 LAFF 在 mAP 方面産生了超過 10% 的相對改進。

關于公共空間 h 的數量，作者嘗試不同的值，即 {1, 2, 4, 8, 16}。如上表所示，性能随着 h 的增加而提高，在 h = 8 時性能達到峰值。

上表展示了在4個benchmark上和SOTA結果的對比。

上表展示了TRECVID A VS 2016–2020 的最先進性能。

5. 總結

對于文本視訊檢索，作者提出了 LAFF，一個非常簡單的特征融合塊。 LAFF 比 Multi-head Self-Attention 更有效，但參數要少得多。此外，LAFF 産生的注意力權重可用于解釋單個視訊/文本特征對跨模态比對的貢獻。是以，權重可用于特征選擇，以建構更緊湊的視訊檢索模型。基于 LAFF 的視訊檢索模型超越了 MSR-VTT、MSVD、TGIF、VATEX 和 TRECVID A VS 2016-2020 上的最新技術。

【項目推薦】

面向小白的YOLO目标檢測庫：https://github.com/iscyy/yoloair

ECCV2022 | 人大提出輕量級基于注意力的特征融合機制，在多個公開資料集上有效！代碼已開源！