閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

2023-05-02 11:34:47

前言

論文講的是兩個模态的情感分析，作者提出一個網絡，此網絡通過在多個層次上引入注意力，從視覺和文本中産生區分性特征。通過利用視覺資料中的通道channel注意力和空間注意力來獲得雙注意力的視覺特征。

總體來說

用兩個注意力 channel attention 和 spatial attention 注意力提高CNN 采集圖像特征能力
提出語義注意力模拟單詞的圖像區域與語義之間的相關性，也就是一個JOINT ATTENDED MULTIMODAL LEARNING的過程（聯合多模态學習)

模型結構

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

從圖可以看出來，模型結構不算複雜

兩模态
視覺部分用兩個Attention
文本部分先用LSTM 提取然後加入視覺資訊，最終來分類

下面就分兩塊來說，一是視覺提取子產品，二是多模态融合（學習）子產品

視覺提取子產品

視覺提取子產品及結構如下圖

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

M表示用Inception V3 得到圖檔的特征

AP 表示 average pooling

element-wise 表示

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

Channel Attention

這個在CV 上的物體檢測上用的比較多，但是在情感分析方面，大家忽略了channel 次元的Attention，作者在這裡用到，其結構如下圖，比較簡單

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

用Inception V3 得到圖檔的特征，然後過一個channel attention ，其公式是

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

Spatial Attention

在上一步我們得到 Ac 也就是經過Channel attention 得到的特征 F ，然後我們在經過一個Spatial Attention結構

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

多模态聯合學習子產品

首先每個單詞經過Glove 的embedding 後過一個LSTM 得到有上下文的單詞表示

Semantic Attention

對每個單詞表示和之前提取的視覺特征Vf進行 semantic attention，

先計算聯合特征

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

計算每個單詞權重

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

得到單詞特征權重和權重和表示語義特征Sf

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

融合

然後我們将得到的語義特征和視覺特征拼接起來，用一個self-attention 進一步提取特征，得到最後的特征表示進行分類

總結

這篇文章還是寫的比較好的

效果提升我覺得首先在初步的提取部分視覺部分比較關鍵，說明說明：特征提的好，效果沒煩惱
融合方面把單詞的特征和視覺結合在一起，但是又不是Attention 的做法，感覺了解還不是很透徹，找師兄讨論一下

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

前言

模型結構

視覺提取子產品

Channel Attention

Spatial Attention

多模态聯合學習子產品

Semantic Attention

融合

總結

繼續閱讀

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Convolutional Neural Network For Sentence Classification

使用詞典內建雙通道，CNN‒LSTM家族模型進行情感分析

AI：多模态和大模型的一些經驗總結daiding

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis閱讀筆記Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis模型結構實驗Interpretation Analysis

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

常見詞彙速查表(自用)

多模态預訓練模型前言Vision-language TasksV+L Joint Pre-training目前已有的一些視覺語言模型對比ERNIE-VILLayoutLMv2總結

多模态在内容了解的應用

多模态模型前沿研究（1）1 ERNIE-ViL（百度，2021.3.，aaai）

“多模态”概念深度解讀之EEG-fNIRS同步

如何寫一篇學術論文

主題挖掘LDA和情感分析圖書館話題知乎使用者問答行為資料|附代碼資料

NLP實踐——VQA/Caption生成模型BLIP-2的應用介紹1. 簡介2. 模型下載下傳3. 運作環境4. 模型應用

214情人節，使用微信小程式【信鴿相知】寫情書吧