天天看點

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

前言

論文講的是兩個模态的情感分析, 作者提出一個網絡,此網絡通過在多個層次上引入注意力,從視覺和文本中産生區分性特征。 通過利用視覺資料中的通道channel注意力和空間注意力來獲得雙注意力的視覺特征。

總體來說

  • 用 兩個注意力 channel attention 和 spatial attention 注意力 提高CNN 采集圖像特征能力
  • 提出 語義注意力 模拟單詞的圖像區域與語義之間的相關性, 也就是一個JOINT ATTENDED MULTIMODAL LEARNING的過程(聯合多模态學習)

模型結構

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

從圖可以看出來 ,模型結構不算複雜

  • 兩模态
  • 視覺部分 用 兩個Attention
  • 文本部分先用LSTM 提取 然後加入視覺資訊, 最終來分類

下面就分兩塊來說, 一是視覺提取子產品, 二是 多模态融合(學習)子產品

視覺提取子產品

視覺提取子產品及結構如下圖

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

M表示 用Inception V3 得到圖檔的特征

AP 表示 average pooling

element-wise 表示

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

Channel Attention

這個在CV 上的 物體檢測上用的比較多, 但是在情感分析方面, 大家忽略了channel 次元的Attention,作者在這裡用到, 其結構如下圖, 比較簡單

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

用Inception V3 得到圖檔的特征 , 然後過一個channel attention , 其公式是

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

Spatial Attention

在上一步我們得到 Ac 也就是 經過Channel attention 得到的特征 F , 然後我們在經過一個Spatial Attention結構

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

多模态聯合學習子產品

首先 每個單詞經過Glove 的embedding 後 過一個LSTM 得到 有上下文的 單詞表示

Semantic Attention

對每個單詞表示和 之前提取的視覺特征Vf進行 semantic attention,

  • 先計算聯合特征
閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結
  • 計算每個單詞權重
閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結
  • 得到單詞特征權重和 權重和表示語義特征Sf
閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

融合

然後我們将得到的語義特征和視覺特征 拼接起來, 用一個self-attention 進一步提取特征, 得到最後的特征表示進行分類

總結

這篇文章還是寫的比較好的

  • 效果提升 我覺得首先在初步的提取部分 視覺部分比較關鍵, 說明說明: 特征提的好, 效果沒煩惱
  • 融合方面把單詞的特征 和 視覺結合在一起, 但是又不是Attention 的做法, 感覺了解還不是很透徹, 找師兄讨論一下

繼續閱讀