前言
論文講的是兩個模态的情感分析, 作者提出一個網絡,此網絡通過在多個層次上引入注意力,從視覺和文本中産生區分性特征。 通過利用視覺資料中的通道channel注意力和空間注意力來獲得雙注意力的視覺特征。
總體來說
- 用 兩個注意力 channel attention 和 spatial attention 注意力 提高CNN 采集圖像特征能力
- 提出 語義注意力 模拟單詞的圖像區域與語義之間的相關性, 也就是一個JOINT ATTENDED MULTIMODAL LEARNING的過程(聯合多模态學習)
模型結構

從圖可以看出來 ,模型結構不算複雜
- 兩模态
- 視覺部分 用 兩個Attention
- 文本部分先用LSTM 提取 然後加入視覺資訊, 最終來分類
下面就分兩塊來說, 一是視覺提取子產品, 二是 多模态融合(學習)子產品
視覺提取子產品
視覺提取子產品及結構如下圖
M表示 用Inception V3 得到圖檔的特征
AP 表示 average pooling
element-wise 表示
Channel Attention
這個在CV 上的 物體檢測上用的比較多, 但是在情感分析方面, 大家忽略了channel 次元的Attention,作者在這裡用到, 其結構如下圖, 比較簡單
用Inception V3 得到圖檔的特征 , 然後過一個channel attention , 其公式是
Spatial Attention
在上一步我們得到 Ac 也就是 經過Channel attention 得到的特征 F , 然後我們在經過一個Spatial Attention結構
多模态聯合學習子產品
首先 每個單詞經過Glove 的embedding 後 過一個LSTM 得到 有上下文的 單詞表示
Semantic Attention
對每個單詞表示和 之前提取的視覺特征Vf進行 semantic attention,
- 先計算聯合特征
- 計算每個單詞權重
- 得到單詞特征權重和 權重和表示語義特征Sf
融合
然後我們将得到的語義特征和視覺特征 拼接起來, 用一個self-attention 進一步提取特征, 得到最後的特征表示進行分類
總結
這篇文章還是寫的比較好的
- 效果提升 我覺得首先在初步的提取部分 視覺部分比較關鍵, 說明說明: 特征提的好, 效果沒煩惱
- 融合方面把單詞的特征 和 視覺結合在一起, 但是又不是Attention 的做法, 感覺了解還不是很透徹, 找師兄讨論一下