文章目錄

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis
模型結構
- encoding
- Routing
- Prediction
實驗
Interpretation Analysis

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis

任務：多模态情感分類

簡述：之前的多模态情感分析SOTA的方法一般基于複雜神經網絡模型，由于其黑盒性，在進行預測時不具有很好的解釋性，為了讓模型具有更好的解釋性，作者受膠囊網絡啟發，采用了一種路由的方法來動态調節輸入模态和輸出表示之間的權重以及輸出表示，簡單來看，每個疊代采用某種規則計算，最後使用了作者自己定義的local和global解釋性證明了該路由模型具有解釋性。其中global解釋性使用了區間估計，挺有意思的，可以關注一下。

模型結構

模型包括三個階段

encoding, routing,prediction

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis閱讀筆記Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis模型結構實驗Interpretation Analysis

encoding

使用Multimodal Transformer (MulT) 對特征序列進行編碼，得到兩個特征

特征編碼表示的就是該模态特征資訊fi
度量資訊（0-1的一個數字）表示的是該模态特征在模型激活的程度記為pi

Routing

路由的目的是為特征得到一個可解釋性的表示, 這裡稱他為concepts

路由的第一步是用相等的權重初始化concepts，其中所有特征都是相同重要性。

然後路由的核心部分是一個疊代過程，該過程将強制将每個特征僅配置設定給一個輸出表示

形式上，每個concepts cj都表示為維數dc的一維向量。在每個concepts cj和解釋因子fi之間定義了線性權重rij（我們稱之為路由效率系數）

第一步：Routing adjustment

計算 concepts 和特征的相關系數

其中： fi 表示 i模态的特征向量 wij 表示一個權重矩陣

第二步： Concept update

用前面算出的相關系數來計算新的 concepts

pi 是激活程度

對于Routing 的總結：

我們在上圖中總結了路由過程

該過程在給出模态特征（fi），局部權重（Wij）和pi的情況下傳回concepts （cj）。

我們用相同的權重初始化計算得到concepts
我們疊代地對路由系數（rij）和concepts 更新進行調整
我們傳回更新的concepts

Prediction

預測的話則是使用一個線性權重變化對特征進行整合

然後接 solfmax 分類預測即可

實驗

在可解釋方法裡面效果比較好

Interpretation Analysis

這裡解釋為什麼單模态特征雙模态特征和三模态特征有差別，也就是激活程度和相關系數

作者給了6個例子

例子1：

左上角例子中：

一位演講者正在介紹電影Sweeny Todd。他說這部電影是音樂劇，并建議那些不喜歡音樂的人不要看這部電影。由于他對自己喜歡還是不喜歡這部電影沒有任何個人判斷，是以盡管文本模态包含“don‘t”，但他的情緒仍被判定位中立。

在視覺模态（即視訊）中，當他提到這部電影是音樂劇時，他皺着眉頭，但是我們不能僅僅通過看視覺模态來斷定他的情感是中立的。通過同時檢視視覺和文本（雙模态），我們判斷這是中立

由圖中可以看到，該模型為text-vision雙模态提供了很高的pi rij值，表明它對預測有很大貢獻，這證明了我們上面的推理。

例子2

同樣，對于左下角的示例，演講者正在分享她對如何進行百老彙演出的拍賣的經驗。她談到自己的非常詳細和成功的經曆，在文本中出現了love等積極詞語，而且在其他模也出現微笑（視覺模态）和快樂的語氣（聲音模态）。我們相信所有模态都在預測中起作用。

結果，根據我們的模型，三模态特征的pi rij值很高，表明它對預測有很大貢獻，

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis閱讀筆記Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis模型結構實驗Interpretation Analysis

文章目錄

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis

模型結構

encoding

Routing

Prediction

實驗

Interpretation Analysis

繼續閱讀

《論文閱讀》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Convolutional Neural Network For Sentence Classification

使用詞典內建雙通道，CNN‒LSTM家族模型進行情感分析

AI：多模态和大模型的一些經驗總結daiding

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

常見詞彙速查表(自用)

多模态預訓練模型前言Vision-language TasksV+L Joint Pre-training目前已有的一些視覺語言模型對比ERNIE-VILLayoutLMv2總結

多模态在内容了解的應用

多模态模型前沿研究（1）1 ERNIE-ViL（百度，2021.3.，aaai）

“多模态”概念深度解讀之EEG-fNIRS同步

如何寫一篇學術論文

主題挖掘LDA和情感分析圖書館話題知乎使用者問答行為資料|附代碼資料

NLP實踐——VQA/Caption生成模型BLIP-2的應用介紹1. 簡介2. 模型下載下傳3. 運作環境4. 模型應用

214情人節，使用微信小程式【信鴿相知】寫情書吧