文章目錄
- Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis
- 模型結構
-
- encoding
- Routing
- Prediction
- 實驗
- Interpretation Analysis
Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis
任務:多模态情感分類
簡述:之前的多模态情感分析SOTA的方法一般基于複雜神經網絡模型,由于其黑盒性,在進行預測時不具有很好的解釋性,為了讓模型具有更好的解釋性,作者受膠囊網絡啟發,采用了一種路由的方法來動态調節輸入模态和輸出表示之間的權重以及輸出表示,簡單來看,每個疊代采用某種規則計算,最後使用了作者自己定義的local和global解釋性證明了該路由模型具有解釋性。其中global解釋性使用了區間估計,挺有意思的,可以關注一下。
模型結構
模型包括三個階段
encoding, routing,prediction
encoding
使用Multimodal Transformer (MulT) 對特征序列進行編碼, 得到兩個特征
- 特征編碼 表示的就是該模态特征資訊fi
- 度量資訊(0-1的一個數字) 表示的是該模态特征在模型激活的程度記為pi
Routing
路由的目的是為特征得到一個可解釋性的表示, 這裡稱他為concepts
路由的第一步是用相等的權重初始化concepts,其中所有特征 都 是相同重要性。
然後路由的核心部分是一個疊代過程,該過程将強制将每個特征僅配置設定給一個輸出表示
形式上,每個concepts cj都表示為維數dc的一維向量。 在每個concepts cj和解釋因子fi之間定義了線性權重rij(我們稱之為路由效率系數)
第一步:Routing adjustment
計算 concepts 和 特征 的相關系數
其中 : fi 表示 i模态的 特征向量 wij 表示 一個權重矩陣
第二步: Concept update
用前面算出的 相關系數 來計算 新的 concepts
pi 是 激活程度
對于Routing 的總結:
我們在上圖中總結了路由過程
該過程在給出 模态特征(fi),局部權重(Wij)和pi的情況下傳回concepts (cj)。
- 我們用 相同的權重初始化 計算得到concepts
- 我們疊代地對路由系數(rij)和concepts 更新進行調整
- 我們傳回更新的concepts
Prediction
預測的話則是 使用一個線性權重變化 對特征進行整合
然後接 solfmax 分類預測即可
實驗
在可解釋方法裡面 效果比較好
Interpretation Analysis
這裡解釋 為什麼 單模态特征 雙模态特征 和三模态特征 有差別, 也就是激活程度和相關系數
作者給了6個例子
例子1:
左上角例子中:
一位演講者正在介紹電影Sweeny Todd。 他說這部電影是音樂劇,并建議那些不喜歡音樂的人不要看這部電影。 由于他對自己喜歡還是不喜歡這部電影沒有任何個人判斷,是以盡管文本模态 包含“don‘t”,但他的情緒仍被判定位中立。
在視覺模态(即視訊)中,當他提到這部電影是音樂劇時,他皺着眉頭,但是我們不能僅僅通過看視覺模态來斷定他的情感是中立的。 通過同時檢視視覺和文本(雙模态),我們判斷這是中立
由圖中可以看到, 該模型為text-vision雙模态提供了很高的pi rij值,表明它對預測有很大貢獻,這證明了我們上面的推理。
例子2
同樣,對于左下角的示例,演講者正在分享她對如何進行百老彙演出的拍賣的經驗。 她談到自己的非常詳細和成功的經曆,在文本中出現了love等積極詞語, 而且在其他模也出現 微笑 (視覺模态)和 快樂的語氣(聲音模态)。 我們相信所有模态都在預測中起作用。
結果,根據我們的模型,三模态特征的pi rij值很高,表明它對預測有很大貢獻,