阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues

2021-08-27 14:53:45

M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues

模型总体结构

我们使用三种模态特征，即语音，文本和面部特征。、

流程如下：

提取特征以从原始输入is，if和if（紫色框）中获取fs，ft，ff。
检查特征向量是否有效。我们使用指标函数Ie来处理特征向量（黄色框）。
将这- 些向量传递到M3ER的分类和融合网络中，以预测情绪（橙色框）。
在判断是否有效时，如果遇到有噪声的模态，我们将为该特定模态（蓝框）重新生成代理特征向量**（ps，pt或pf）**

下面会介绍模型的3个重要结构

检查特征向量模块

作者引入了“模态检查”步骤，该步骤可以过滤无效数据。

作者认为：对于有效的数据，其相应的有效模态信号至少与另一个模态信号相关。我们直接利用这种相关性概念来区分可能对情感分类有效的特征（有效特征）和嘈杂的特征（无效特征）。作者使用典型相关分析（CCA）以计算相关分数

通过射影变换把不同模态的特征映射到同一纬度（100） i j 属于 {face, text, speech}

计算相关性

判断是否有效 Ie函数

生成代理特征向量模块

如果在模态检查步骤中的一个或多个模态被检测为无效的，我们将使用以下方程式为无效模态生成代理特征向量

其中T 表示一个线性变换

找到 Vj 是的 Vj 和 Ff 距离最短

解一个线性方程得到 ai

用得到的 ai 计算Ps

乘法模态融合

作者收到(Liu et al. 2018) 的损失函数启发；此方法用乘法的和来抑制弱模态，间接加强强模态，其损失函数

Pj 表示 j模态下的预测值， β 是超参

选定i为主模态，其它模态的预测值会相乘最后相加

作者修改了损失函数

有点像Cross Entropy Loss 的形式

分类网络结构

用的是memory fusion network (MFN)

Zadeh, A.; Liang, P. P.; Mazumder, N.; Poria, S.; Cambria, E.; and Morency, L.-P. 2018a. Memory fusion net- work for multi-view sequential learning. AAAI

每个输入模态首先通过单隐藏LSTM，每个LSTM的输出维度为32。
LSTM的输出以及初始化为全零128维内存变量将其传递给 attention module （MFN 提出的）

小节

文章创新的使用模态特征检测，差的模态特征向量就不用
得到一种生成代理特征的方法，不过具体怎么生成还没搞太清楚
乘法融合那一块没怎么看懂，感觉和一般损失函数差不多，可能他这个是三个模态的特征分别算损失然后加在一起有关

阅读笔记 M3ER: Multiplicative multimodal emotion recognition using facial, textual, and speech cues

继续阅读

特征工程——数据降维

主题挖掘LDA和情感分析图书馆话题知乎用户问答行为数据|附代码数据

QT笔记2__对话框类QDialog(模态和非模态)

[Qt入门]模态和非模态对话框创建

NLP实践——VQA/Caption生成模型BLIP-2的应用介绍1. 简介2. 模型下载3. 运行环境4. 模型应用

DETR（DEtectionTRansformer）是FacebookAIResearch开源的一种端到端目标检测模型。

RGB2LIDAR：多模态融合的大范围场景的视觉定位(ACM-MM2020 )

MFC学习笔记——07-MFC_19day

拓端tecdat|R语言代写如何找到患者数据中具有差异的指标？（PLS—DA分析）

MFC 模态窗口和非模态窗口的创建

首发：吴恩达的 CS229的数学基础（线性代数），有人把它做成了在线翻译版本！...

ICCV何恺明团队又一神作：Transformer仍有继续改善的空间

QT中模态对话框与非模态对话框

久等了，「小红书技术团队」开张啦

#线性变换的特征值与特征向量的求解

214情人节，使用微信小程序【信鸽相知】写情书吧