天天看点

情感计算技术概述

作者:AI智能官

随着计算机科学的不断发展,以及社会对个性化人机交互需求的不断增强,情感计算在人机交互中的重要性日益凸显,基于情感理解与表达的人机交互研究也受到了各领域的广泛关注。情感计算对人的感知、推理、决策、规划、创造、社会互动等许多活动起着不可或缺的作用。基于情感计算的研究在行为分析科学中具有重要意义。情感计算大致可分为单模态情感计算和多模态情感计算,如下图所示。

情感计算技术概述

情感计算研究框架

单模态情感计算

单模态情感计算主要包含文本、语音、视觉、生理信号等四种模态,下面将分别介绍其技术情况。

文本情感计算

文本就是人与人之间的交流因时空等限制而借助的媒介,也是记录信息的一种载体。文本记录了人的思维意识活动,其中一些文本一定带有情感倾向,那么对这部分信息的挖掘、研究和应用就是文本情感计算的主要内容。

(1)研究背景和发展现状

由于机器无法直接理解语言文字这种非结构化的数据,自然语言处理(Natural LanguageProcessing,NLP)应运而生。NLP 有两个核心任务:一是自然语言理解(Natural Language Understanding,NLU)通过语法分析、句法分析与语义分析对句子、段落、语篇等长文本进行理解;二是自然语言生成(Natural Language Generating,NLG)将非语言格式的数据转换成人可以理解的语言格式。NLP建立了人类与计算机沟通的桥梁。由于数据的庞杂,人工分析成本高且耗时耗力,运用大数据技术和人工智能技术对文本的情感进行分析可以极大地提高效率和准确率。因此,文本情感计算应运而生且成为 NLP 的一大研究热点。

目前,文本情感计算属于计算机语言学的研究范畴,主要研究情感状态与文本信息的对应关系。文本情感的计算主要由文本情感特征标注、文本情感特征提取算法和文本情感分类技术组成。

计算机无法识别文本,需要先将文本转为向量再进行分析。目前,常见的文本生成向量的方法有 CNN、RNN、长短期记忆网络(Long Short-TermMemory,LSTM)等。

(2)数据集

NLP 数据集主要按语言种类进行生产。中文文本分类领域的相关数据集有根据新浪新闻 RSS 订阅频道 2005—2011 年的历史数据筛选过滤生成的THUCNews 数据集、根据新浪微博生成的 weibo_senti_100k 和 simplifyweibo_4_moods、今日头条新闻文本分类数据集、搜狗实验室开发的全网新闻数据(SogouCA)和搜狐新闻数据(SogouCS)、腾讯云消息队列 CKafka 上线的数据中心接入的服务模块 DataHub 等。英文文本分类领域的相关数据集有亚马逊评论数据集(Amazon Reviews Dataset)、安然电子邮件数据集(Enron Email Dataset)、包含 5万余条电影评论的影评数据集(IMDB Dataset)、大型英文词汇数据库 WordNet 等。

(3)主要方法

文本情感分析的首要研究问题是情感分类,当前主流的情感分类方法大致有五种:通过构建带有情感倾向的情感词典再基于情感词典进行比较分析的方法、基于机器学习的方法、基于“情感词典+机器学习”的方法、基于弱标注的方法、基于深度学习的方法。

基于传统机器学习的情感分析方法主要有三类:监督学习、半监督学习和无监督学习。监督学习本质上是分类,通过已有的训练样本去训练以获得一个最优模型,再将全部的输入映射为相应的输出,对输出进行简单的判断从而实现分类目的的方法。常见的监督学习方法有 K 最近邻(K-NearestNeighbor,KNN)、朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machine,SVM)等。无监督学习没有任何训练样本,需要直接对数据进行建模。常用的无监督学习方法有 K 均值聚类算法(k-means clustering algorithm,K-means)、主 成分分析法(Principal Component Analysis,PCA)等。

半监督学习的方法是监督学习与无监督学习相结合的一种学习方法。

上述方法虽然简单易懂也具有较高的稳定性,但是存在精度不高和依赖人工操作的缺陷。基于深度学习的分析方法弥补了这种缺陷。一方面,神经网络的引入使模型的预测精度得到提高;另一方面,不需要额外构建字典,从而降低了工作复杂度,减少了对人工操作的依赖。例如,LSTM 能够对前后文进行连贯性建模、BERT 能够将全文作为训练样本抽取特征。

当人在阅读一段文本时,都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义,也就是说,思想具有持久性。于是,循环神经网络最先被应用到 NLP 中,保证了信息的持久化和前后信息的连贯性,其中比较经典的 RNN是 LSTM、 门 控 循 环 单 元(Gate Recurrent Unit,GRU)。随着神经网络在 NLP 中的应用逐渐深入,研究者发现组合神经网络与单一的神经网络相比往往有性能上的提升。例如,在 LSTM 的神经层后面接上捕捉局部特征的 CNN,能够进一步提高精确度。但是,循环神经网络也不是完美的,尤其是RNN 的机制会存在长程梯度消失的问题,对于较长的句子也很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息。为了解决由长序列到定长向量转化而造成的信息损失的问题,注意力机制(Attention Mechanism)被引入。2018 年,谷歌公司推出的预训练语言理解模型 BERT,通过大量无标注的语言文本进行语言模型的训练,从而得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调来提高模型精度。

(4)问题和挑战

由于语言的复杂性,目前文本提取仍面临诸多挑战,如文本隐含内容的提取、非标准化文本的出现、不同语言的文本情感分析等。鉴于文本情感分析应用范围的复杂性,模型的适用范围往往较为单一,很难在多个应用场景下均保持良好的表现。此外,有限的数据集也限制了文本情感分析在多元化场景中的应用。

虽然文本能独立地表示一定的情感,但是人的交流总是通过信息的综合表现来进行的。因此,多模态的情感分析更符合人对情感的感知,更符合人表达情感的模式。研究的结论也表明,相比单一的文本情感分析,多模式的情感分析效果更好。根据模态组合的常见方式,由文本情感分析衍生出两大类多模态分析,即文本音频分析和视频文本分析。这也是目前研究者普遍关注的领域。

语音情感计算

(1)研究背景和发展现状

传统的语音处理系统仅仅着眼于语音词汇传达的准确性,随着语音识别技术的迅速发展,如何识别语音中的情感已成为语音识别领域新兴的研究方向。如今,“物”与“人”的交互变得更加频繁和重要,人与人之间最自然的交互——语音交互,成为物联网中较为理想的人机交互方案。

语音情感是指语音信号蕴含的说话者的情感,主要表现在两个部分:一个是语音所包含的语言情感内容,另一个是声音本身所具有的情感特征,如音调的高低变化等。与语音情感相关的计算称为语音情感计算。语音情感计算的研究内容包括语音情感识别和语音情感合成。

(2)数据集

语音情感数据集是语音情感计算的重要组成部分。目前,数据集的主要分类方式有两种:按照情感语音的生成方式、情感的描述模型进行分类。

根据语音的生成方式分类,语音情感数据集可被分为三类,分别是表演型、引导型、自然型;根据情感的描述模型分类,数据集可被分为两类,分别是离散语音情感数据集、维度语音情感数据集。常用的代表性语音数据集如图所示。

(3)主要方法

语音情感识别系统对给定语音的潜在情感进行分类的方法包括传统方法、基于深度学习的方法。传统的分类器有两类:一类是基于统计的分类器,另一类是基于判别的分类器。基于统计的分类器主要包括隐马尔可夫模型(Hidden MarkovModel,HMM)、高斯混合模型(Gaussian MixtureModel,GMM)和 KNN。基于判别的分类器主要包括人工神经网络(Artificial Neural Network,ANN)、决策树(Decision Tree)和 SVM。深度学习算法由于多层次的结构和高效的结果而被广泛应用于语音情感识别领域,主要包括深度玻尔兹曼机(Deep Boltzmann Machines,DBM)、递归神经网络、CNN、LSTM,以及引入注意力机制的 LSTM。

(4)问题和挑战

语音情感计算虽然具有广阔的应用前景,但是尚未达到成熟阶段。目前,语音情感计算尚待解决的问题包括缺少被广泛认可的数据集、标注困难、语音的声学特征与情感映射关系不清等。

情感计算技术概述

常用的代表性语音数据集

视觉情感计算

(1)研究背景和发展现状

在社交媒体时代,随着具有拍照功能的移动终端的普及,各类图片和视频如潮水般涌入网络,这为情感计算研究者提供了海量数据,人们尝试用合适的模型来识别图片和视频所承载的情感信息。

目前,视觉情感计算的研究热点主要包括基于面部表情的情感识别研究和基于肢体动作的情感识别研究。基于面部表情的情感识别研究主要通过传统计算机视觉以及深度学习来理解面部特征和情感;基于肢体动作的情感识别主要通过人体肢体动作来获取人的情感信息。肢体动作与面部相比具有更大的自由度,这使得它能够通过更丰富的方式来表达更复杂的情绪甚至意图,也有助于使机器具有理解更丰富、更细微情感的能力,进而挖掘个体内心更深层次的情感和意图。

(2)数据集

视觉情感数据集可以分为图片情感数据集和视频情感数据集。

(3)主要方法

视觉情感计算主要研究从视觉信息感知和理解人的情绪,可以通过传统机器学习方法与基于深度学习的方法对视觉情感计算进行研究。

传统机器学习方法主要有方向梯度直方图、支持向量机、K 最近邻、随机森林等。但是,当面对爆炸式增长的视觉内容数据量时,传统机器学习方法难以快速、准确地处理多媒体内容数据的伸缩性、泛化性问题。

近年来,深度学习在许多领域均取得不错的成绩,尤其是在图片分类、图片识别、图片检索等计算机视觉领域。视觉情感计算的深度学习方法与传统方法相比,具有更高的鲁棒性与准确性,因此被广泛应用于基于视觉的情感计算与分析领域。图片情感计算方法以卷积神经网络方法为代表,主要通过深度学习从大量图像数据中自动学习有助于情感分类的有效特征或强特征,以进一步提升图片情感计算或分类能力。视频情感计算方法以循环神经网络为主,该深度学习方法擅长处理视频等序列输入,被广泛应用于计算机视觉任务。

情感计算技术概述

图片情感数据集

情感计算技术概述

视频情感数据集

(4)问题和挑战

视觉情感计算在实际应用中面临不少难题。一是语义鸿沟。语义鸿沟是由于计算机获取图片的视觉信息与用户对图片理解语义信息的不一致而导致的偏差。二是情感表述的准确性问题和标注困难问题。

生理信号情感计算

(1)研究背景和发展现状

随着高精确度、小型、便携和低成本传感器的普及,基于生理信号的情感计算快速发展。广义而言,所有身体变化都可以视作生理信号。情感计算研究最常用的生理特征是脑电、心率和心率异变以及皮肤电流反应。

(2)常用生理信号

① 脑电信号

脑电信号与其他生理信号相比,具有直接客观、难以伪装、容易量化、特征多元的特点,并且与情感具有直接相关性,能够表现出更高的情感识别精度,因此成为基于生理信号的情感识别中应用最广泛的信号之一。在脑电信号预处理中最重要的过程是去除伪迹和噪声,剥离与情感相关的脑电活动,从而提取多种特征:如事件相关电位(ERP)、信号统计量、不稳定指数、高阶交叉特征、分形维数等时域特征;如功率谱密度、微分熵等频域特征;如事件相关去同步(ERS)、事件相关同步(ERD)、时频微分熵等时频域特征;非线性动力学特征;空域特征。最后,将多种特征带入分类器进行分类。卷积神经网络、深度信念网络、深度残差网络等深度学习的方法也被用于基于脑电信号的情感分类。

② 眼动信号

眼动信号主要通过眼动追踪技术获取,记录人的眼球运动在时间和空间上的数据。这些数据主要包括注视时间、注视位置、瞳孔大小、眼电图信号等,其中眼电图信号是在眼动信号中应用比较广泛的信号。眼电图信号一般通过 Hjorth 参数、离散小波变换等多种方式提取特征,并将特征带入分类器中进行分类。深度学习算法也逐步被应用于特征提取、特征融合、情感分类等多个情感识别过程,以提升情感计算的效果。

③ 肌电信号

肌电信号主要通过电极检测肌肉收缩时产生的表面电压,从而获取肌电图数据。肌电信号数据 集 主 要 包 括 DEAP、DECAF、HR-EEG4EMO、BioVid Emo DB 等。肌电信号的特征一般包含时域和时频域两个方面。时域主要提取肌电信号的均值、标准差、最大值、最小值等统计学的特征。时频域主要是通过小波变换对肌电信号进行分解,提取各层小波系数的均值、标准差等。肌电信号的预处理包括滤波、降噪等,通过基于时域、频域以及二者相结合等进行特征提取,利用小波变换、独立成分分析(ICA)算法等进行特征选择与降维,从而将特征带入基于传统方法的分类器或深度学习算法中进行分类。

④ 皮肤电信号

皮肤电信号是一种常用的情感计算指标,依赖于人体的汗腺分泌,电导率随着汗液离子填充汗腺而变化。皮肤电导可以在身体的任何地方测量,最常见的电极放置位置是在手的中指和食指末梢部位。皮肤电导水平(Skin Conductance Level,SCL)和皮肤电导反应(Skin Conductance Response,SCR)是两个重要的情感计算特征。皮肤电信号数据集主要包括 CASE、DEAP、HR-EEG4EMO、BioVid EmoDB 等。皮肤电信号的预处理包括降噪、归一化等,通过提取统计特征或算法优化的方式进行特征提取,最后将特征放入合适的分类器中进行情感计算。

⑤ 心电信号

心电信号(ECG)是人体心脏搏动时心肌细胞产生的动作电位综合而成的。心电信号能够反映心脏的活动,情绪的变化也会直接导致心脏活动的变化,因此心电信号也能运用于情感识别领域。心电特征主要包括 PQRST(心电图的 5 个波形)、心率、心率变异性(如 SDNN、SDANN、rMSSD、pNN50 等),公开的心电信号情感数据集较少,常用的是德国奥格斯堡大学情感生理数据集和 HR-EEG4EMO 数据集。

⑥ 呼吸信号

呼吸是人体重要的一个生理过程,随着情感的起伏波动,呼吸系统的活动在速度和深度上会有所改变。因此,通过对呼吸信号的研究,可以用于判断个体情感状态的变化。常用的呼吸信号特征包括呼吸频率、平均呼吸水平、连续呼吸之间的最长和最短时间、深呼吸和浅呼吸、相邻呼吸波峰的间期、呼气幅度的一阶差分、二阶差分等。常用的数据集是 DEAP 数据库、HR-EEG4EMO 数据集和MIT 情感生理数据集。

(3)问题与挑战

基于生理信号的情感识别技术虽然已经拥有诸多成功案例,但是存在许多未解决的科学问题。首先是信号的采集不便。测量生理信号是建立生理情感计算系统的第一步,而用于检测信号的传感器却极大地受限于场地、环境、可操作性等,也面临可穿戴性差和计算能力弱等困扰。其次是生理信号的通用性较低。例如,随着年龄的变化或某些疾病的产生,生理信号数据会产生差异,即使是同一个人,随着体力活动、交谈或姿势的变换,生理信号也会不同。这并不与情感的变化直接相关。再者是情感标注不精确、数据难以窗口化、采样繁琐、数据的处理与计算难度大,以及非情感和情感对生理影响存在多对一映射、用户隐私泄露等问题。

多模态情感计算

虽然人脸表情、肢体动作、语音等均能独立地进行情感理解和表达,但是人的相互交流总是通过不同模态信息的综合表现来进行的。多模态情感分析可以将不同模态之间的信息进行互补并用于消歧,使情感分析更准确,具有更高的鲁棒性,也更贴合人类的自然表达。这让多模态情感计算成为当下人工智能领域最热门的话题之一。

研究背景和发展现状

单模态的信息量不足且容易受到外界各种因素的影响,如面部表情容易被遮挡、语音容易受噪声干扰等。此外,当个体主观上对情感信号加以掩饰或者单一通道的情感信号受到其他信号影响时,情感分析性能就会明显下降。人的情感通常以多种模态的方式呈现,大脑在整合多感官信息时存在多阶段融合的现象。多模态情感分析能够有效利用不同模态信息的协同互补来增强情感理解与表达能力。引入多模态情感计算是提高模型鲁棒性等性能以及优越性的关键。

目前,对多模态情感计算的研究主要集中在对情感识别和理解的方法上。多模态情感计算的发展趋势集中体现在四个方面:①融合语义信息多尺度对情感进行准确地理解,从多个维度进行多模态情感分析;②提高在复杂环境下情感计算的鲁棒性,实现在非协作开放模式下,面向高维碎片化开源数据,实现目标对象情感状态的精准识别;③与预训练及多任务联合训练等方法结合,实现在更多场景下的多模态情感计算;④探索通用的多模态情感计算模型,通过适配多场景应用,实现多模态情感计算应用零成本迁移。

多模态数据集

针对多模态情感计算的迫切需求,美国卡内基梅隆大学提出了一个大规模的多模态对话情感计算数据集 CMU-MOSEI。CMU-MOSEI 包含了视频文本、用协同语音分析库技术(COVAREP)抽取的声学特征等。在标签方面,CMU-MOSEI 数据集不仅具有情感标签,而且对情感的强弱进行了标注,从而可以支撑细粒度的情感分析任务。目前,主流的生理信号类多模态情感计算资源主要采用音频、视频刺激方法诱发情绪,同步采集多模态生理信号,进而分析不同情绪下中枢神经系统和自主神经系统的反应,以实现基于多模态生理信号的情感识别。典型计算资源包括 DEAP、DECAF、HR-EEG4EMO 等数据集,包含脑电、皮肤电、呼吸、皮肤温度、心电、肌电、血容量脉冲、眼电等信号。实验被试者根据自身感受从唤醒度、效价、偏好、支配度和熟悉度等维度进行评分。由于被试个体的性别、年龄等因素均会对情绪激发产生重要影响,考虑引入相关人口统计学信息并建模是非常必要的。

多模态融合策略

目前,新兴研究方法大多基于多模态情感特征及融合算法创新,以提升情感分类的准确率。在情感计算中,每个模块所传达的人类情感的信息量大小和维度不同。在人机交互中,不同的维度还存在缺失和不完善的问题,因此情感计算应尽可能从多个维度入手,将单一不完善的情感通道补上,最后通过多结果拟合来判断情感倾向。

在模态融合方面,多模态情感计算可分为模型无关和模型依赖两种路线。模型无关包括特征级融合(前期融合)、决策级融合(后期融合)和混合式融合。特征级融合主要先通过构建特征集合或混合特征空间,再送入分类模型进行分类决策。决策级融合关键在于找出不同模态在决策阶段的可信程度,再进行协调、联合决策。混合式融合包含上述两种融合。模型依赖的方法为多模态融合设计了特殊结构,基于核函数的融合和基于图的融合常用于浅层模型,基于神经网络的融合、基于张量的融合、基于注意力机制的融合等则多用于深层模型。模型级融合可以将不同模态特征分别输入不同模型结构再进一步提取特征。决策级融合与特征级融合相比,更容易进行,但关键是要探究各个模态对情绪识别的重要程度。然而,模型级融合并不需要重点去探究各模态的重要程度,而是根据模态特性需要建立合适的模型,联合学习关联信息。总之,模型级融合相较于决策级融合和特征级融合最大的特点在于灵活地选择融合的位置。近年来,有学者提出了多阶段多模态情感融合,即先训练一个单模态模型,将其隐含状态与另一个模型特征拼接得到双模态模型并进行再训练,以此类推,得到多模态模型。

问题与挑战

解决多模态情感计算问题需要更丰富的模态信息积累,以及不同模态之间的细粒度对齐,这无疑对多模态信息的提炼与整合提出了更高的要求。同时,受情感信息捕获技术的影响,以及标记困难的问题,建立高质量多模态数据集是当下的主要挑战之一。传统多模态学习范式对特征之间的关联关系信息和特征的高阶信息的关注不够,而深度多模态学习范式则缺乏大规模的情感数据资源,有关多模态特征融合的情感理解模型研究还有待深入,如融合语义信息进行多尺度情感准确理解、提高复杂环境下情感计算的鲁棒性、探索通用的多模态情感计算模型等。这些技术的完善将进一步推动多模态情感计算的研究与发展。

【来源:之江实验室】

继续阅读