APP下载

多生理信号信息融合技术的情绪识别发展*

2022-01-26杨捷鸿焦学军曹勇李启杰楚洪祚黄梦盈姜劲

生物医学工程研究 2021年4期
关键词:生理分类情绪

杨捷鸿,焦学军,曹勇,李启杰,楚洪祚,黄梦盈,姜劲△

(1.航天工程大学研究生院,北京 101416;2.中国航天员科研训练中心人因工程国防科技重点实验室,北京100094)

1 引 言

情绪影响人的认知、决策、行为等诸多方面。当人情绪变化时,往往伴随着一系列生理变化,通过监测生理信号变化对情绪进行分析有着重要的现实意义。在医疗健康领域,相比于身体疾病,人们往往容易忽视心理疾病。而长期的不良情绪积累导致的心理疾病,将带来更加危害的后果,所以对情绪进行有效识别,并及时地干预和排解显得尤为必要。在人机交互领域,机器只有更懂人的感受,才能实现更自然的交互。

Deak[1]认为情绪是调节和引导行为的主观状态,是生物、社会和认知成分的集合。情绪既是人的一种主观感受,同时也是客观存在的一种状态。通常可通过一些身体表现来表达,如面部表情、动作姿态、语言、语调等,从这些较为直观的表达方式容易读出情绪状态,但因可以伪装,结果并不一定可靠。情绪也引起生理信号的变化,如恐惧时心跳会加速。生理信号因具有不易掩饰的性质,更能客观地反映出真实的情绪状态和心理感受,所以基于生理信号的情绪识别逐渐成为当前情绪识别研究领域的热点。

相比单一生理信号,多种生理信号可以提供更为丰富的信息,有望提高情绪识别系统的准确性和鲁棒性。目前,基于多生理信号信息融合技术的情绪识别研究仍处于起步阶段。本文从情绪的模型和诱发、多生理信号的采集、信息融合、分类等方面出发,梳理了近年来多生理信号信息融合技术在情绪识别领域的发展进程和研究现状,并归纳总结了目前存在的主要问题。

2 情绪模型与诱发方式

2.1 情绪模型

情绪反映人的某种心理或生理状态,情绪研究和情感科学中一个有争议的问题是如何区分一种情绪和另一种情绪。研究表明,情绪是可划分的。但情绪的划分面临很多困难,我们的情绪是非常复杂的,涉及到诸多不同的因素,包括情绪的开始结束,情绪的程度、性质和强度,并且人类往往同时经历多种情绪[2]。尽管如此,研究人员和心理学家们提出各种模型来分类情绪。针对情绪的分类模型,目前有基本情绪模型和空间维度模型两种基本观点。

基本情绪模型认为情绪可以被划分为离散的几种基本情绪,人类众多的复杂情绪由基本情绪派生而来。心理学家们在基本情绪的种类和数量上至今没有明确和统一的结论,目前的主流是著名心理学家Ekman提出的6种基本情绪,分别是愤怒、厌恶、恐惧、快乐、悲伤和惊讶。有学者在研究先天预置的基本情绪时发现,人的情绪激活不仅与外界的输入刺激有关,还同个体本身的情绪状态有关,这与有限状态机的功能是相符合的,指出可以结合有限状态机矩阵方法构建基本情绪模型[3]。

空间维度模型认为情绪可以从多个维度进行度量,从而把情绪映射到一个多维空间。心理学家 Johnston 用简单的一维实数轴来划分情感极性,实数的正负对应于情绪的正负性,该模型只能进行粗略的划分。目前使用最多的是将情感映射到二维空间,即V-A 二维情感模型,用横坐标表示效价/愉悦程度,用纵坐标表示情绪的唤醒程度,见图1。该模型能区分更多的情绪种类,但对于在二维坐标中较为接近的情绪种类,如恐惧和愤怒,要进行有效区分依然是一个挑战。Wilhelm提出在此基础上增加一个维度,认为情感可以用三个维度来描述:“愉悦或不愉悦”、“唤醒或抑制”和“控制或放松”。1954 年Harold将情绪的三个维度命名为“愉悦度”、“唤醒度”和“优势度”,即PAD 模型,见图2。优势度描述情绪对外界环境处于支配或被支配的地位,可以区分如愤怒和恐惧这些在二维情感模型中较难区分的情绪种类。然而增加的第三维度不够直观,一定程度上限制了该模型的推广和使用。

图1 VA二维情感模型

2.2 情绪诱发方式

实验室条件下诱发出个体真实的情绪并维持一段时间是进行情绪研究的前提,目前情绪诱发方式主要有:

(1)Velten 情绪诱发法。阅读带有强烈情绪色彩的语句来诱发相应情绪,操作简便但易受语言理解能力和不同文化背景影响,且阅读时对脑电信号的采集会有影响,因此该方法有一定的局限性;

图2 PAD情感模型图Fig.2 PAD emotion model

(2)自传式回忆情绪诱发法。通过回忆过往经历诱发相应情绪,对被试配合程度要求较高,不同的过往经历带来的个体差异较大,难以诱发出标准的情绪。

(3)想象情绪诱发法。根据指导语的提示,努力想象一些具有不同情绪色彩的情景。该方法的优点是能够诱发高级自我意识情绪,缺点是需要被试有意识的合作。

(4)图片/视频情绪诱发法。通过向被试呈现一系列带有强烈情绪色彩的图片,以诱发被试产生目标情绪。研究人员通常利用国际情绪图片系统(IAPS)或中国情绪图片系统(CAPS),此方法在事件相关电位(event-related potentials,ERP)研究中应用越来越广泛,缺点是诱发情绪持续时间短暂。也有研究者利用视频情绪诱发方法,较之于图片,视频能诱发更明显的情绪,且不容易引起疲劳,但目前标准的本地化情绪影视库还未完全建立。

(5)声音/音乐情绪诱发法。通过向被试呈现一些具有强烈情绪色彩的声音(哭声、打雷声等)或音乐来诱发目标情绪,该方法不太稳定,受个体差异影响大,目前仍存在不少质疑,运用的比较少。

(6)任务完成方式。任务完成方式是一种比较复合的情绪诱发方式。这种诱发方式最大的优点是由于被试的参与度较高,更容易诱发出持续且明显的情绪,缺点是难以建立标准的诱发场景[4]。

总结以上几种方法来看,传统情绪诱导方法停留在低维空间,存在情绪诱导效率低、对外界干扰敏感度高的局限性。其次,现阶段情绪诱导方法的标注主要采用主观自评量表,具有较大主观误差,且无法实现时间维度的持续性标注。同时,在情绪识别领域,尚无适用于虚拟现实场景的机器学习分类模型[5]。

近年来,随着虚拟现实(virtual reality ,VR)技术的发展,各种VR设备以其强烈的沉浸感迅速获得了市场的青睐,不少研究者通过VR技术模拟构建逼真的场景来诱发更为明显的情绪。华南理工大学团队[6]利用VR 视频来诱发被试产生平静-兴奋的情绪状态,并基于主成分分析(principal components analysis,PCA)和典型成分分析(canonical components analysis,CCA),实现了基于脑电信号时频特征融合的情绪识别算法,对两种情绪状态的平均正确识别率达到 84.43%。尽管诱发材料经过人群筛选,但由于个体差异的存在,不同的被试对同一个视频片段依然有不同程度的感受,所以在建模时仍需要将主观量表考虑在内。

3 基于生理信号情绪识别

神经系统分为两部分:中枢神经系统(central nervous system, CNS)和外周神经系统(peripheral nervous system,PNS)。其中,外周神经系统按所联系的器官不同,又分为自主神经系统(autonomic nervous system, ANS)和躯体神经系统(somatic nervous system, SNS)两大类[7]。虽然人类的情绪起源于我们的大脑,涉及其调节和感觉的多个区域,但涉及到一些生理反应,如心率和呼吸频率的变化,这些生理反应则起源于自主神经系统,而自主神经系统又受中枢神经系统的调节。因此,结合中枢神经系统和自主神经系统活动的测量来研究情绪是合理的。目前用于情绪分类的生理信号主要有脑电(electroencephalogram, EEG)、功能性近红外光谱(functional near-infrared spectroscopy, fNIRS)、心电(ECG)、肌电(EMG)、呼吸(RSP)、皮肤电反应(GSR)、脉搏波(PPG)、皮温(SKT)等。

3.1 基于自主神经系统生理信号的情绪识别

早在19世纪,研究人员就发现人类特定生理变化与特定情绪状态之间存在一定的联系。例如,人在说谎时会产生紧张情绪,自主神经系统控制的生理参数如血压、心率、呼吸和皮肤电阻会发生变化,而且这种变化不易受主观意识影响,能较好地反映人的情绪状态。基于此,1885年,龙勃罗梭通过测量脉搏、血压变化的方法来辨别谎言。1921年赖森成功研制世界上第一台专用测谎仪,并应用于案件的侦破中,由此拉开了利用生理信号进行心理状态识别研究的序幕。进入20世纪,随着科学的发展和实验手段的进步,更多的自主神经系统生理信号如皮温、心电图、肌电图、皮肤电反应、血容量搏动等加入到情绪识别的研究中。

1995年,Picard教授提出“情感计算”的概念,其研究成果证明从生理信号中提取特征进行情绪识别研究的方法是可行的。21世纪,人工智能的发展促进了情绪识别、情感计算等领域的研究,情绪识别朝着更多的情绪种类分类、更高的分类准确率以及更少更便捷的生理信号采集发展。Gouveia[8]通过使用雷达波,基于多普勒效应检测呼吸信号进行情绪识别,提取雷达波信号的均值、方差、峰峰值、波形宽度、六个频带功率谱等12种特征,并用SVM、KNN和随机森林三种分类器进行分类,研究结果显示对于恐惧、快乐和中性三种情绪的分类准确率达到60%~70%。这种非接触测量的方式可以避免干扰被试,但要求受试者身体不能移动,在实际应用中有很大的局限性。Bulagang等[9]回顾了使用心电图和皮肤电图进行情绪分类的研究,并讨论了未来ECG和EDG在情绪分类中的应用前景。易慧[10]利用心率变异性的特征信息,研究了八种情绪的心电信号,针对平静和恐惧二分类识别精度达到75%。喻一梵[11]利用心电和脉搏信号,采用贝叶斯分类器,设计实现了基于心电和脉搏信号线性特征的正负性情绪分类,分别取得了79.1%和75.9%的分类正确率。

皮肤电导水平也能反映情绪的变化,Ganapathy等[12]利用皮肤电活动信号对相位分量进行短时傅里叶变换,从相位信号中提取出38个时间、频率和时频域特征,经过模型训练在唤醒度和效价度分别达到79.3%和71.4%的准确度。皮肤电在情绪识别领域显示出一定的应用价值,但也有不少局限性。皮肤电的检测受到局部汗液量、检测部位、被试者状态及许多其他生理因素的影响,可能对情绪识别的准确率有一定的影响。表1显示了在所有公开的情绪数据集中,所采集的自主神经系统生理信号出现频次最高的5种。

表1 自主神经系统生理信号出现频次(由高到低)

单一的自主神经系统生理信号反映的信息量有限,且自主神经系统生理信号变化速率相对较慢,难以达到实时性的要求,可有效区分的情绪种类较少。多种生理信号联合检测能结合各自的优势,反映更多的信息,正成为情绪识别领域的研究热点。

3.2 基于脑电信号的情绪识别

脑电信号来源于与情绪高度相关的中枢神经系统,具有较高的时间分辨率。基于脑电信号的情绪识别基本步骤是利用预先经过人群筛选验证过的情绪刺激素材(图片或音视频等)诱发受试者产生目标情绪,同时记录脑电信号,接着对信号预处理、特征提取与降维、模型构建、分类器分类等步骤实现对情绪的分类。相比于其他生理信号,脑电信号可以提取的特征较多,包括时域、频域、时频域、空间域等,在情绪识别领域占据重要的地位。研究早期,主要提取时域和频域特征用于分类。近年来,随着熵、相关维数、分形维数等非线性特征以及非对称性等空间域特征引入情绪识别领域,识别准确率有了进一步提升。

Nawaz等[13]通过让受试者观看视频,从采集的脑电信号中提取功率谱密度、熵、分形维数、统计特征和小波特征等综合特征,使用三种不同的分类器(SVM、KNN和DT)对特征提取方法进行定量分析,并采用特征选择(FS)技术缩小了特征空间。实验结果表明,脑电信号的时域统计特性可以有效地区分不同的情绪状态。Garg[14]提出了一种基于小波的深度学习框架,该框架同时考虑了多通道脑电图信号的频率和空间特征。围绕面向情绪识别的脑电特征,张冠华等[15]从时域、频域、时频域和空间域4个方面介绍了特征的定义、计算方法和与情绪的联系,在对比了各种特征之后,认为时域特征对情绪效价分类的贡献度最高,且在所有时域特征中,统计特征显示了其重要性。

从高通道脑电信号提取的原始特征往往会面临“维数灾难”,高维数的特征不仅会增加计算量、降低运算效率,而且不可避免包含很多无效特征,故在分类前需进行降维。降维通常有两类方法,一类是特征选择,从特征集合中挑选与任务相关的特征子集减少特征个数,在保证对分类准确率较小影响的同时,降低模型计算量和运行时间。针对EEG信号数据冗余导致分类准确度低等不足,王永宗[16]利用基于ReliefF算法的通道选择算法,并对前额三、五和七通道的三种通道组合展开了研究,结果显示对特征和通道进行优选,基本能维持原有分类正确率,同时提高便携性,降低通道和特征冗余。刘晓凤[17]提出了基于Relief-FGSBS的情绪识别通道选择方法,提高了分类器性能。Asghar等[18]利用深度特征聚类(DFC)结合多神经网络进行特征选择,在较短的处理时间内提高了情绪识别的性能。另一类是利用主成分分析( PCA) 、共空间模式( CSP) 等方法对原有特征进行线性或非线性变换,实现特征降维,从而降低强相关变量和冗余信息对计算效率的影响。

综上,已有的基于脑电信号的情绪识别研究主要围绕着以下几个问题展开:脑电信号特征提取与优选;通道选择、特征降维算法研究;利用机器学习或深度学习改进分类算法;研究情绪识别系统的泛化能力以提高跨个体、跨时间分类准确率;脑电信号和其他生理信号联合检测。尽管脑电信号的相关研究已经非常广泛,但投入使用仍受到以下问题制约:脑电信号非常微弱,采集的过程中容易受噪声干扰;空间分辨率不高;脑电图的个体差异使得很难获得普遍适用的一般模型,难以保持稳定的泛化能力。

3.3 基于功能性近红外光谱技术的情绪识别

功能性近红外光谱技术(fNIRS)是上世纪90年代开始研究的新型脑功能检测技术,该技术利用波长 600~900nm的近红外光在人体组织中的散射和吸收特点,可以检测氧合血红蛋白和脱氧血红蛋白的浓度变化。在大脑处于活跃状态时,脑神经活动会带来脑血流量和氧代谢率的变化,该技术通过检测血流变化参数反应大脑活动,是一种间接的脑功能检测技术。

Watanuki等[19]在情绪面部评估和面部识别任务中,利用fNIRS来测量精神分裂症患者大脑功能,以分析哪些大脑区域在识别情绪化的面孔时受损。Heger等[20]记录了8名受试者分别对3种不同级别的情感视听刺激和中性级别的情感诱导做出反应时,前额叶8个位置的fNIRS信号,并对5s长的短窗口进行评估,以持续识别情绪状态。Hu等[21]基于功能性近红外光谱技术,利用30段视频片段,诱发了10种典型的积极情绪,通过多维度分析,分成了三个不同的聚类,聚类之间的二分类准确率达到了70%以上。Wang等[22]研究了导致fNIRS情绪识别系统跨时间分类不稳定的影响因素,并提出了一种平衡特征稳定性和可分离性的方法,实验结果表明,该方法可以提高约5%的跨时间准确度。姜劲等[23]基于fNIRS技术通过对6种情绪(中性、愉快、有趣、悲伤、伤感以及恐惧)在唤醒度、愉悦度和情绪种类三个分类目标上分别实现了81%、78.78%和68%的平均分类正确率。

fNIRS技术便携性好,空间分辨率高,且不易受运动、噪声干扰。但时间分辨率不高,有滞后性,通常和其他生理信号联合以获得更好的分类效果。综上,基于fNIRS情绪识别相关研究还处于起步阶段,该技术拥有广阔的应用前景。

4 多生理信号信息融合

相比于单一生理信号,多种生理信号的组合反映的信息更为丰富,因此,利用多生理信号信息融合的方式进行情绪识别已成为该领域当前研究的主要方向。多生理信号信息融合根据所处的阶段可以分为早期融合、中期融合以及晚期融合[24],也可以根据不同层面划分为信号级融合、特征级融合以及决策级融合。信号级融合多用于同类信号间,是指对设备采集到的原始信号直接进行融合处理,该融合方式保留最原始的信号,但由于原始信号的采样率通常较高,数据量大,处理时间长,导致其抗干扰能力差[7]。将信号提取的特征进行融合,即为特征级融合。特征级融合能够实现可观的信息压缩,提高分类识别的实时性。决策级融合是分别用单一生理信号进行分类,再将分类结果采用投票或加权投票的方式进行融合。该融合方式相对简单,不同生理信号之间的耦合度较低,对数据的分析处理有利。表2为不同层面融合方法的比较。

表2 不同融合方法的比较

2008年,Kim等对音乐诱发的4种情绪进行分类识别,通过采集肌电、心电、皮肤电导和呼吸等多种生理信号并对提取的时频特征进行信息融合,实现了90%以上的分类正确率。Gouizi等同时采集4位志愿者的肌电、呼吸容积、皮肤电传导、皮肤温度、血容量脉冲和心率六种生理信号,采用支持向量机( SVM) 进行情绪分类,结果表明多个生理信号组合可以明显提高情绪的识别率[25]。Oh[26]在研究六种基本情绪分类时,使用胸带呼吸传感器和血量脉冲传感器采集了53名志愿者观看相应视频剪辑时的呼吸和心率变异性(heart rate variablity, HRV)信号,并从HRV提取HR、HRV Amplitude、LF、HF、LF/HF Ratio特征,从RSP提取RSP Value、RSP Rate特征,利用基于卷积神经网络(convolutional neural networks,CNN)的深度学习模型来检验分类准确性。结果表明多信号分类优于单一生理信号,且RSP和HRV所有域特征的结合显示很明显的优势。Hassouneh等[27]采集20位志愿者的脑电,心动和面部肌肉活动,并利用深度神经网络(deep neural networks, DNN)来处理多种生理信号,有效地识别了9种情绪。并进一步将DNN与SVM,朴素贝叶斯和K-Means算法进行比较,结果显示DNN产生更高的分类准确率。陈沙利等[28]提出一种融合脉搏波、皮肤电反应、呼吸、皮肤温度等多种信号的特征,结合SVM-RFE-CBR特征排序算法进行特征选择,利用支持向量机进行分类,并通过DEAP数据集验证该模型在愉悦度、唤醒度、优势度上的二分类效果,分别获得了73.5%、81.3%、76.1%的准确率。

EEG和fNIRS的组合在情绪识别研究领域被认为很有潜力,一方面可以用于研究不同情绪状态下大脑的响应规律,另一方面有望提高情绪识别的准确性和鲁棒性。但如何融合这两种生理信号是关键,Hong等[29]提出一种新的方法——矢量相位分析,用于识别大脑区域和血液动力学反应分类。多种生理信号可以提供更多特征,常用特征见表3。情绪变化产生的不同生理信号响应速度之间不尽相同,如情绪引发的脑电图响应快于fNIRS采集到的血氧信号变化,在融合二者信息时需要考虑合适的融合策略。

分类方面,研究人员更多的关注如何改进分类算法以提高单个体的情绪识别准确率,如支持向量机、长短时记忆网络、卷积神经网络[30-31]、深度森林[32]、遗传算法[33]等,同时希望模型有更好的泛化能力。针对跨个体模型通用性不强的问题,有学者提出将迁移学习运用到跨个体的情绪识别中[34]。Li等[35]提出基于多源迁移学习方法提高了情绪识别的跨个体泛化能力,三分类准确度提高了12.72%。也有学者针对只依靠生理信号建立通用模型的做法表示怀疑,提出结合人格和生理信号建立个性化的情绪模型[36],目前这方面的研究较少。

虽然融合多种生理信号有望进一步提高情绪识别的准确率,但同时也带来不少挑战。除了要解决单一生理信号情绪识别所面临的问题,如情绪诱发素材是否对不同的受试者均有效,能否满足实时在线的要求,分类模型的通用性等,还需要考虑解决以下问题:

表3 生理信号常用特征

(1)不同情绪状态脑区激活响应有待进一步明确,未来该问题的解决有助于优化通道布置;

(2)从多生理信号中找出和情绪最相关的特征;采集多种生理信号可以提取更多的特征,其中包含对分类结果无效的特征,找出和情绪分类最相关的特征有利于解决实时性的问题;

(3)多生理信号的优化组合。多种生理信号可以提供更多的用于情绪分类的信息,但测量信号种类的增多会降低便携性,平衡二者之间的关系需找到最佳的生理信号组合;

(4)多生理信号信息融合模型的建立。发展完善的信息融合理论体系和融合模型建立方法,提高融合技术的针对性。

5 总结与展望

基于多生理信号的情绪识别有着非常广泛的应用前景,但目前仍主要停留在实验室研究阶段,距离实际应用还有很长的距离。这既需要突破情绪产生的生理机制,也需要数据处理、信息融合技术的进一步发展。同时,连续、实时在线的情绪识别技术是未来的发展趋势,也是投入实际应用的基础。值得注意的是,研究连续情绪识别的一大挑战是连续的情感标注,Romeo等[37]提出利用多示例学习(multiple instance learning,MIL)框架来应对这一挑战,更多的方法还有待探索。

本文从情绪模型与诱发方式、生理信号的采集、多生理信号情绪识别的研究现状等方面,梳理了近年来生理信号应用于情绪识别领域的发展现状,同时归纳出多生理信号情绪识别目前面对的主要挑战,为后续的相关研究提供了借鉴和思考。

猜你喜欢

生理分类情绪
分类算一算
大脑如何知觉音乐的形式美?——来自电生理的证据
肉鸡铬需要量及其营养生理作用
基于BP神经网络的旋转血泵生理控制
分类讨论求坐标
数据分析中的分类讨论
小情绪
小情绪
小情绪
教你一招:数的分类