APP下载

PAD 维度下的深度情感关联模型研究

2022-04-20孙颖马浩杰张雪英

电子设计工程 2022年7期
关键词:识别率权值关联

孙颖,马浩杰,张雪英

(太原理工大学信息与计算机学院,山西太原 030024)

情感识别是人工智能领域不可或缺的一部分,使计算机能够识别、理解和表达人类语言中的情感是人工智能领域的重要研究方向。构建能够识别多变且复杂的情感模型[1]是当前研究的热点问题之一。

随着深度学习的发展,越来越多的学者通过深度学习建模进行语音情感识别,例如,杨明极等[2]提出使用卷积神经网络从原信号中提取特征,并结合长短时记忆网络获取语音信号上下文信息,最终识别率达到91.74%;余莉萍等[3]提出将注意力机制引入长短时记忆网络中,将遗忘门和输入门转换为注意力门,得到基于改进长短时记忆网络(LSTM)的语音情感识别模型,在CASIA 中文数据库上的识别效果要优于传统LSTM 识别模型;Jian Wang[4]提出深度信念网络(DBN)与浅层神经网络结合进行语音情感识别,最高识别率可达95%;张昕然等[5]提出基于深度信念网络的特征层融合方法,通过多个数据库上的实验验证,特征融合后的特征子集相对传统特征的识别率可提升4.6%。以上模型仅考虑了独立情感状态,忽视了情感状态之间的关联性[6],例如喜极而泣、乐极生悲等。汤宇豪等[7]提出基于情感嵌入视觉注意力模型的连续维度情感识别方法,基于长短时记忆网络的视觉注意力模型利用上下文信息对情感显著区域进行加强,最后通过K-means 聚类方法将前一时刻的情感映射到具体的情感类比中,与使用深度卷积神经网络学习的当前人脸特征融合,进一步学习情感显著特征,强化上下文之间的情感连续性并在已有公开的国际音视频情感挑战赛AVEC2016 和AVEC2017 两个数据库上验证了模型的有效性;孙颖等[8]提出一种深度情感关联模型考虑到了情感之间的相互关联,该模型使用多层限制玻尔兹曼机与关联认知网络(Interactive Cognitive Network,ICN),在TYUT1.0 情感语料库和CASIA 数据库中平均识别率相较深度信念网络最高可提高6.06%,该模型固定使用中国科学院心理所的中文简化版PAD 情绪量表表示情感之间的关联,而对于不同情感数据库,甚至相同数据库中的不同语句,其PAD 值都是不同的,仅使用固定PAD 值势必对识别结果造成影响。

为更好地进行语音情感识别,该文提出用PAD情感预测值内各情感预测值计算关联认知网络的权值,构建深度情感关联模型。以PAD 情感维度预测值作为关联认知网络情感之间权值计算的输入,实现权值动态计算;使用遗传算法(GA)优化深度情感关联模型超参数,避免参数选择盲目性,提高模型识别率。最后,设置四组实验方案进行对比实验,验证该文所提出模型的有效性以及普适性。

1 理论基础

1.1 深度情感关联模型

深度情感关联模型结合多层限制玻尔兹曼机与关联认知网络[8],如图1 所示。多层限制玻尔兹曼机[9]可以有效地反映非线性映射、去除输入信息的冗余、实现特征降维。关联认知网络(ICN)由输入层和输出层组成,输入层为情感特征,输出层为情感类别,输入层和输出层之间直接连接,输出层情感之间相互连接以表示情感之间的关联性。

图1 深度情感关联模型

1.2 PAD情感维度预测

离散的情感类别只是对基本情感的分类,忽视了不同情感之间的关系。PAD 三维情感空间可以连续且平稳的表达不同类别的情感,进而可表示情感之间的关系,其中P表示愉悦度(pleasure-displeasure),A表示激活度(arousal-nonarousal),D表示优势度(dominance-submissiveness)。相较人工标注PAD 值的耗时长、主观性强,PAD 预测模型更快捷、更客观且可以应用到不同数据库。该文所使用PAD 预测模型以情感特征和人工标注PAD 值作为模型输入预测PAD 值[10-11],模型如图2 所示。

图2 PAD预测模型

具体工作流程如下:

1)特征降维:通过灰色关联分析得到情感特征与P、A、D 之间的关联度并按大小排序,使用回归模型得到前m维特征的MAE 误差,取最小MAE 对应维数特征作为特征子集;将特征子集作为主成分分析的输入,得到最优情感特征子集。

2)PAD 维度预测:将最优特征子集分为训练集和测试集输入到PSO-LSSVM 模型,得到测试集PAD预测值;计算预测值与人工标注PAD 值聚类中心之间的距离,大于设定阈值的归类为混合情感,小于阈值的归类为与其距离最近的情感类别,进而得到对应情感特征;将情感特征作为其对应情感PSOLSSVM 模型的输入,得到最终PAD 维度预测值。

1.3 遗传算法(GA)

遗传算法(Genetic Algorithm,GA)[13-14]的概念是约翰·霍兰德提出。遗传算法借鉴自然遗传和自然选择的原理,通过选择、交叉、变异操作对编码后的参数(二进制编码)优化,并用概率规则来引导种群进化,随着进化代数的增加,种群的进化方向也逐渐确定。遗传算法流程图如图3 所示。

图3 遗传算法流程图

2 PAD维度下的深度情感关联模型

深度情感关联模型所使用的PAD 情感维度值是基本情感PAD 值而非情感语音数据库的PAD 预测值,会对情感分类结果产生一定影响。故该文提出用PAD 情感维度预测值计算关联认知网络的权值,构建深度情感关联模型,并用遗传算法对模型超参数进行优化。其框图如图4 所示。

图4 模型框图

具体步骤如下:

1)特征提取:提取情感语音数据库的情感特征(韵律特征、MFCC 特征、非线性属性特征及非线性几何特征)。

2)PAD 情感维度值预测:将情感特征和人工标注PAD 值作为输入,使用灰色关联分析和主成分分析去除特征冗余,选出最优特征子集,通过聚类PSO-LSSVM 模型预测PAD 维度值。

3)情感之间权值计算:对各类情感PAD 预测值取均值,得到代表各类情感的PAD 维度值,然后在PAD 三维空间中计算各类情感维度值之间的欧氏距离,如式(1)所示,使用各类情感间的欧氏距离计算关联认知网络(ICN)情感之间的权值,如式(2)所示。

式中:d为两类情感之间的距离,(x1,y2,z1) 和(x2,y2,z2) 分别代表两类情感在PAD 三维空间中的坐标。

式中:wij为两情感类别之间的关联度;dmax为所用PAD 三维空间的最大距离,即PAD 三维空间对角线长度;dij为两类情感在PAD三维空间中的距离。

4)超参数优化:使用遗传算法对深度情感关联模型的超参数(隐含层节点数、RBM 训练次数、ICN训练次数、动量因子、学习率)进行优化,以使用PAD预测值的深度情感关联模型为GA 的适应函数,准确率为适应度。选取适应度最好的个体设置为深度情感关联模型的超参数。

5)情感分类:将情感特征及其PAD 预测值作为深度情感关联模型的输入。

3 实 验

3.1 实验数据库

TYUT2.0 情感语音数据库通过截取广播剧的方式获得初选情感语音数据库,而后通过模糊综合评价与层次分析法、熵权法相结合建立的情感语音模糊综合评价模型对初选数据库进行模糊评价,最终筛选得到高质量的情感语音数据库[15],其中包含了“高兴、愤怒、悲伤、惊奇”4 种情感。

柏林德语情感语料库[16]由10 名演员(5 男5 女)通过回忆自身经历对悲伤、愤怒、高兴、害怕、自然情感模拟得到的,该语音库真实度高,受到业内广泛使用。

该文选取TYUT2.0 以及柏林德语情感语音数据库中共有的情感“悲伤、愤怒、高兴”进行实验,其中TYUT2.0 情感语音数据库中的悲伤(62 句)、愤怒(58句)、高兴(57 句),柏林德语情感语料库(EMO-DB)中悲伤(52 句)、愤怒(77 句)、高兴(68 句),并以3∶1 的比例设置训练集和测试集。

以TYUT2.0 数据库为基础,通过心理学实验的方法对情感语音进行P、A、D 维度值标注,得到PAD三维情感模型。实验选取100 名在校大学生(44 名男生,56 名女生,身心健康)对TYUT2.0 数据库每一条语句按照1~5 的标注范围进行PAD 维度标注,每一条语句的P、A、D 值取100 位同学标注值的均值得到PAD 人工标注值;该文使用其中悲伤、愤怒、高兴3 种情感共177 句的PAD 标注值,如图5 所示。

图5 PAD维度空间情感分布

3.2 情感特征

提取TYUT2.0 数据库和柏林数据库的韵律特征、MFCC、非线性属性特征[17]、非线性几何特征[18]作为模型的输入。情感特征维数及内容如表1 所示。

表1 语音情感特征

3.3 实验方案

为验证该文提出模型的有效性,设计四组实验方案进行对比实验,实验方案如下:

方案一:使用中文简化版PAD 量表的值计算关联认知网络权值,根据经验设置深度情感关联模型超参数;

方案二:使用中文简化版PAD 量表的值计算关联认知网络权值,使用遗传算法优化深度情感关联模型超参数;

方案三:使用PAD 预测值计算关联认知网络权值,根据经验设置深度情感关联模型超参数;

方案四:使用PAD 预测值计算关联认知网络权值,使用遗传算法优化深度情感关联模型超参数。

中文简化版PAD 量表的值与PAD 预测值如表2所示。

表2 PAD情绪量表

3.4 实验结果及分析

方案一至方案四模型超参数设置范围如表3 所示。设置隐含层节点数可改变多层受限玻尔兹曼机的结构,该文设置两层受限玻尔兹曼机,其中每一层的可见层以及隐含层节点数依次减少;动量因子可使参数值的修改方向由上次参数值的修改方向和本次梯度方向共同决定,也会避免局部最优;学习率决定了模型的收敛速度,过大会导致算法不稳定,过小会使降低收敛速度;RBM 以及ICN 的训练次数决定模型训练次数以及耗时长短,较好的训练次数可更快地得到模型最优解。

表3 参数取值范围

以TYUT2.0 数据库和EMO-DB 数据库为基础进行实验,方案一至方案四实验结果如表4 所示。

表4 实验识别结果

从表中TYUT2.0 数据库的识别结果来看,4 种方案识别率较为均衡,仅方案一高兴识别率较低。对比方案一、二以及方案三、四,从平均识别率来看,方案二达到78.72%,高出方案一6.38%,方案四达到80.85%,高出方案三4.25%;从各情感的识别率看,使用了遗传算法优化的方案二及方案四的3 种情感识别率均大于或等于未优化的方案一和方案三,且均有较好的识别率,说明使用遗传算法优化模型超参数的有效性。对比方案二、四以及方案一、三,从平均识别率来看,方案四高出方案二2.13%,方案三比方案一高4.26%,且使用PAD 预测值计算情感间权值的方案四及方案三各类情感的识别率均大于或等于使用基本情感PAD 值计算情感间权值的方案二及方案一,由此可看出该文使用PAD 预测值计算关联认知网络情感之间权值的有效性。从整体识别结果看,方案四的识别率达到80.85%,相较方案一、方案二和方案三提高了8.51%、2.13%及4.25%;并且方案四的悲伤、愤怒以及高兴情感的识别率均高于或等于方案一、二和三。实验结果表明,方案四优于其他三种方案,说明该文所提出模型的优越性。

从表中EMO-DB 数据库的识别结果来看,四种方案的识别效果都较好,平均识别率均在85%以上,各类情感的识别率也在80%以上。方案一、二、三、四在“悲伤”情感的识别率均达到100%;在“愤怒”的识别效果上看,方案四识别率达94.74%,相较方案一、三高出10.53%,相比方案二高出5.27%;在“高兴”的识别效果上看,虽然方案四与方案二、三的识别率相同,但识别率较好,达到了93.75%,相较方案一81.25%的识别率高出12.5%。从平均识别率看,方案四识别率达到95.74%,相较方案一、二、三高出8.51%、2.12%、4.25%,由此可看出使用该文提出模型的有效性。

综上所述,该文所提模型在TYUT2.0 数据库以及EMO-DB 数据库均有较好的识别效果且优于其他三组实验方案,可体现出该文所提出PAD 情感维度预测值作为关联认知网络的权值,构建深度情感关联模型的有效性以及普适性。

如表5 所示,为该文模型与文献[8]中模型对中科院PAD 情绪量表中的“愤怒”、“高兴”两种情感的识别结果对比,可进一步证明该文模型的有效性。

表5 中科院PAD情绪量表中两种情感的结果对比

4 结束语

鉴于深度情感关联模型的关联认知网络权值设置固定,该文首先用PAD 情感维度预测模型得到各类情感的PAD 预测值,使用预测值计算关联认知网络情感间的权值;然后用遗传算法对深度情感关联模型的超参数优化,得到最优超参数;最后,以TYUT2.0 情感语音库和EMO-DB 数据库为基础,设置四组实验方案,通过对比实验验证使用动态权值且优化参数的深度情感关联模型的有效性与普适性。实验表明,PAD 维度下的深度情感关联模型的识别效果优于其他三组实验,说明PAD 预测值可更好地体现情感之间的联系,可更好地辅助模型进行情感识别。但是,关联认知网络不仅有输出情感之间的权值,还有输入特征和输出情感之间的权值,且输入特征和输出情感之间的权值有随机性。故如何更好表示关联认知网络输入特征与输出情感之间的权值是下一步的研究重点。此外,使用脑电特征辅助语音情感特征进行情感识别也可作为一个研究方向。

猜你喜欢

识别率权值关联
一种融合时间权值和用户行为序列的电影推荐模型
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
基于5G MR实现Massive MIMO权值智能寻优的技术方案研究
“一带一路”递进,关联民生更紧
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
奇趣搭配
档案数字化过程中OCR技术的应用分析