基于卷积神经网络的语音情感识别研究

2018-06-05尹文昊

科技创新与应用 2018年13期

尹文昊

摘要：语音识别对于人机交互而言一直以来都是非常重要的。而仅仅识别语音的内容，忽略它的情感是不完整的识别。因此，对语音情感的研究十分有必要。卷积神经网络在图像分类和语音识别等领域中取得了一系列的突破，十分具有分析和研究价值。将语音信号转换成三维语谱图的形式，送入到卷积神经网络进行分类识别是最基本的方式。文章做了以下工作：（1）研究了对语谱图进行不同的预处理，然后再送入网络模型中进行比较。（2）对卷积神经网络进行改进，对比改进后的网络与原始的网络，得出改进后的网络在识别率上具备更好的效果。

关键词：语音情感；卷积神经网络；语谱图；改进

中图分类号：TN912.34 文獻标志码：A 文章编号：2095-2945（2018）13-0040-02

Abstract： Speech recognition is always essential for human-computer interaction. It is incomplete to recognize the content of speech only but ignore its emotion. Therefore， it is necessary to study speech emotion. Convolution neural network （CNN） has made a series of breakthroughs in the field of image classification and speech recognition， which is of great value for analysis and research. It is the most basic way to convert the speech signal into the form of three-dimensional spectrum and send it to the convolution neural network for classification and recognition. In this paper， we do the following work： 1） We study the different preprocessing of the linguistic spectrum， and then send it into the network model for comparison. 2） We improve the convolutional neural network， compare the improved network with the original network， and conclude that the improved network has better effect in recognition rate.

Keywords： speech emotion； convolutional neural network （CNN）； linguistic spectrogram； improvement

当今时代智能科技飞速发展，科学家们致力投身于一个伟大的行业，不断探索、不断进步，创造了一项又一项的世界纪录。情感计算这一概念首先被美国Picard教授提出，在她的论文中，情感计算被定义为：与情感相关，来源于情感，或者能够对情感施加影响的计算[1]。中科院胡包钢教授对情感计算有重新的定义：通过技术手段，赋予计算机诸如人类识别、理解、表达情感这样的能力，从而可以实现更加和谐的人际交互，实现更加高级的智能[2]。20世纪80年代中期，Bezooijen和Tolkmitt对语音情感的基本特性以及模式进行了研究，开启了运用声学特征对情感识别的时代。1999年，Moriyama建立了语音和情感的联系模型，并在电子商务领域中得到了应用[3]。到了21世纪，语音情感识别的研究开始逐步加快。美国教授Picard证明了声学特征参数与情感间的联系[4]；德国Schuller团队提出了情感识别框架的诸多构想[5]；Narayanan科研小组探索了语音中与情感相关的声学特征参数，研究了情感的合成以及结合语义信息的情感识别[6]；日本Nicholson选用神经网络技术对情感进行识别[7]。21世纪初，国内东南大学赵力教授率先提出了语音中情感信息的研究[8]，随后，许多科研机构也开始了相关研究。

1 语音信号的预处理

研究卷积神经网络的输入后，了解到网络的输入是二维矩阵，那么对于复杂的语音信号，该如何转换成研究所需要的二维矩阵。这个时候就要应用语谱图了，语谱图是一种三维频谱，它将和时序相关的傅立叶分析显示到图形上。语谱图的规范化将是CNN语音情感识别研究的第一步，也是至关重要的一步。为了适应于卷积神经网络的要求，介绍下面四种语谱图预处理算法。（1）时间维度降采样：取所有样本中最小的采样频率cmin，以cmin/c为重采样率，获得处理后的样本集合。（2）时间维度中采样：取所有样本的采样频率求平均值得到cmean，以cmean/c为重采样率，可以获得处理后的样本集合。（3）对样本时间维度进行切割，以c为目标时间维度，可以获得处理后的样本集合。（4）时间维度PCA降维，利用PCA降维的方法对时间维度进行处理，获得处理后的样本集合。

2 改进的卷积神经网络设计

2.1 多卷积核CNN

传统的卷积神经网络在卷积核尺度上是固定的，而语谱图上所包含的信息是多尺度的，为了能提取到更具备情感敏感度的特征，采取两种尺度的卷积核进行研究。双卷积核CNN的网络结构为：输入-双卷积-分别池化-分类。

2.2 显著性特征CNN

传统的卷积神经网络在池化层后将一维变量直接送入到Softmax分类器中，并没有对一维向量做任何的处理。分析这些一维向量可以得到，这些并不全是与情感特征相关的向量，所以提出对这些一维向量进行二次特征提取，得到与语音情感更加密切相关的向量。显著性特征提取CNN将情感相关特征与其他特征解耦，实现了特征集合降维的同时，提取了与目标标签更为相关的特征。

2.3 瓶颈特征提取CNN

与显著性特征CNN类似，瓶颈特征提取CNN同样在处理一维向量的方法进行了改进。利用瓶颈特征模型去提取更加相关的情感特征。瓶颈特征最早由Greal提出，指的是在多层感知器（MLP）中，处于中间隐含层神经元个数相对于其它层比较少，这样看起来像一个瓶颈，该模型将在该层学习到一个训练向量的低维表述。采用瓶颈特征模型能够挖掘与语音情感更为相关的特征，然后送入到SVM中进行分类，这样可以提升语音情感识别率。

3 实验与分析

3.1 语谱图预处理对比实验

在分析了语谱图对于卷积神经网络的重要性后，了解到对语谱图进行预处理是有必要的，实验采用四种方式分别对语谱图进行预处理，处理后的语谱图可以直接与CNN对接，方便进行卷积和池化的操作。实验结果为分段预处理的平均识别率为61%，最小值预处理的平均识别率为53%，中值预处理的平均识别率为53%，PCA预处理的平均识别率为52%。

3.2 改进的卷积神经网络对比实验

上章介绍了几种改进的卷积神经网络，分别是多卷积核CNN、显著性特征CNN和瓶颈特征提取CNN。本节将设计四组实验进行比较，语谱图预处理方式采取上节中效果较好的分段预处理，下面是实验设计步骤：（1）传统的卷积神经网络CNN：网络结构为输入、卷积、池化、全连接和分类。卷积层采用大小为3x3的卷积核，池化层采用2x2的均值池化。（2）多卷积核CNN：采用双卷积核的形式进行研究，其卷积核大小分别为3x3和7x7。池化层均采用2x2的均值池化。（3）显著性特征提取CNN：在多卷积核CNN的基础上，在池化层产生一维向量后，利用SDA模型网络进行二次提取，提取后送入SVM中进行识别分类。（4）瓶颈特征CNN：与显著性特征提取CNN类似，同样在池化层后利用瓶颈特征模型去提取情感特征，提取后送入SVM中进行识别分类。实验结果为传统CNN的识别率为61%，多卷积核CNN的识别率为75%，瓶颈特征CNN的识别率为79%，显著性特征CNN的识别率为81%。

3.3 实验结果分析

在上一节的语谱图预处理方式的实验中，发现其中的分段预处理的方式识别效果是最好的，由分段预处理的步骤可知，它采用的是分段的手段将语谱图分割成不同的片段，这不仅充分利用了语谱图上的大量信息，而且增加了训练样本的总数量，所以相比于其他三种预处理方式来说，识别率是最好的。在改进的卷积神经网络对比实验中，多卷积核CNN在卷积核尺度方面做出了改变，利用到语谱图多维度的特点，采用多卷积核进行卷积提取，实验结果证明确实在识别效果上优于基本CNN。显著性特征CNN是在多卷积核CNN的基礎上进行改进的，所以只需与多卷积核CNN进行比较，而在识别率上显著性CNN相比于多卷积核CNN是有较大提高的。瓶颈特征CNN在语音情感识别率上的确优于基本CNN。

参考文献：

[1]Picard，R.W.Affective Computing[M].Cambridge：MIT Press，1997.

[2]胡包钢，谭铁牛，王珏.情感计算-计算机科技发展的新课题[N].科学时报，2000.3.24.

[3]Van Bezooijen R， Otto SA， Heenan TA. Recognition of vocal expressions of emotion： A three-nation study to identify universal characteristics[J].Journal of Cross-Cultural Psychology，1983，14

（4）：387-406.

[4]Moriyama T， Ozawa S. Emotion recognition and synthesis system on speech[C].Multimedia Computing and Systems，1999.IEEE International Conference on. IEEE，1999，1：840-844.

[5]Picard，R.W. Toward computers that recognize and respond to user emotion[J].IBM Technical Journal，2000，38（2）：705-719.

[6]Schuller B， Batliner A， Steidl S， et al. Emotion recognition from speech： putting ASR in the loop[C].Acoustics， Speech and

Signal Processing， 2009. ICASSP 2009. IEEE International Conference on. IEEE，2009.

[7]Tato， R.S.， R. Kompe， and J.M. Pardo. Emotional space improves emotion recognition[C].In Proc.International Conference on Spoken Language Processing， Denver， Colorado， USA， 2002：2029-2032.

[8]Nicholson J，Takahashi K，Nakatsu R. Emotion Recognition in Speech using Neural[Z].