基于特定人的语音情感识别系统构建

2015-02-17罗宪华徐海明

中国人民公安大学学报（自然科学版） 2015年4期

关键词：支持向量机

罗宪华,　徐海明

(1.中国人民公安大学教务处, 北京　100038; 2.中国人民公安大学警务信息工程学院, 北京　100038)

基于特定人的语音情感识别系统构建

罗宪华1,徐海明2

(1.中国人民公安大学教务处, 北京100038; 2.中国人民公安大学警务信息工程学院, 北京100038)

摘要经公安部门统计，重复性犯罪的人数呈上升趋势。有些犯罪嫌疑人在接受民警审讯时表现得相对冷静，这就使民警单凭感觉不能准确了解其心理、情感状态。研究表明，人类语音中包含的情感特征是客观的，可以真实地反映出紧张、焦虑等负面情感。因此，构建了一个基于特定犯罪嫌疑人的语音情感识别系统,先录制若干特定犯罪嫌疑人的口供语音，通过人工听取、标记，组成一个情感语音数据库,然后为这些嫌疑人训练语音情感模型,最后在嫌疑人接受审讯时，识别他们的情感。实验结果表明，该系统具备较高的识别性能和广泛的应用前景，对案件的侦破起到较好的辅助作用。

关键词语音情感识别；支持向量机；情感语音数据库；审讯

0引言

当今，人工智能技术飞速发展。诸如视频图像处理、音频处理等技术都已经广泛应用在日常的生活和工作之中。在警务工作中，音频识别技术已经成为侦破案件不可或缺的手段之一。然而“情感”这种只能通过人类感觉器官才能感受到的事物却很难被计算机所处理，能够“感知”人类情感的软件系统也很难得到公众的广泛关注。在侦查案件的过程中，有些惯犯在接受民警审讯时表现得相对冷静，使民警很难把握其心理、情感状态。如果能够掌握这些惯犯的情感特点，利用语音情感识别技术，建立一个有犯罪前科人员的语音情感模型库，会对案件的侦破工作有所帮助。因此，越来越多的学者把眼光投向了语音情感识别。调研发现，人类语音信号中能够对情感分类起到作用的特征已经多达200余种[1]。2011年， Eyben等人开发了一个针对语音情感特征提取的工具包[2]，为广大研究者提供了便捷的工具；同年，Sanchez等人采用特征融合技术对负面情绪进行识别，取得了不错的识别效果[3]。这些研究为语音情感识别提供了技术支持，并具备了一定的应用前景[4-5]。

本文主要是将语音情感识别的成果应用在公安行业，建立了一个基于特定犯罪嫌疑人的语音情感识别演示系统。选择特定人进行研究的原因主要是考虑到一般案件中犯罪人员都是以个体形式出现，就好像公安部建立的DNA数据库一样，因此针对犯罪人员个体建立语音情感模型符合实际情况。该语音情感识别系统建立的具体步骤如下：

由于公安工作的特殊性，拿到第一手犯罪嫌疑人语音资料相当困难，因此选择在公安院校内部，挑选一些语言表演能力较好的学生模拟犯罪嫌疑人，录制情感语音数据库；

对每一位“犯罪嫌疑人”的情感语音进行训练，建立对应的情感模型，最终形成一个语音情感模型数据库；

对某一位特定的“嫌疑人”，选取其对应的情感模型，进行情感判断。

为了与特定嫌疑人的语音情感识别结果进行对比，训练了一个通用的情感模型，任何人都可以使用该模型进行非特定人的语音情感识别。

1语音情感识别系统的建立

1.1　情感语音数据库的准备

首先，根据案件处理的一般特点，编写了几种不同类型的犯罪嫌疑人(包括杀人、盗窃、交通肇事、经济犯罪、贩毒)接受审讯时的5类情景剧本，并进行演示。剧本中包含了嫌疑人最容易出现的5种情感类型：生气、紧张、悲伤、害怕、中性。其中杀人刑事案件、经济案件、贩毒案件剧本中包含紧张、中性、害怕3种情感；盗窃案件中包含紧张、中性、害怕、悲伤、生气5种情感；交通肇事案件中包含紧张、害怕、悲伤、中性4种情感。为了保证数据库的质量，每类剧本录制两遍。角色扮演人员的表演水平直接决定了数据库的质量，因此，从公安院校挑选了相关专业语言表达能力较强的10位学生，共5男5女，给予他们一定的时间和空间酝酿情感，模拟上述5类剧本中犯罪嫌疑人接受审讯时的心理和情感状态，进而表演上述剧本中的情景对话，录制他们的情感语音。接着，对录制的400句情感语音进行人工听取，5人中只要有3人认为该语音的情感表述不明确就删除该段语音。最后，为保留下来的语音进行了情感标注，形成了包含5类情感的374句情感语音数据库。另外，为了训练一个针对非特定人的语音情感模型，就需要一个相对较大的情感语音数据库，我们使用了清华大学语音与语言国家重点实验室录制的EMR_DB数据库[7]，该数据库由4男4女录制，其中包括5种情感类型，共1309个样本。为检测系统的实用性，就需要使用真实案件的音频来对系统进行测试。我们用一段民事纠纷案件的现场音频数据来检测系统的识别性能。该案件的音频文件经过人工听取、标注，共计242个样本，包含生气、中性、紧张3种情感。

1.2　语音情感模型的训练

按照模式识别的一般方法，首先要做的工作就是特征提取。针对语音情感识别领域，能够被使用的特征主要包括全局统计特征[6]和局部频谱特征[7]。由于训练数据有限，经过调研发现，将基于高斯混合模型(GMM)超向量的支持向量机(SVM)应用到语音情感识别系统中具有较好的识别效果[8]。下面介绍这种基于GMM-SVM情感模型的训练步骤。首先，对训练数据进行预处理，去除音频首、尾的静音帧；然后，对经过预处理之后的音频数据提取Mel-频率倒谱系数(MFCC)特征；为了弥补单独一句情感语音中训练数据的不足，我们使用EMR_DB数据库中的中性情感训练一个通用背景模型(UBM)进行自适应，得到GMM模型，进而产生GMM超向量；最后，将GMM超向量输入SVM进行训练，得到语音情感模型。整个训练过程如图1所示：

图1　语音情感模型的训练过程

经过上述训练过程，我们就得到了一个针对某一特定人的语音情感模型，将所有训练得到的模型组成数据库，就可以用于对这类特定人群的情感语音进行情感的分析判别。

1.3　语音情感识别过程

当训练过程结束以后，就可以用产生的情感模型进行情感识别。针对特定人，我们要选择与其对应的情感模型，如果数据库中没有使用者的语音情感模型，需要识别数据库以外人员的情感时，我们也训练了一个通用的模型供其使用，但识别效果并不理想。识别的过程主要分为以下几步：首先，录制好特定说话人的情感语音，使用静音检测算法VAD[9](Voice Activity Detection)去除了该段音频首、尾的静音帧；然后，对预处理过的音频测试数据提取MFCC特征；接着，利用训练过程产生的UBM通过自适应算法产生GMM模型；最后，将GMM中的均值向量(矩阵的每一行数据)首位相连组成GMM超向量，使用该超向量和训练过程产生的情感模型作为SVM的输入数据进行识别，得到识别结果。系统的识别过程如图2所示：

图2　演示系统的识别过程

通过以上步骤，我们就可以完成模式识别最为关键的两步：训练过程和识别过程。

1.4　语音情感识别系统架构简介

本系统主要由训练模块和识别模块组成，其他模块作为辅助性模块为两大模块处理、输送数据。训练模块的作用是训练针对特定人的语音情感模型。它包含了预处理模块(VAD静音检测模块)、特征提取模块、GMM训练模块、自适应模块、超向量产生模块，其中特征提取、GMM训练、自适应三个过程调用了HTK(Hidden Markov Model Toolkit)工具包，HTK是目前一款成熟的用于语音识别的工具包。识别模块的作用是从该特定人的语音信号中分析出其中的情感信息。它调用了预处理模块、特征提取模块、自适应模块、超向量产生模块、SVM识别模块。音频模块是对录制的音频进行装载、播放、保存和音量控制。标注模块是对录制好的语音文件进行情感标注。整个识别过程分为四个步骤：首先，录制特定说话人各种情感的语音；然后，为录制好的音频进行人工标注，以.wav(采样率为16K，非压缩)的格式保存在指定目录中；接着，利用上述步骤产生的样本进行训练，得到该特定人的情感模型；最后，利用该说话人的情感模型，通过识别模块对他的情感语音进行识别，确定语音中包含的情感类型。系统的整个架构如图3所示：

2实验设置和实验结果

为客观评价特定人语音情感识别的性能，我们选用在公安院校录制的情感语音数据库进行了测试，分别测试针对10位“嫌疑人”情感的识别效果，计算每种情感经系统识别后的平均识别率，如表1所示。另外，我们选用从本市某区某派出所得到的民警处理小区遛狗惊吓老人的民事纠纷案件的第一手音频资料，用我们的系统进行测试，观测对于真实案件该系统是否高效。我们将得到的音频进行处理，人工听取、标注。该数据库包含生气(154个样本)、中性(41个样本)、紧张(47个样本)3种情感，共计242个样本，识别结果如表2所示。

图3　演示系统的整体框架

表1　特定嫌疑人每种情感的识别率

表2　针对真实的民事纠纷案件测试结果

由表1的结果，我们可以分析出在刑事案件中，一些重复性犯罪的嫌疑人虽然想尽力保持相对平静的心理状态(平均中性情感语音的识别率达到44.45%)，但紧张的识别率高达71.88%，足以看出嫌疑人心中的紧张情绪，另外男性在此类案件中比女性表现相对冷静，心理防线相对坚固；在交通肇事案件中，由于案件的突发性，大多数嫌疑人都没有心理准备，所以表现出的情感状况最为真实，其中男性75%的紧张识别率和女性高达81.25%的害怕以及悲伤情感真实地反映了此类案件的性质；在经济案件和贩毒案件中，嫌疑人(尤其是女性)表现出惊人的平静(中性情感识别率高达87.5%和75%)，说明此类案件的嫌疑人心理准备比较充分，其中贩毒案件负性情感的平均识别率低于20%，说明系统对此类案件的辅助作用极其有限；治安案件最为复杂，一般嫌疑人包含的情感种类会很多，但此类案件多为民事纠纷，情感表现也相对真实，其中紧张和生气的平均识别率达到68.75%和31.25%。

综上所述，我们建立的针对特定犯罪嫌疑人语音情感识别系统的性能还是比较符合各类案件的一般特征，可以对侦破案件起到一定的辅助作用。我们用一起真实的案件音频对系统进行的测试，表2显示的是一起居民区内遛狗惊吓老人的民事纠纷，在调解过程中争吵等负面情感较多，系统的识别结果也说明了这一点，由此可见利用该系统进行特定人的语音情感判断是行之有效的。

3系统界面的简要介绍

为了满足对犯罪嫌疑人的语音情感判断的需要，在windows平台上开发了针对特定犯罪者的语音情感识别系统。该系统包含录音、播放、标注、训练、识别等多个模块。首先通过音频模块录制一个特定人的情感语音，然后通过标注模块标记该语音的情感信息，接着通过训练模块产生该特定人的语音情感模型，最后通过识别模块就可以利用先前产生的模型来识别说话人的情感状态。为了保持系统的完整性，我们利用大量的情感语音数据训练了一个通用模型，即任何说话人都可利用的情感模型，进行非特定人语音情感识别。系统的训练部分和识别及语音控制部分分别如图4和图5所示。软件中还有很多其他功能，此处不再赘述。

图4　系统训练部分

图5　情感识别的结果显示及音频控制界面

4结语

本文根据案件处理的一般特点，对比公安部目前建立的DNA数据库，提出了建立犯罪前科人员的语音情感数据库的设想，并进行了实验。重点介绍了一个针对特定嫌疑人语音情感识别的系统构建过程。从语音情感数据库的建立到确定使用基于GMM-SVM的训练模型，再到实验效果的分析，最终把系统建立起来。但其中还是存在一些问题：首先，我们录制的情感语音数据库规模较小，还不能反映一种普遍的状况；其次，通过表演表现出来的情感语音和真实状态下人产生的真实情感存在一定的差异，可能造成一定的误差；再次，基于GMM-SVM的情感模型的识别效果还不能达到绝对的准确，目前只能起到辅助的作用。因此，今后的研究重点应该放在对更多、更真实的情感语音，系统识别性能的研究上。另外还要对模型的创建进行深入研究，争取得到识别性能更好、鲁棒性更强的语音情感模型。

参考文献

[1]周夕良.语音情感识别的发展与展望[J].信息技术,2013,12(11):19-22.

[2]SCHULLER B, VALSTAR M, EYBNEN F, et al. AVEC 2011—The first international audio/visual emotion challenge[Z]∥ACII 2011:proceeding of the 2011 Affective Computing and Intelligent Interaction.Memphis:Berlin,Heidelberg:Spring-Verlag,2011:415-424.

[3]SANCHEZ M, VERGYRI D, FERRER L, et al. Using prosodic and spectral features in detecting depression in elderly males[C]∥INTERSPEECH 2001：12th Annual Conference of the International Speech Communication, Florence, Italy. USA,2001:3001-3004.

[4]NAKAGAWA S, WANG L, OHTSUKA S. Speaker identification and verification by combining mfcc and phase information[J]. IEEE Trans. on Audion, Speech, and Language Processing, 2012, 20(4):1085-1095.

[5]古亮. 基于家庭服务机器人的语音情感识别系统的设计与实现[D].天津：天津师范大学, 2013.

[6]陈炜亮，孙晓. 基于MFCCG—PCA的语音情感识别[J].北京大学学报：自然科学版，2014, 50(12):1-6.

[7]扈浩. 汉语语音情感识别研究[D].北京:清华大学计算机学院,2007.

[8]赵专政. 基于深度置信网络的语音活性检测算法的改进[J].计算机应用，2014,34(S2):314-316.

(责任编辑于瑞华)

作者简介罗宪华(1984—)，男，北京人，实验师。研究方向为模式识别。

中图分类号D035.39