情感语音合成技术或对声纹鉴定准确性产生影响

2018-01-29白海莉

科技创新与应用 2018年36期

白海莉

摘要：声纹鉴定运用语言学、计算机科学等知识，对涉案语音和样本语音进行听觉辨识，同时运用频谱图进行综合分析，判断二者是否由同一音源发出，或者判断声音性质。声紋鉴定结果可以为侦查和诉讼活动提供线索或证据。深度学习可以促进情感语音合成技术的发展，而情感语音合成技术的发展水平越高，合成语音与人声的差异就越小，声纹鉴定的难度就越大。文章旨在研究深度学习以及情感语音合成技术发展的发展状况，以此分析其可能对声纹鉴定准确性产生影响的因素。

关键词：语音；声纹鉴定；深度学习；语音合成；情感语音合成

中图分类号：TN912.33 文献标志码：A 文章编号：2095-2945（2018）36-0024-02

Abstract： Voiceprint identification uses the knowledge of linguistics and computer science to identify the involved speech and the sample speech. At the same time， it uses the spectral analysis to determine whether the two are generated by the same sound source， or the nature of the voice. The results of voiceprint identification can provide clues or evidence for investigation and litigation activities. Deep learning can promote the development of emotional speech synthesis technology， and the higher the development level of emotional speech synthesis technology， the smaller the difference between synthetic speech and human voice， and the more difficult it is to identify voiceprint. The purpose of this paper is to study the development of deep learning and emotional speech synthesis technology， and to analyze the factors that may affect the accuracy of voiceprint identification.

Keywords： speech； voiceprint identification； deep learning； speech synthesis； emotional speech synthesis

1 声纹鉴定依据及科学性

语音属于声音，具有音高、音强、音色和音长基本特征，也可用频率、波长等物理参量表述。人类辨识语音目的：识别说话内容；判断说话人。声纹即语音频谱图，在法庭科学领域称为声纹。声纹鉴定依据的重要原理是语音同一认定，主要依据语音反映性、个人语音特征稳定性、个人语音特征总体差异性。人体发音器官构造差异和发音习惯形成过程中生理、心理差异决定语音特殊性；个人发音器官解剖结构相对固定和发音习惯的动力定型，决定了同一个人发出声音的声纹图谱本质上一致。但这项鉴定目前主要依赖鉴定人个人能力，这决定了鉴定不可避免地含有鉴定人主观因素。目前语音同一认定主要方法是语音学分析法。它是综合运用嗓音音质、口头言语和频谱等特征分析语音是否同一的鉴定方法。以特征音节频谱特征为主、听觉特征为辅的比对方法是语音鉴定最有效方法。

2 深度学习对语音领域的影响

深度学习是机器学习研究领域中一个分支，本质是训练深层结构模型的方法，可理解为人工神经网络的发展。深度学习已在语音识别领域大量使用，声纹识别技术应用需要解决特征提取和模式识别两个技术。深度结构能够处理人类语音、自然声音等，能够分析识别提取数据特征，进而泛化学习。用深度学习算法理解人类情感思维难度巨大，要实现此技术，首要的是建立破译人类感情的算法模型，然后建立能理解多维度情感的算法。对深度学习的研究和发展对于语音合成，特别是情感语音合成是非常好的契机。

3 语音合成技术与情感语音合成技术

3.1 语音合成技术

语音合成和语音识别是语音技术的两个分支。语音合成技术就是将文字信息转化对应的语的音片段并合成为标准流畅的语音朗读出来，语音合成研究的目的是制造会说话的机器。基于计算机和合成方法侧重点不同，主流的分类是将语音合成方法按照设计的主要思想分为规则驱动（rule-based）方法和数据驱动（data-based）方法。规则驱动方法有共振峰合成以及发音过程合成两种方法，而数据驱动方法有波形拼接合成，基于隐马尔可夫模型合成以及深度神经网络合成方法。发音过程模拟合成是直接模拟人的发音这一物理过程。

3.2 情感语音合成技术

当合成的语音自然度、灵活度等基本满足人们要求时，需考虑的是改变基频建模，使之能够调整基频来合成情感语音。赋予合成语音情感，让合成语音表现出个性生理、心理等特点，是语音合成领域一个难题。但已有学者提出建立多视角情感描述模型，描述认知、心理、生理等影响因素之间的关联性，并通过语音频谱特征表现出来。基于文本的情感分析属于情感语音合成系统语言模型的一部分。

据报道，加拿大一公司已经发布了人工智能（AI）语音系统，该系统比对分析文本和语音之间的关系并在很短的时间内模仿语音。该系统在录入时使用仿人脑思维模型，分析个体发音特点，并可以深度学习个体语音情感及认知，进而输出语音。尽管该系统合成语音和人的语音还有一定的差异，但是人工智能发展让减弱甚至背景噪音和机器发音特点成为可能，计算机精确模拟人类发音器官发出声音指日可待。

4 结束语

声纹鉴定所采用的技术决定了这种鉴定不可避免地含有鉴定人主观因素，对于一些介于本质差异与非本质差异的临界差异，不同人看法不同。而个性化发音、情感语音正是鉴定中的难点。深度学习可以促进情感语音合成技术的发展，而情感语音合成技术的发展水平越高，合成语音与人声差异就越小，声纹鉴定的难度就越大。对于从事鉴定工作的人员而言，关注科技发展可能对鉴定工作产生的影响对提升个人鉴定技能同样重要。

参考文献：

[1]徐立根.物证技术学（第四版）[M].北京：中国人民大学出版社，2011：267-284.

[2]王英利，李敬阳，曹洪林.声纹鉴定技术综述[J].警察技术，2012（4）：54-56.

[3]王英利.关于声纹鉴定技术的若干问题[A].第九届中国语音学学术会议论文集[C].2010.

[4]侯一民，周慧琼，王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究，2017（8）：2242-2246.

[5]郭丽丽，丁世飞.深度学习研究进展[J].计算机科学，2015（5）：28-33.

[6]张斌，全昌勤，任福继.语音合成方法和发展综述[J].小型微型计算机系统，2016（1）：186-192.

[7]井晓阳，罗飞，王亚棋.汉语语音合成技术综述[J].计算机科学，2012（11A）：386-390.

[8]高莹莹，朱维彬.面向情感语音合成的言语情感描述与预测[J].清华大学学报（自然科学版），2017（2）：202-207.

[9]韩超.语音合成技术的功能设计和实现[J].科技创新与生产力，2016（12）：84-87.

[10]张建明，詹智财，成科扬，等.深度学习的研究与发展[J].江苏大学学报（自然科学版），2015（2）：191-200.

[11]聂翠蓉.“倾听”1分钟，就能开口模仿人类“讲话”新款人工智能语音系统高效复制人声[N].科技日报，2017-5-4（001）.