APP下载

基于Praat软件的电子伪装语音识别研究

2021-07-08胡晓光刘天宇杨昊易蔡能斌

关键词:原声基频变声

胡晓光, 刘天宇, 杨昊易, 蔡能斌

(1.中国人民公安大学侦查学院, 北京 100038; 2.上海市现场物证重点实验室, 上海 200083)

0 引言

声纹识别作为一项生物识别技术,是利用计算机等信息识别技术将话语人的语音信号转化为电信号,对话语人身份进行识别的技术,公安机关通过声纹识别能够为侦破案件寻找线索,查明真相。

随着计算机技术的发展,语音伪装对案件的侦破带来了极大的阻挠。科技进步带动了电子伪装语音技术的不断发展,各类变音软件相继出现在人们的生活中,不法分子利用语音伪装实施非接触式的犯罪已经成为当前公安工作的一大难题。近年来,电信诈骗、敲诈勒索等案件数量不断增加,而电子伪装语音对案件侦破具有扰乱和误导的不利影响,因此公安机关越来越重视对电子伪装语音的研究。一般来讲,声纹识别运用到的声学特征主要有共振峰频率、基频和音强,而当前市面上存在的几种常见的变音软件的原理主要是通过改变这些物理性质来对原声进行伪装。常见的变音软件种类繁多,变声效果也大不相同,但其伪装语音的原理存在一定的相似性。当前对电子伪装语音的研究现状主要总结了其3种变音方法,即可以分为参数、非参数和混合方法[1],但缺乏更加细致的研究和证明。本文基于当前电子伪装语音的发展现状,对4款市面上较为常见的变音软件进行实验研究和数据分析,对变音规律进行深入探索,并设计逆实验来印证结果,找出几款变音软件原理的相似点和不同点,为侦破工作提供新思路。

1 利用praat软件分析电子伪装语音的可行性

1.1 语音分析软件的选用

语音分析软件Praat是一款基本的多功能语音分析软件,该软件能够采集基本的语音信号,经过变换和处理,根据用户的需要形成相应的分析结果。Praat软件具有功能强大、操作简便、测量准确和通用的优点,本研究选用该软件对音频各数据进行采集分析,利用其分析所选音段的共振峰频率、音调和音强的数值,依据测定的数值大小和变化趋向进行分析探究。

1.2 电子伪装语音发展现状

目前市面上常见的变声软件的变声方法可以分为参数、非参数和混合方法。参数方法和混合方法是提取特征参数按照某一函数进行转换,其不同之处在于参数方法是对所有参数都进行提取转换,而混合方法则是提取部分参数,对其他参数进行整体控制。非参数方法是根据统计意义上的数据进行变化,其方法多种多样。

电子伪装语音是通过电子变声技术对说话人的语音特征进行转换,使其声音得到个性化伪装。电子伪装语音器材可以对说话人的自然语音进行个性化伪装。致使一般的听话人无法辨识发音人的身份、年龄甚至性别,也严重影响了一般声纹特征识别技术产品的语音检验鉴定效果,给司法鉴定工作带来很大的困难[2]。目前国内对电子伪装语音研究的方向主要是对变音器材和变音软件的研究,而缺乏对变音过程的研究和证明,故电子伪装语音的研究将对于一线的侦查办案提供新的思路。

1.3 语音的听觉特征

语音的听觉特征是个人发音器官特性、发音习惯特性和讲话习惯特性表现在口语中的各种征象[3]。听觉特征主要表现在3个方面:嗓音音质、口头言语和口语缺陷。我们在进行细致的语音同一认定工作之前,要先在语音的听觉特征方面对不同软件变音前后的变声语音进行审听,其主要包括分析变音前后的音色特征、变音前后的韵律特征、话语人的用语习惯以及其他例如口音和方言方面的特征。

1.4 语音的频谱特征

个体发音器官的特性和发音的习惯特性在声纹图谱中表现出的各种用来描述语音性质的参量称为语音的频谱特征,表现为频谱的描述语音性质的参量很多,但并不都能作为语音频谱特征来使用。能够作为频谱特征使用的语音参量,同样要具有个体而言的稳定性和对群体而言的差异性这两个方面的性质。这里将对几个声学特征参数作详细介绍。

1.4.1 共振峰频率特征

共振峰是指在语音图谱中能量相对集中的一些区域,而共振峰频率指的是共振峰在带宽频谱图上的位置,将共振峰的宽度化简成取其中心线来作为共振峰的频率,利用praat可以计算出共振峰频率F1、F2、F3和F4的精确值。共振峰频率特征的稳定性和差异性均较强,既可作为认定同一的指标,也可作为否定同一的指标。低频区的共振峰,特别是F1和F2,不同人之间虽然存在差别,但对应相同的概率也很高;而第三以上共振峰的频率,不同人之间对应相同的概率小得多,并且峰次越高,这种概率越低。故我们在进行语音同一认定或非同一认定时,共振峰频率都是重要的指向性参考指标。

1.4.2 时长比例特征

如果将一段语流看成是一段音素序列,就会发现不同人讲的同一段音素序列,各对应音素的时长一般是不同的。但我们难以将语流中的所有对应音素的时长一一进行比对,并且同一人讲相同的一段话,其各对应音素的时长未必相等。这里只讨论稳定性相对较强的音节中声母韵母时长比例、鼻韵母中主要元音与鼻韵尾时长比例、音节间时长比例等3个方面的特征。

1.4.3 基频特征

基频是语音重要的声学参数之一。能够引起基频变化的属于话者个体的因素有:性别、年龄、健康状态等生理因素;情绪、心态等心理因素;谈话环境、人际关系等广义语境因素[4]。基频是最容易被外部因素所影响的因素之一,基频的改变往往也会引起共振峰频率的改变,从而在听觉效果上发生差异。在一线的侦查工作中,嫌疑人往往可以通过刻意伪装甚至压低嗓音等手段使得检材提取人员无法得到其正常语调的基频数值。因此,在制作音频检材时,应充分考虑各方面的因素,如录音器材是否有失真、现场环境是否嘈杂等。在获取嫌疑人语音样本时,并采取自由交谈录音和听说两种形式采样。使用听说录音形式,需有意使对方说与样本相同的语句。采取自由交谈录音形式时,需确保对方不知情,以确保对象发音自然[5]。

1.5 分析电子伪装语音对公安工作的意义

随着科学技术的快速发展,信息化时代到来,传统的侦查手段不足以适用于新型的犯罪,新时代的公安工作要通过创新来适应新形势。电子伪装语音作为新兴的技术常被犯罪分子用于身份的伪装,其手段具有隐蔽化、专业化的特征,给侦查工作带来极大的困难,这种新型的犯罪手段不容忽视,我们需要研究更新的技术手段,具备更新的知识储备才能更好地侦破案件。分析电子伪装语音能够为侦破此类案件寻找一种新思路,为新时代公安工作提供智能化的技术指引。

2 实验过程

2.1 实验所用的软硬件环境

语音分析软件Praat V6.0.5.3、变声器免费版、安卓变声器、Morphvox Pro中文版、专业变声器语音聊天变声软件、“耳鼠变声器”专业变声软件、华为P30手机两部(音频采样率48 kHz)、华为P20(音频采样率48khz)手机一部、Adobe Audition CC 2019、风云音频处理大师1.0.60.126。

2.2 实验方法及步骤

2.2.1 选择软件

在手机以及电脑的应用商店中找到下载量以及知名度靠前的4款软件,用于本次实验。

2.2.2 语音录制

参与录制的志愿者在室内安静的环境,运用手机和电脑的录音功能,戴手机原装线控耳机,麦克风距嘴部约10 cm,以正常语速和语调朗读录音材料,对录音材料进行录制。之后再打开变声软件进行同样的录制,保存对应的音频文件。

2.2.3 格式处理及分析

之后将所录制样本导入PC端,运用软件将音频格式统一为WAV格式。运用praat软件对WAV格式的音频文件进行分析,得到录音的语图。测出所选取语句“变声”前后的共振峰、基频、音强等参数,数据制表。分析比较不同软件变声规律及差异,并进行归纳总结。

2.3 实验1

使用praat对“变声”前后的WAV格式音频文件进行声学参数(基频、共振峰、音强)的测定,并记录数值。

在分别对甲、乙、丙3名实验对象的样本进行测量后,发现同一个人经A、B、C、D 4款软件变化后的声音听觉效果不同。以对象甲为例,见图1。

根据图1,可以发现声音改变前后,语图的波形有了较明显的变化,语图的差异直接反映在听觉的不同,说话人达到了对声音实现伪装的目的。

图1 原声及变声的对比

利用praat软件测量录音音频“变声”前后的声学参数(包含基频、音强、4组共振峰频率),发现4款变声软件录制出的电子伪装语音的声学参数在数值和变化上均有较大不同。同一人在不同变声软件下的参数变化见图2、图3、图4。

图2 4款变声软件变男声后共振峰数值对比柱形图

图3 4款变声软件变女声后共振峰数值对比柱形图

图4 4款变声软件变声后基频数值对比柱形图

根据同一人在4款不同的变声软件下4组共振峰(F1~F4)同原声的共振峰对比柱形图可以看出,在经过不同软件处理后,同一语句对应的共振峰频率同原声相比有较大不同。反映在听觉效果上,原声同变化后的声音有了较大变化。因此,共振峰频率可作为一个关键的评判两组声音是否为同一人的参考要素。

根据柱形图可得,同一人的声音在不同的变声软件处理后,基频数值有所差异。不同软件处理,基频的变化比例也不尽相同。当由原声变为女声时,基频升高;反之,基频降低。

根据表1可知,音强这一声学参数在变化前后差异量较小,在误差允许范围内,可认为基本无变化。音强这一参数在听觉效果上的反映为声音的大小以及宏亮程度,故下文在对变声恢复过程将不对其重点讨论。

表1 4款软件变声前后音强的数值对比

注:表中数据单位均为dB。

对上述声学参数进行测定与分析后,可以发现前后声音的改变对应基频与共振峰频率数值的改变。因此,探究电子伪装语音的规律,可着重从基频与共振峰频率两个参数的变化规律入手。

2.4 实验2

经实验1探究发现,基频与共振峰频率数值的变化,会体现在说话人声音的改变上。为探究二者究竟谁为主导,运用假说演绎法。假设基频对于声音改变的效果为主导因素,共振峰频率改变声音的效果次之。改变基频至原来的数值,若恢复出的声音在听觉与声学参数上均契合,则可验证假说的合理性;反之,则否定。说话人甲的基频数值表见表2。

表2 4款软件基频数值及比例

注:表中基频单位为Hz。

之后在Adobe Audition CC 2019音频编辑软件中,利用“音高换挡器”对变声进行相对应的升高或降低相应的比例,得到初步的“逆变声”语音。之后对声音进行微调,得到较为纯粹的恢复声。之后将“恢复声”同原声进行听觉上的比对和声学参数的比对。

得到恢复语音后,分别邀请其他5名不知情的人员审听原声与恢复声,基本得到了较好的反馈,无失真现象,原声与“恢复声”的比较得到初步的契合。由于在真正的语音同一认定的实验过程中,仅仅靠听觉效果的相似是不够的,往往还需要进行频谱比对。以说话人甲为例,见图5(a)(b)与声学参数的对比分析。

图5 说话人甲原声与“恢复声”的对比

经过对听觉效果和语图的分析,可以发现恢复出的声音同原声相比虽仍有差异,但大致能做到相似,可以大致判断出二者是否为同一人。在司法实践中,做语音同一认定时仍需要声学参数的比对与测定,见图6、图7。

图6 4款软件原声与“男恢复声”的共振峰频率对比图

图7 4款软件原声与“女恢复声”的共振峰频率对比图

经过原声与“恢复声”的比对,可以发现A、B、D 3款软件恢复后,共振峰频率同原声相比有较好的契合程度,在误差允许范围内,有较高的特征符合率,故可以用作语音同一认定的鉴定。 C软件契合程度一般,不适宜直接用作同一认定的鉴定。

假说演绎实验的结果表明,目前市面上的变声软件按照变声的基本方法来看可以分为两种:一种是以基频为主导通过调节基频便可以改变与恢复声音;另一种则是拥有更为复杂的算法,单单调节基频无法得到“恢复”语音。我们可以根据不同软件的“变声”原理,找到可以处理电子伪装语音的通解,推广应用到一线公安工作,为一线侦查工作处理类似案件提供新思路新战法。

3 实验分析与讨论

3.1 变声规律的探究

(1)综合以上对变声、恢复语音的审听效果及其声学特征变化数据统计可知,4款变声软件的变声都使声音的音色、音调发生了变化,在听觉上与原声在性别、年龄上有较大的差异。不同软件提高或降低说话人音调的比例并不完全一致。声学特征上,基频、共振峰相应地提高或降低,音长不变,音强基本不变。各音节音强降低的比率有微小差异。

(2)本次实验的4款软件中,有3款软件其变声规律是通过改变基频同时引起共振峰频率改变来变声,通过“Adobe Audition CC 2019”软件对音调提高或降低相应的比例,可以得到与原声契合较好的“恢复语音”,测出的“恢复声”的声学参数也与原声较为接近,绝大多数声学参数可用做语音同一认定。

3.2 变声恢复方法的讨论

(1)目前市面上的变声软件多含有自定义选项,同一个方向的变声方向(如女声转男声)也有很多选项,选用不同的变声选项基频变化的比率也会不同。虽然没有固定的变化频率,但是在侦查工作中,可先对嫌疑人进行原声样本的录制,调节至相应的变声检材样本的基频参数。若二者在听觉上相近,则可初步缩小范围。

(2)本文提出一种基于基频来恢复电子伪装语音的方法,利用Adobe Audition等音频编辑软件对变声提高或降低相应的比例,再对声音进行一些修补,一般情况下可以得到与原声契合程度较好的恢复声。实验中的4款软件有3款变声软件的电子伪装语音可以实现较好的复原,而本次实验所选用的软件是目前下载量和应用量均较为广泛的几款软件,说明此法可以对市面上绝大部分的变声软件形成的电子伪装语音进行处理与还原,具有很好的实践意义。同时,加之操作的便捷性,将此法应用到一线公安工作中,具有极大的可行性。

4 结论

本文对几款主流的变声软件的伪装语音进行比对与分析,探究了目前市面上常见的变声软件的变声规律,同时提出了一种还原伪装语音的方法,利用音频编辑软件对基频进行相应比例的调整。实验证明,此法对于所选取的4款软件中的3款具有较好的恢复效果,尤其是在伪装语音与原声在听觉效果上相差较大时依然可以得到较好的恢复效果,说明此法适用于市面上较多数的变声软件,这也为公安实战中基于伪装语音案件的解决提供了一种新的思路。

猜你喜欢

原声基频变声
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
变声器的魔咒
多舱段航天器振动基频分配速算方法
木星地
LadyGaga新片热映,原声带大卖
蒙古长调《富饶辽阔的阿拉善》声学特征分析
蒙古长调《富饶辽阔的阿拉善》声学特征分析
QQ聊天 跟声音玩“捉迷藏”
原声片对擂译制片