APP下载

变声语音与正常语音声纹特征变化规律研究

2022-08-17彭菀王虹中国刑事警察学院

警察技术 2022年4期
关键词:变声音素基频

彭菀 王虹 中国刑事警察学院

引言

语音同一认定是指通过对不同的音频资料中特定说话人的语音进行鉴定,判断两者是否为同一人语音[1]。我国声纹鉴定技术于上世纪80年代末起步,中国刑事警察学院文检系和公安部物证鉴定中心分别引入美国KAY Sona Graph 7800型数字声谱仪和DSP 5500型数字语图仪,建立声纹鉴定实验室,进行声纹鉴定技术研究[2]。

随着高科技犯罪所占比率日益增大,犯罪分子逐渐意识到声音伪装的重要性。他们利用变声器改变声音,以达到逃避打击的目的。本文针对正常语音与变声语音声纹特征的变化规律展开研究,希望可以为其语音的同一认定提供帮助。

一、变声器原理简述

变声器所运用的语音变调技术主要可分为基于重采样的调整方法和基于模型法的语音变调算法。重采样方法从整体上处理语音信号,从时频映射的角度实现语音基频的转换,效果较好,但需要引入时长规整算法保证语音信号的变调不变速,因此算法复杂度较高[3]。基于模型法的变调算法把语音信号模拟成特定的语音模型,其合成自然度较低,但硬件实现较简单。经过变声器的声音,不仅听觉上发生了改变,其语音图谱和特征中量化的数据都发生了变化。所以,人类在熟悉说话人的情况下对说话人的语声进行识别表现的相当可靠,但是很难识别变声条件下的说话人语声[4]。目前常用的商业变声器的算法多为时域重采样算法[5]。

二、实验设计

(一)录音合作人

本实验从在校大学生中随机选取5男5女为发音对象,并对他们分别进行同语段录音。

(二)录音环境

实验场所为专业录音室,封闭性好,可有效隔绝外部噪音,消除回音。

(三)录音器材

录音所用麦克风为森海塞尔MK4,录音软件为Audacity,电脑型号为联想r9000p,手机型号为华为荣耀7X。

(四)录音样本

为充分观察分析变声语音与正常语音的各类声纹特征变化情况,我们采用如下录音样本:

(1)拼音:ā、ō、ē、ī、ū、ǖ……

(2)单字:啊、达、法、妈、那……

(3)词语:会员、基本、最后……

(4)长篇阅读:《北风与太阳》

(五)变声器的选择

从哔哩哔哩、知乎、百度等热门网络平台中,按浏览量、下载量及评论情况,选取“MorphVOX Pro变声器”作为电脑变声实验工具。

按应用市场下载排行,选出“专业变声器”作为手机变声实验工具。

二者变声原理均为时域重采样算法。

(六)变声处理

将发音人录音后的正常语音保存到装有变声软件的电脑和手机中。经过电信诈骗案件筛选出两种常用语音包,用男变女语音包对男性发音人的声音进行处理,使其变为女性声音;反之,使女性发音人声音变为男性声音。

(七)语音分析软件

本文使用的语音分析软件为Praat6.2.10。

三、实验结果与分析

(一)听觉检验

人的听觉的一个特点是它能感受到动态范围极宽的声音[6]。并且,人耳对声音具有较强的解析和分辨能力。因此,对变声语音做听觉检验具有必要性。

1.检验方法

本文根据变声器的基本原理,从听觉特征中选取14个特征制作听觉比对检验表。每个特征按正常语音与变声语音的符合程度划分为5个等级,将每个等级用分数表示。选取5位具有语音学基础的听音人对特征进行打分。

2.评价方式

依照表1,让5位听音人对听觉特征进行打分。对不同变声器中不同变声方式的所有特征得分,利用MOS(Mean Opinion Score)值进行打分评测。

3.检验结果

将5位听音人对每种听觉特征给出分数的平均值绘制成柱状统计图,如图1、图2所示。

据统计结果:两种变声语音与正常语音在变调、流畅度、儿化音、音节完整性和轻、重音这些听觉特征上有较高的一致性。电脑变声语音在嗓音纯度和平均音高上一致性较低,手机变声仅在平均音高上一致性较低。

(二)频谱分析

1.能量曲线形态特征

声音的能量反应了说话人声音的声强,即声波中振幅的大小。以《北风和太阳》中的“这下北风只好承认,他们俩当中还是太阳的本事大”作为研究对象,对10位发音人语音的能量曲线形态进行测绘,然后分别对每一个人变声前后语音的能量曲线形态进行比对,观察能量曲线的分布特征,图中黑线为正常语音曲线,绿线为变声语音曲线,如图3所示。

从图3中可知,两种变声与正常语音的声音能量曲线形态符合度都较高,曲线的斜率与曲率高度接近,其中电脑变声后的能量曲线形态符合度要高于手机变声。两种声音的能量整体高低有区别是变音软件对声音能量进行增强所致,而有的相同音素能量大小不同原因可能是变声器改变声强所致,故变声器对该特征的影响较为微弱。

2.基频走向形态

基频是指基音的频率[1]。基频的走向能够反映一段时间内基频的变化。根据声调变化的多样性,选用语料《北风和太阳》中的“争来争去就是分不出高低来”作为研究对象,对10位发音人的两种语音基频进行测量,然后对形成的基频曲线进行比对分析,观察曲线的分布状态。图中黑线为正常语音曲线,绿线为变声语音曲线,如图4所示。

由图可见,男性手机变声语音的基频走向符合度高于电脑变声语音,女性两种变声语音的基频走向符合度基本相同,符合度都较高。同一个人在进行变声时,基频曲线会发生整体升高或降低的趋势,部分连续性较好的基频曲线曲率会发生变化,曲线拐点与极值点的位置大体不变,曲线的单调区间基本趋于一致。因此,变声器对基频曲线的走向特征影响较小,不同人相关文本的语音样本时长较长时,基频走向特征相对于变声条件表现出较为明显的差异。此外,若变声器将基频提高到300HZ以上,基频走向曲线出现被纵向拉伸变形的情况,而300HZ以下纵向变形程度较小。

3.共振峰走向特征

共振峰走向特征是指共振峰中心线在频率和时间平面上的曲线形态,它能反映语音及其共振峰的动态形态[7]。选取10位发音人两种语音中“累”“药”“回”三个音节中的复合元音[ei]、[iɑu]、[uei]作为研究对象,观察同一人在正常语音和变声语音中这些复合元音的共振峰走向特征是否存在变化。

从表2可见,手机变声语音的共振峰走向符合度高于电脑变声语音,且低次共振峰走向稳定性较高。此外,在男性语音变女声时,共振峰频率显著提高,但走向较为模糊,如图5所示。在女性语音变男声时,共振峰频率显著降低,如图6所示。因此,对于男性语音变女声,低次共振峰走向特征具有较强的稳定性,高次共振峰走向特征容易产生变化;对于女性语音变男声,高次共振峰和低次共振峰都具有较强的稳定性。

4.音节间过渡音征

音节间过渡音征是指自然发音的节奏单元内音节之间的相邻音素之间发生协同发音并形成有机过渡段走向形态和过渡方式[8]。选取发音人两种语音中“约会”、“北风”两词语中第一个音节的元音[ε]、[i]到第二个音节的[x]、[f]的过渡段作为实验对象。根据过渡段的走向和过渡方式来判断相同发音人在变声后音节间过渡音征是否出现明显差异,结果如表3。

上表中对比可得:两种变声器的音节间过渡音征走向和过渡方式符合度较高,只有个别存在差异,例如:发音人W2发“北风”时的F2,正常语音音节间过渡音征走向为降渡,而两种变声都为平渡。因此,同一人发音时,音节间元音到辅音的过渡音征具有较强的稳定性,不易受到变声器的干扰。

5.音节内过渡音征

音节内过度音征指自然发音的单音节内部的相邻音素之间发生协同发音并形成一个有机过渡段走向形态和过渡方式[8]。选取“习”为例,分析音节内辅音到元音[i]之间过渡段的走向和过渡方式来判断相同发音人在变声后音节内过渡音征是否发生变化,结果见表4。

表中可见:两种变声语音的音节内过渡方式符合度在本次测量中都达到100%,音节内音渡音征的走向能达到95%和90%的符合度,只有个别存在差异。因此,正常语音在进行变声后,过渡方式相同,虽然个别发音人的音节内前音渡音征走向有差异,但总体稳定性较强,受变声器干扰较弱。

(三)声纹参数测量分析

1.速度变化特征

受语音时长规整技术的影响,测量速度变化特征有必要性。通过测量发音人两种语音中单独音节及其声母与韵母的时长,来对比变声后发音人的声音速度是否产生变化。选取语音中的“徐”“时”“考”作为研究对象,对10位发音人的两种语音进行测量,观察时长是否存在差异,结果见表5~6,其中时长差距小于0.01秒认为基本不变。

经分析,男性发音人变声后声母和韵母的时长普遍下降,且声母的时长下降程度要大于韵母,音节的时长随之降低。女性发音人变声后声母的时长会有细微降低,有的无变化,韵母的时长会有一定程度的增加,整个音节的时长无明显变化。可见,语音的速度在变声后产生了微弱变化且具一定规律。所以,速度变化特征具有一定的研究和应用价值。

2.基频测量

选取10位发音人语音中的[a]、[i]、[u]、[y]为研究对象,测量它们正常语音和变声语音的基频平均数值。为探寻基频平均数值是否具有显著差异,对男性和女性统计以上四种音素的基频平均数值首先进行单样本Kolmogorov-Smirnov检验,观察是否符合正态分布,经检验显著性P值均为0.2,即P>0.05服从正态分布,然后进行T-检验,检验它们之间是否存在显著差异,结果见表7。

结果显示,在T-检验结果中所有被检验组别的显著性P<0.05,因此两种语音的平均基频数值具有显著差异。为观察它们之间是否具有相关性,做出两类数据的散点图7~10,发现可能存在线性相关的关系。因此,对两类数据进行Pearson相关性检验,结果男性的配对样本相关性中的显著性P<0.05,相关性为0.987和0.993;女性的配对样本相关性中的显著性P<0.05,相关性为0.992和0.990。可见男女变声后的基频平均数值和正常语音的基频平均数值具线性相关的关系。

3.第一共振峰

不同人共振峰频率的差异是进行语音同一认定的重要音素。对10位发音人正常语音与变声语音中[a]、[i]、[u]的第一共振峰进行测量,绘制出以下统计图,并对它们进行分析。(后文中共振峰测量用相同实验条件和对象)具体变化量如图11所示。

经分析:男性在变女声时F1的频率总体都发生了上升的情况,女性在变男声时F1的频率总体都发生了下降的情况。其中,手机变声后[a]的下降幅度稍大于[i]和[u]的下降幅度。将同一人不同音素和不同人相同音素比对后发现,正常语音F1在变声后上升和下降的范围规律较为模糊,研究人未发现其中存在明显规律性。

4.第二共振峰

对第二共振峰进行测量并绘制成统计图,观察比对变声前后第二共振峰出现的差异。具体变化量如图12所示。

比对可见:5位男性发音人在变女声时,F2普遍升高;[i]的F2上升幅度稳定在1000HZ左右;[u]的F2上升幅度差别较大,各不相同。5位女性发音人在变男声时,F2普遍下降,3种音素F2的下降幅度差异较大,无明显规律性。同一人不同音素之间具有差异,F2上升或下降的幅度各不相同,不具有明显的符合性。

5.第三共振峰

由于同性别不同人的第一、二共振峰之间差异较小,一般高次共振峰会有明显差异,故有必要对第三、四共振峰进行测量,并观察变声之后的频率变化。其中,第三共振峰升降变化结果如图13所示。

经统计,男性变声后F3普遍上升,音素[a]的F3普遍上升了1000HZ左右,音素[i]的F3除了M1 的上升幅度较小,其余的普遍上升了1200HZ左右,音素[u]上升幅度差别较大。女性变声后F3普遍降低,音素[a]电脑变声器变声后除了W5下降幅度较大外,剩下的普遍下降650HZ左右,手机变声器则下降更多一些,音素[i]普遍下降1100HZ左右,音素[u]普遍下降1000HZ左右。此外,同一人在不同音素中F3上升或下降的幅度并不相符。

6.第四共振峰

对第四共振峰进行测量,并制成条形统计图,然后观察比对变声给F4带来的影响,结果如图14所示。

如图,男性变女声时F4普遍升高,女性变男声时F4普遍降低。男性F4上升的幅度范围较为模糊,女性F4下降幅度大约为1100HZ左右。同一人不同音素时F4的上升或下降的幅度范围无明显相关性。

四、讨论与总结

从实验结果可以看出变声器可以改变发音人的大部分声学特征,这些变化中部分拥有一定的规律。在听觉特征中变调、流畅度、儿化音、音节完整性和轻、重音这些特征较为稳定,变化程度小。在声学频谱特征中能量曲线形态特征、共振峰走向特征、音节间过渡音征和音节内过渡音征具有较强稳定性。变声语音的基频走向特征具有一定的变化规律,即随着变声后频率的增高,基频走向曲线被纵向拉伸的程度会逐渐加大。变声器对发音人语音的速度产生了一定的影响,它使男性变女声的音节时长明显降低,但女性变男声的音节时长无显著变化。后续,可对速度的变化进一步研究,寻找速度变化的一般规律。

在对基频和前四个共振峰的测量结果中发现:基频的变化规律比较明显,同一种变声器正常语音基频与变声基频之间线性相关。从前四个共振峰的测量结果来看,不同人或不同音素间少数发音人有一定程度上的符合,但大多数差异比较明显,不具有特定的规律,且低次共振峰的变化程度要小于高次共振峰的变化程度。后续,我们将继续对同一人的共振峰变化程度大小的规律性进行研究。

此外,当变声器在频域和时域上参数的设置都发生很大的变化,使变声语音从听觉到图谱不再稳定的表现个人习惯,这种语音就不再具备鉴定价值。本文实验使用的变声器较为初级,无法进行特征参数调节,在未来的研究中会采用专业变声器,对可鉴定的变声程度及不同语速和语调的变声情形进行进一步的研究。

猜你喜欢

变声音素基频
融合CNN和Transformer编码器的变声语音鉴别与还原
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
依托绘本课程,培养学生英语音素意识
桥面铺装层对中小跨径桥梁基频影响分析
木星地
小学英语课堂中音素意识与自然拼读整合训练的探索
基于深度学习算法的真人变声设备的设计与实现
在拼读阅读课中培养学生英语阅读素养
零基础速记48个音标音素