APP下载

语音识别样本采集注意事项研究

2016-05-18杨光沙贵君

铁道警察学院学报 2016年5期
关键词:声纹元音音量

杨光,沙贵君

(中国刑事警察学院刑事犯罪侦查系,辽宁沈阳 100845)

语音识别样本采集注意事项研究

杨光,沙贵君

(中国刑事警察学院刑事犯罪侦查系,辽宁沈阳 100845)

声纹鉴定技术是一项法庭科学的新兴技术,在实际应用中受检验对象不同状态及获取样本所使用录音设备等客观因素的影响,侦技人员提取的样本往往质量不佳,从而难以做出准确判断[1]。研究不同录音条件对声纹鉴定的影响,通过实验来总结出规律性的结论,提出语音鉴定采样工作中应特别注意的环节,能帮助侦技人员提高采集语音识别样本的水平,进而提高声纹鉴定的精准度。

语音;识别样本;声纹鉴定;样本采集

随着手机录音功能的增加以及数字录音器材的普及,人们可以非常方便地使用相关工具进行沟通、交流。同时,犯罪嫌疑人和被害人也在利用这些录音设备进行相关民事和刑事行为,因此近年来涉及声纹鉴定的案件迅速增加。但是声纹鉴定技术属于新兴的刑事科学技术门类,侦查和相关技术人员对其认识还不够全面,样本提取过程中常出现问题,从而影响到声纹鉴定结论的精准度[1][2]。

许多基层侦查和技术人员并不了解声纹鉴定的相关原理,认为只要有嫌疑人的语音样本就可以进行鉴定,因此在收集嫌疑人语音样本时不注意所提取语音样本的质量,从而给声纹鉴定工作造成了诸多困难。因为声纹鉴定检材无法改变,并且获得比较复杂,所以我们只能在收集提取犯罪嫌疑人语音样本方面多做文章来提高声纹鉴定工作的精确度。因此,当前声纹鉴定工作的重要内容之一便是研究和总结侦技人员在声纹鉴定中收集提取犯罪嫌疑人语音样本的正确方法,以此来提高所提取的语音样本的质量[3]。

笔者做过大量检验鉴定工作,从实践中发现以下两方面的问题:一是不同的录音器材的音频特性会对检验鉴定中部分声学参量产生一定程度的影响,最终导致对于不同的录音器材录制的样本鉴定出的结果和理想的结果产生较大差异;二是由于发音人音量的不同,同一数字录音器材录制的样本在检验鉴定中的声学参量上也会产生差异。如果对这些差异缺乏全面深入的分析研究,简单或者片面地把它们认定为语音的本质差异,必然会导致错误的鉴定结论[4]。

本研究目的是进一步阐明两种不同录音条件对声学参量的影响。通过对男女各5人共两组发音人进行一段时间的跟踪和多次采样,研究元音共振峰的频率、峰值、基音三个参量在两种不同录音条件下的差异情况,从而总结出在不同录音条件下应该注意的事项。

一、实验设计

(一)实验器材

1.硬件

实验一:清华同方数字录音笔一支,三星手机I900手机一部,苹果4S手机一部,计算机一台。

实验二:清华同方数字录音笔一支。

2.软件

vs-99语音工作站(北京阳宸电子技术公司)。

(二)录音内容

(三)录音对象

共10人,男性5人,女性5人,年龄为19~24岁,来自全国不同方言区,普通话发音较为标准,无特殊发音习惯。

(四)实验设计

本研究分为两个实验,分别针对不同录音器材和不同音量两种录音条件对声学参量的影响来进行实验。

实验一:发音人同时手持录音笔、苹果手机和三星手机,在音量大小相同状态下,分别说出以上给定的元音和短句共六句录音内容,连续发音2遍,并且由三种录音设备同时录音,使录音设备与嘴的距离相同,都为50厘米左右,这样就保证了三种设备录音的声源一致[5]。

实验二:发音人手持录音笔,用正常和大声(非喊叫)两种语气分别说出以上给定的元音以及短句,共六句录音内容,并且连续发音2遍,发音人的嘴部与录音笔的距离保持控制在50厘米。

(五)参数设置

利用vs-99语音工作站线分析性预测谱长时平均LPC时的参数设置为8.000kHz,4位,单声道。

(六)数据提取

选取具有代表性的5男1女共6个人,分别检测三种录音设备以及两种音量录制的语音材料中含有〔a〕、〔i〕、〔u〕等元音的共振峰频率(Hz)和共振峰幅值(dB)以及基音走势。统计并整理上述数据,制成相应图谱表格。

二、实验结果与分析

(一)三种不同录音器材收集语音样本的分析

图1至图3分别显示的是随机选取的3位发音人在录音笔、苹果手机和三星手机等三种录音器材录制下发含有〔a〕、〔i〕、〔u〕语料的共振峰频率条形统计图。(注:本研究作为理论研究扩大了共振峰采集频率,采集的共振峰增加到F7,但实际案件中鉴定人员一般只采集到F4。)可以看出三种录音器材检测到的共振峰频率各不相同,甚至出现了苹果4S以及三星I900手机共振峰丢失的现象。

图1 三种器材录制发音人YG发元音〔a〕时的共振峰频率(Hz)

图2 三种器材录制发音人ZCJ发元音〔i〕时的共振峰频率(Hz)

图3 三种器材录制发音人WW发元音〔u〕时的共振峰频率(Hz)

表1 两种录音状态元音〔a〕第一共振峰F1幅值分析(单位:dB)

表2 两种录音状态元音〔i〕第一共振峰F1幅值分析(单位:dB)

表3 两种录音状态元音〔u〕第一共振峰F1幅值分析(单位:dB)

(二)两种不同音量条件下收集语音样本的分析

1.第一共振峰

表1至表3显示的是6位发音人在正常和大声这两种不同的音量状态下发含有元音〔a〕、〔i〕、〔u〕等语料的F1的变化情况。很明显,除发音人WW所发含元音〔a〕的语料的F1值未变化以及含元音〔i〕的值降低以外,其他所有F1普遍升高。

2.第二共振峰

表4至表6显示的是F2的变化情况。可以看到,除发音人ZCJ发元音〔i〕以及WW发元音〔u〕时略有下降外,其他情况下元音F2均有所升高。

表4 两种录音状态元音〔a〕第二共振峰F2幅值分析(单位:dB)

表5 两种录音状态元音〔i〕第二共振峰F2幅值分析(单位:dB)

表6 两种录音状态元音〔u〕第二共振峰F2幅值分析(单位:dB)

3.基音走势

表7至表9反映的是正常和大声两种录音状态下6个发音人说出含有元音〔a〕、〔i〕、〔u〕时的基音走势图。可以看到,两种不同录音状态下,共振峰并没有因为音量的提高而呈现某种固定的变化态势,没有一定的规律可循。

表7 两种录音状态元音〔a〕基音走势分析

表8 两种录音状态元音〔i〕基音走势分析

表9 两种录音状态元音〔u〕基音走势分析

三、讨论

(一)三种不同录音器材收集语音样本

1.有共振峰丢失现象

通过三种不同录音器材录制的同一语音样本共振峰频率值的相互比较的统计,可以发现有明显共振峰丢失现象出现。相比较而言,录音笔录制的语音样本共振峰丢失的现象较少,这一现象在高频区域特别突出。而手机的共振峰在高频区域丢失现象则较为严重。这样的共振峰丢失现象是由录音器材自身频率响应特性的差异形成的,性能高的器材比性能低的器材频率响应特性更好,能够体现出共振峰强度的差异。由于共振峰频率的提取方法与其强度直接密切相关,因此录音质量较高的录音器材在高频区域共振峰丢失现象较少,录音质量较差的录音器材在高频区域共振峰丢失现象较多[6]。

2.同一语音样本的同一共振峰频率有差异

通过三种不同的常用录音器材录制的同一语音样本共振峰频率的相互比较统计,发现三种录音设备录制相同语音的同一共振峰频率具有差异。其中性能较低的三星手机与性能较高的录音笔、苹果手机等的差别相对较大,录音笔与苹果手机等高性能的录音器材相互之间的共振峰频率差异相对较小。

归类总结三种常用录音设备的差异对这些参数的影响发现,当录音设备性能不同时,质量较差的录音器材所录制语音样本共振峰丢失现象较多,质量较高的录音器材所录制语音样本共振峰丢失现象较少,而且质量较高的录音器材的宽带要明显高于质量较低的器材[7]。随着数字录音器材和手机录音功能的广泛使用,在使用数字录音器材获取的检材进行声纹鉴定时应当格外慎重,尽量使用与检材相同或性能更好的录音设备,以便提取到高质量、检测条件较好的语音样本。

(二)两种不同音量条件下收集语音样本

1.共振峰变化

除发音人WW发元音〔a〕以及〔i〕的F1保持相等或略有降低以外,大声说话时,三个元音的F1均有所提高。

对于F2,除发音人ZCJ发元音〔i〕以及WW发元音〔u〕时的F2略有降低以外,6个发音人发三个元音的其他F2值均有所升高。

由于声纹研究界对F3、F4乃至更高次共振峰的规律认识还不够深入,笔者现在还难以解释其变化原因。笔者相信F3、F4的变化与语音发声类型的变化有着密切联系,但具体细节还有待进一步深入求证。

2.基音走势变化

随着音量的升高,三个元音的基因走势没有固定的趋势,并没有因为音量的提高而产生某种具有规律性的变化方式。通过以上分析可知,大声说话时的语音声学参数并非正常说话时的简单成倍放大,其语图也不能通过正常语音简单的声强转换得到。这是因为两种不同音量下的录音样本不仅在声强上存在差异,而且在频率域上也产生了很大的变化,同时高次的共振峰的变化情况规律并不统一[8]。总结两种不同音量录音状态对参数的影响,在对大声与小声等不同状态下的语音进行对比分析时,我们应该有以下认识。

首先,元音的共振模式并未随着音量的改变而明显改变,三个元音之间区分度依然较好。语音频谱在两种状态下发生了较大变化,相似性与稳定性在同种状态下较强。因此,获取与检材录音同种状态或尽量相似状态的语音对比样本就成为一个十分关键的问题[9]。

最后,本研究是在较为理想的实验室状态下进行的,而语音样本提取在实践中常常还伴随各种其他影响因素,比如说话人的情绪不同,录音环境差异,噪声大小,等等。因此,鉴定中获得与检材录音状态尽可能一致或相似的比对样本是极为重要的一步。

四、结语

现场语音检材不易改变且较为复杂,想要提高声纹鉴定工作的精确度就只能在收集提取嫌疑人语音样本上多做文章[10]。希望此文能加深侦查技术人员对声纹识别样本提取的了解,在收集嫌疑人声音样本时重视所收集语音样本的质量,注意录制时使嫌疑人讲话的语速快慢、音量大小与现场检材尽量保持一致,同时,对所使用的录音器材也要加以选择,尽量使用高质量或者与录制检材相同的录音器材,以便提取高质量的语音识别样本,使鉴定工作减少干扰因素,以提高声纹鉴定的准确性。

[1]谭超英.浅谈声纹鉴定中语音样本的提取[J].广西公安管理干部学院学报,2003(4):39-41.

[2]崔效义,李敬阳.声纹鉴定[J].刑事技术,1993(1):1-5.

[3]李敬阳.广州话语音声纹鉴定中的量化分析研究[J].刑事技术,2005(6):6-8.

[4]吴新原.数字录音笔的音频特性对声纹鉴定中主要声学参量的影响[J].中国人民公安大学学报,2007(4):20-22.

[5]曹洪林,刘建伟.正常、大声两种说话状态下语音的声学差异及对声纹鉴定的影响[J].证据科学,2009(6):754-763.

[6]李敬阳,崔效义,王莉,冯祖炜.三种不同录音器材录制的电话对声纹鉴定的影响[C]//中国中文信息学会.新世纪的现代语言学——第五届全国现代语言学术会议论文集.北京:清华大学出版社,2001:372-373.

[7]达钊,李倩,郭霞生,等.不同录音系统对声纹检测的影响[J].南京大学学报,2011(3):202-207.

[8]张亮.声纹证据的应用[J].中国人民公安大学学报,2002(4):70-72.

[9]阎萍.声纹鉴定及其在侦查破案中的作用[J].辽宁警专学报,2008(1):70-72.

[10]黄燕芳.声纹样本收集过程中存在的问题和解决方法[J].铁道警官高等专科学校学报,2007(3):95-96.

责任编辑:马克

D631

A

1009-3192(2016)05-0054-04

2016-05-10

杨光,男,湖北仙桃人,中国刑事警察学院刑事犯罪侦查专业2015级硕士研究生;沙贵君,男,黑龙江桦南人,中国刑事警察学院刑事犯罪侦查系副主任教授,硕士研究生导师,主要从事现场勘查研究。

猜你喜欢

声纹元音音量
测测你的“音量值”
元音字母和元音字母组合的拼读规则
元音字母和元音字母组合的拼读规则
解放手机的音量键
屏幕即指纹识别
请放心地扭大音量看电影听音乐吧!Mclntosh Sonus Faber家庭影院套装
细火慢炖增加音量调节级数
基于数字水印的人脸与声纹融合识别算法
Playing with “ar”
声纹