嘈杂语噪声下频段增益对汉语语言清晰度的影响

2020-03-24曹娜鑫章斯宇

电声技术 2020年10期

曹娜鑫，章斯宇

（中国传媒大学传播声学研究所，北京 100024）

0 引言

生活中语言交流常受到噪声的干扰。嘈杂语噪声是一种在餐厅、办公区及车站等公共场所常见的典型噪声，通常由很多人讲话的声音构成，在时频域上既具有噪声的特点又具有语音的特点。研究中使用的嘈杂语噪声主要由不同说话人录制的语音信号混合而成，但是各研究使用的语音信号有所不同，既有英语、阿拉伯语及汉语等语言种类上的区别，又有字、词、句等语言结构上的区别。汉语因其独特的语言学特性，作为掩蔽语言和识别语言时，其掩蔽特性又存在独特的掩蔽规律。

目前，关于嘈杂语噪声对语言清晰度影响的研究已有一些成果。彭健新［1］和Wang 等人［2］在研究中发现，8 人嘈杂语噪声环境对汉语语言清晰度的掩蔽作用更强；Simpson 和Cooke［3］以元音-辅音-元音为实验材料，发现8 个人说话的嘈杂语噪声对应的汉语清晰度得分最低，随着嘈杂语中说话人数增加到512 人，言语识别效果明显提高；魏卫刚等人［4］研究了粉红噪声和交谈声对语言清晰度的影响，发现不同混响半径下两者结果无显著性差异；徐灿［5］在研究中发现被试语言背景对被试感知汉语元音-声调的表现有显著影响，且噪声环境下对声调感知的影响大于对元音感知的影响。

关于嘈杂语噪声下的语言清晰度感知研究还存在一定的局限性。大多研究分析的是嘈杂语噪声的说话人个数、声学特性及语料内容等因素对目标语音听感清晰度的影响，少有从频带调制的角度去探究嘈杂语噪声下汉语语言清晰度的感知。因此，以消除嘈杂语噪声掩蔽效果为研究目的，探究以何种方法可以提升嘈杂语噪声条件下的语言清晰度。通过开展不同条件下的清晰度听感实验，分析对比不同频段增益调制后的汉语听感清晰度变化特点，探究频带增益调制水平与语言清晰度提升量之间的关系，进一步理解嘈杂语噪声下汉语语言感知特性和特定条件下指定相应的语言清晰度改善方案。

1 实验设计

1.1 嘈杂语噪声制作

嘈杂语噪声由多名说话人的语音混合而成。前期实验已发现，8 人嘈杂语噪声对应的汉语清晰度得分最低，与前人的结果［1-2］基本一致。因此，本文实验使用的嘈杂语噪声由8 名发音人录制的语法正确的有语意的汉语句子随机混合而成。汉语语句在录音间分别由4 名男生和4 名女生以正常语速朗读录制而成，无重复语句，共500 句。随后调整每个语句的幅度保持一致，并按照一定说话人数目进行混缩。混缩而成的嘈杂语噪声中包含的男声女声比例相同。

1.2 测听语料

目标声源材料采用汉语清晰度测试音节表——KXY 表［6］。KXY 表包含了汉语普通话所有可能的音节结构，其中声母、韵母及声调的出现概率符合汉语日常交流的实际情况。每张表有75 个音节，采用随机组合方式分成25 组，每组含3 个音节，连读不具有语意。测听语料由1 男1 女两名专业播音员在录音间以标准普通话、标准语速（每秒4 个音节）朗读并保存。录音间混响时间低于0.1 s，本底噪声低于20 dBA，并通过Audition 软件将所有语音信号幅度标准化。

1.3 实验条件

实验中频段条件设置依据的是作者所在单位的早期研究结果。宋慧［7］等人探究了不同频段的带通滤波传输条件对汉语清晰度的影响，得到了中心频率和频带宽度与汉语单音节清晰度的感知关系。由于本文实验是在嘈杂语噪声掩蔽下进行频段有限的清晰度感知评价，因此中心频率和带宽选择要难度适中。实验最终选用中心频率分别为0.5 kHz、1 kHz、2 kHz及4 kHz的语音信号，在0.25～1 kHz、0.5～2 kHz、1～4 kHz 及2～8 kHz的频段范围内做+4 dB、+8 dB 及+12 dB 的增益处理，共12 种信号处理方式，如表1 所示。

表1 频段设置和增益调制条件

在前期实验中发现，信噪比在-12 dB 时听音人的清晰度感知结果接近0，信噪比在0 dB 时听音人的清晰度感知结果接近0.5。因此，本次实验嘈杂语噪声掩蔽目标语音的信噪比选择-12 dB、-8 dB、-4 dB 及0 dB 共4 种情况。实验共有不做处理和12 种频段增益方式下的语音信号，4 种信噪比，共52（13×4）种声学传递条件。每种传递条件均选择2 张不同的音节表（男女声各一张），共计104 张，其中任意2 张都不重复。

1.4 实验过程

语言清晰度评价实验信号通过耳机重放，重放声压级经人工校准控制在65 dBA。按标准［5］规定，实验时被试以组（每组3 个音节）为单位进行听音，每组音节间隔约8 s。听完一组音节后，听音人记录下听到的音节拼音。例如，听到“序号×发你灰”，被试记录“fa1 ni3 hui1”。只有当被试记录的拼音与实际播放的发音一致时才认为听对，否则记为错。实验结束后，分别统计不同传递条件下所有被试听对的音节个数占所有播放音节个数的比值，即为对应声学传递条件下的语音清晰度。另外，实验进一步分析了声母清晰度、韵母清晰度及声调清晰度。参与实验的有效被试人数为10 人，男女比例基本平衡。所有被试具有标准普通话能力且听力正常，熟悉汉语拼音规则。此外，在正式实验前对被试进行了训练，使其熟悉实验环境和实验过程。

2 实验结果及分析

2.1 不同信噪比下语言清晰度结果对比

实验得到了4 种信噪比条件下进行12 种频段增益调制的汉语单音节清晰度结果。单因素方差分析结果显示，发音人性别对汉语听感清晰度的影响不具有显著性差异（P＜0.05），因此每种传递条件下取男女声信号的平均值为最终结果。清晰度结果如图1 所示。

从图1 可以看出，音节清晰度感知随信噪比增加而增大。在各信噪比条件下，经过频带增益调制的清晰度都高于不做处理时的清晰度。12 种调制条件对应的音节清晰度变化曲线走势基本一致，即清晰度随信噪比的增加逐渐提高，信噪比为0 dB 时音节清晰度最高。掩蔽信噪比较低时，音节清晰度随信噪比变化的趋势较缓。随着信噪比的提高，清晰度的增长速度有所增加。随着信噪比的进一步提高，音节清晰度值增长趋势有所变缓。方差分析表明，掩蔽信噪比对语言清晰度感知有显著影响。

将12 种传递条件下的清晰度分数减去不做处理时的清晰度分数，得到每种传递条件下的清晰度提升量随信噪比的变化曲线，如图2 所示。可以看出，音节和声母清晰度提升量随信噪比变化的趋势一致，韵母和声调清晰度提升量随信噪比变化的趋势较为一致。四者都呈现先上升后下降的趋势，但前两者清晰度提升量的变化幅度较小，后两者清晰度提升量的变化幅度较大。

信噪比为-12 dB 时，音节清晰度的提升量在1%～15%，声母清晰度的提升量在1%～20%。随着信噪比的增大，清晰度提升量继续增大。信噪比为-8 dB 时，音节清晰度提升量为5%～20%，声母清晰度的提升量为8%～30%。信噪比为-4 dB 时，每种传递条件下的音节清晰度提升量达到最大值为10%～25%，声母清晰度的提升量为13%～28%。信噪比为0 dB 时，每种传递条件下的清晰度提升量均明显下降，音节清晰度提升量为5%～20%，声母清晰度的提升量为5%～20%。

在信噪比从-12 dB 到-8 dB 变化的过程中，韵母清晰度提升量从1%～35%上升到11%～51%后持续下降，并在信噪比为0 dB 时达到最低5%～15%；声调清晰度提升量从3%～50%上升到15%～65%后大幅下降，并在信噪比为0 dB 时达到最低5%～14%。

由此可以看出，不同信噪比下的频段增益调制对音节、声母、韵母及声调清晰度的提升量改变程度不同。在听闻条件较差的低信噪比嘈杂语噪声环境下，频段增益更有利于提升韵母和声调清晰度；在听闻条件相对较好的次低信噪比嘈杂语噪声环境下，频段增益更有利于提升音节和声调清晰度，且音节清晰度的提升效果与声母清晰度的提升效果相关性较高。当听闻环境较差（信噪比为-12 dB）或较好（信噪比为0 dB）时，语言清晰度提升量受外部环境噪声掩蔽的影响更大，频段增益调制的清晰度提升效果在难度适中的听闻条件（信噪比为-8 dB 和-4 dB）下更显著。

2.2 不同频带下语言清晰度结果对比

将不同频段增益调制后的清晰度分数减去不做处理时的清晰度分数，得到每种传递条件下的清晰度提升量随频带的变化曲线，如图3 所示。

可以发现，不同信噪比下清晰度提升量随频带变化的趋势有所不同。

如图3（a）所示，信噪比为0 dB 时，音节和声母清晰度提升量随频带的增大呈现先上升后下降的趋势，韵母和声调清晰度提升量几乎不随频带的变化而变化。在中心频率为0.5 kHz、带宽为0.25～1 kHz 时，音节清晰度提升量为7%～14%，声调清晰度提升量为5%～14%；在中心频率为1 kHz、带宽为0.5～2 kHz 时，音节和声母清晰度提升量为6%～17%；在中心频率为2 kHz、带宽为1～4 kHz 时，音节和声母清晰度提升量为2%～23%；在中心频率为4 kHz、带宽为2～8 kHz 时，音节和声母清晰度提升量下降至10%～20%。韵母和声调清晰度提升量在4 种频带调制下都为10%左右。

如图3（b）所示，信噪比为-4 dB 时，音节和声母清晰度提升量变化趋势同信噪比为0 dB 时相似，但3 种增益之间的相对变化量有所增加。韵母和声调清晰度提升量随频带增加呈下降趋势。

如图3（c）所示，信噪比为-8 dB 时，音节清晰度提升量变化趋势同信噪比为-4 dB 时相似，声母、韵母及声调清晰度提升量随频带变化的下降趋势更加明显。

如图3（d）所示，信噪比为-12 dB 时，音节、声母、韵母及声调清晰度提升量随频带增加呈现下降且收缩的趋势，且韵母和声调清晰度提升量随频带变化的下降趋势在4 种信噪比环境下最明显。在中心频率为0.5 kHz、带宽为0.25～1 kHz 时，音节清晰度提升量为1%～13%，声母清晰度提升量为1%～18%，韵母清晰度提升量为1%～35%，声调清晰度提升量为2%～49%，且每增加4 dB 韵母清晰度提升约18%，声调清晰度提升约22%。在中心频率为4 kHz、带宽为2～8 kHz 时，韵母和声调清晰度提升量在8%～18%。

可以看出，不同频带下的频段增益调制对音节、声母、韵母及声调清晰度的提升量改变程度不同。音节和声母清晰度随中心频率和带宽的增加变化趋势较小，且两种清晰度提升量的曲线变化趋势更相似。韵母和声调清晰度提升量随中心频率和带宽的变化趋势受信噪比影响较大，但两种清晰度提升量的曲线变化趋势也很接近，在环境较好（信噪比为0 dB 和-4 dB）时几乎不随中心频率和带宽的变化而变化，在环境较差（信噪比为-8 dB 和-12 dB）时随中心频率和带宽的增加而减小。

由实验结果发现，音节和声母清晰度提升量的变化规律相似，因此对不同中心频率和带宽的频带增益调制时，若想提高音节清晰度的感知，可以从声母清晰度出发进行研究。声母清晰度在不同频带增益后变化不明显，可能是因为汉语普通话声母的能量在频带范围分布广，从0.2 kHz 到8 kHz 的频率范围内均有能量分布。低频段增益调制对韵母清晰度提升效果较好，可能是因为韵母主要由元音构成，而元音的共振峰对韵母的感知具有重要作用，而汉语普通话单元音韵母的第一共振峰基本分布都在1 kHz 以下，所以在低频段做增益更有利于韵母清晰度的提升。声调清晰度在低频段增益提升更有效，因为声调的感知由音高决定，而音高受基频频率的影响。实验中男女发音人的基频基本分布在300 Hz 左右，因而低频段调制更有利于提高声调清晰度。

3 结语

本文通过频段增益的处理方式探究嘈杂语噪声下汉语语言清晰度感知现象，对嘈杂语噪声下增强汉语语言清晰度的研究有一定的参考价值。但是，本文实验是在实验室条件下进行的，相较于更加复杂的实际环境，还有一些实验条件需要完善。例如，实际环境中声源和噪声是空间分离的，8 人嘈杂语噪声的说话人之间是空间分离状态，信噪比取值可以更密集以使结果更精确。因此，下一步可改变这些实验条件做进一步研究。