基于性别差异的汉语情绪语音韵律分析

2017-09-25毛佩文

文教资料 2017年35期

毛佩文

摘要：为了探究性别差异对汉语情绪语音韵律特征产生的影响，本研究采用角色扮演的诱导式方法，设计并采集了含有高兴、愤怒、悲伤、惊奇四种基本情绪的语音语料，分析它们的时长、基频曲线的特征，并通过不同性别的同种情绪语音信号对比，得到汉语情绪语音韵律特征分布变化规律，在此基础上发现了女性话语所包含的情绪较男性更易被感知的原因：（1）男性情绪语音中的无声部分，削减了语音的连续性并且增加了情绪的时长，导致识别率降低；（2）女性的情绪基频值总体上高于男性；（3）女性基频的变化率高于男性。情绪语音具有如下倾向：基频的变化越明显，变化率越高，情绪的表现力越强；（4）女性的基频最高值位置较前。

关键词：情绪语音性别差异时长基频曲线 Praat语音学软

绪论

說话人性别识别是当前语音识别领域一个非常重要的课题，目前在限定条件下以基音为判别标准的说话人性别识别已经可以获得较为满意的效果，但与实际的应用要求还有一定的差距。在目前的使用环境中，说话人情绪是造成这种差距的主要因素之一。同时，我们发现，在面向不同情绪语音的说话人性别识别时，女声的识别率普遍高于男声。在日常对话中，女性话语所传达的情绪也更易被感知。

本研究将对不同性别的同种情绪语音信号对比，以期获得：（1）不同性别的汉语情绪语音韵律特征（时长、基频）分布变化情况；（2）女性话语所包含的情绪较男性更易被感知的原因。

1.研究综述

1.1情感、情绪与态度

人们在言语交际中表现出的情感，包含了对外部信息认知加工的两个不同层面（Auberge & Gestalt，2002）：一是不自主控制的情感，即“情绪”；二是自主控制的情感，即态度。我们认为，情绪和态度是两种截然不同的心理状态。情绪与生俱来，是对外部刺激的本能反应；而态度与语言、文化有非常密切的联系，在不同的社会文化环境中会表现出一定的差异，某些态度的表达方式需要后天的学习。

本研究只考察汉语情绪语音韵律特征分布变化规律。

1.2两类主流情绪描述模型

情绪的描述有多种方法，大致可分为离散和连续两种形式。

前者将情绪描述为离散的、形容词标签的形式，如高兴、悲伤等，在人们的日常交流过程中被广泛使用，同时还被普遍运用于早期的情绪相关研究中。

后者是做连续的描述。这种观点认为，情绪的描述不应局限于那些典型的基本情绪，还需考虑更精细的连续性变化。于是，往往在一个二维或三维的连续空间上描写情绪。

我们以表格的形式对两种情绪描述模型之间的区别进行了总结和展示，见表1-1。

一般认为，那些能够跨越不同人类文化，甚至能够为人类和具有社会性的哺乳动物所共有的情绪类别为基本情绪。“基本情绪”的说法属于离散情绪描述模型，表1-2列举了不同学者对基本情绪的定义和划分。

在表1-2中，“高兴”（happiness，joy，pleasure等）出现次数最多，为11次；其后分别为愤怒、悲伤、恐惧。同时，这四种基本情绪的频次明显高于其他情绪。因此，我们认为一共有四种基本情绪，即高兴、愤怒、悲伤、恐惧。

1.3小结

综上所述，本文仍然沿用传统的离散情绪描述模型，研究基本情绪。考虑到“恐惧”在现实生活中出现频率很低、在语音对话系统中很少需要，而且相比而言最难在实验中诱导，所以我们的研究没有包括“恐惧”，而代之以“惊奇”。于是，我们的研究对象为以下四种基本情绪：高兴、愤怒、悲伤、惊奇。

2.实验方案

2.1情绪语料设计

2.1.1设计思想

从国内外研究文献来看，设计和采集情绪语音的方法。可以分为三类。按真实性和自然度由低到高（可控性则由高到低）的顺序，依次为：

（1）简单模仿式（模仿语料）：不设计语境，由被试简单模仿，一般选取较专业的被试；

（2）场景诱导式（诱导语料）：设计一定语境，在角色扮演中诱导出被试的情绪：

（3）完全自发式（自发语料）：在真实情景下的情绪表达。

我们认为模仿式语料的语义与情绪之间缺乏内在关联，录音时难以保证情绪到位，且寻找符合要求的被试难度较大，因此未采用简单模仿式方法。

从真实性和自然度考虑，最好当然是自发式语料。但这类语料的采集和后续处NT作量巨大，而且在自发话语中变化因素太多。即使仅考虑情绪因素，也很可能是多种情绪的混合，不适合直接用于对比研究。

综合考虑语料自然度、实验可控性和数据处理等多个因素，我们决定采用角色扮演的诱导式方法。

2.1.2设计原则

在正式设计语料前，我们先确立了以下的目标句设计原则：

（1）单句，长度适中：6-11个音节；

（2）句焦点：①今天星期四；②今天星期四；

（3）句类：陈述句、疑问句、祈使句、感叹句；

（4）声调：句尾字的声调和句调的交互作用；

①句类相同：以陈述句为例

今天星期五。句尾字“五”降升调，整句为升调

今天星期一。句尾字“一”高平调，整句为降调

②句尾字的声调相同：以中升调为例

今天正月初十。陈述句，整句为升调

今天正月初十？疑问句。整句升调更明显

（5）不含性别暗示词语：男朋友、女朋友等；

（6）字面上没有明显的情绪倾向；

（7）情绪可塑性大，而且语义自然；

（8）构成一个独立的话轮，保证情绪全部落在目标句上。

2.2情绪语音采集

我们按照2.1.2节中的设计原则设计目标句。对每一个目标句，设计四段不同的对话脚本，分别诱导出高兴、愤怒、悲伤、惊奇这四种基本情绪。我们最终确定了8个目标句，每段对话含有2-5个话轮。下面以目标句“真没想到你会这样”为例，列出四种情绪下的对话脚本。

（1）高兴：

B：你好像和以前不一样了，知道关心人了。

A：是啊，以前我挺自私的，现在学会为别人考虑了。

B：真没想到你会这样！

（2）愤怒：

A：你怎么了？这么生气！

B：你是不是打小明了？

A：那家伙太烦了，打他又怎么样！

B：真没想到你会这样！

（3）悲伤：

A：你叫我来有什么事吗？

B：就在这儿，你说过你会一直陪着我。

A：我已经不记得了。

B：真没想到你会这样！

（4）惊奇：

A：这个月我天天去酒吧！

B：真的假的？

A：当然啦，我也要好好享受生活了！

B：真没想到你会这样！

实验被试者为南京师范大学汉语言专业的一名女生和一名男生。在两名被试熟悉脚本内容并模拟对话以后，进入专业录音棚（科奥克声学录音室）內录音，轮流扮演目标句发出者B。录音设备为手持式数码录音机（Handy Recorder），录音采样率取44100Hz。录制对话时，目标句以外的内容可以轻微改变，但目标句必须与脚本一致。为保证语料质量和情绪连续性，同类情绪的对话安排在同一时间段连续录制，每种情绪录制之间有休息时间。最后，我们得到男女各32个样本。

2.3语音信号切分

为了提取样本中的目标句，我们需要使用Adobe Audi-tion声音处理软件进行语音信号的切分。并将切分后仅含有目标句的音频保存为Praat软件可读取的，wav格式。图2-1是Adobe Audition声音处理软件的工作界面。

2.4语音韵律特征的提取

2.4.1时长提取

我们通过Praat软件提取不同性别的同一情绪目标句的持续时间，对由性别引起的持续时间的变化进行分析和比较。本文计算出每一情绪语句从开始到结束的持续时间，这一时间包括句中的无声部分。因为无声部分本身对情绪是有贡献的。

2.4.2基频曲线提取

基频是反映情绪信息的重要特征之一。而且通常情况下男女两性的声音的基频有着比较明显的区别。通过Praat软件提取目标句的基频值。然后手工检查并做必要的修正。其后，对基频曲线做轻微平滑，最终得到全句连续的基频曲线。

3.实验结果

3.1时长分析

由图3-1可以看出，对于一个8音节的目标句而言：（1）四种基本情绪的时长都在1300ms到1850ms之间，差别不明显：（2）男性四种基本情绪的时长都高于女性；（3）对于男性而言，悲伤的时长最高，而后分别是高兴、愤怒、惊奇；（4）对于女性而言，高兴的时长最高，而后分别是惊奇、悲伤、愤怒；（5）相对于男性而言，女性发音时长受情绪因素影响的变化不明显；（6）悲伤的时长受性别因素影响的变化最显著，而后分别是高兴、愤怒、惊奇。

我们认为。除了性别间语速的差异。男性在生活中更倾向于使用停顿来表达情绪，因此男性的情绪语音中包含的无声部分明显多于女性。因为无声部分本身对情绪是有贡献的，因此我们在提取时长的过程中并未删除无声部分，这就导致男性四种基本情绪的时长都高于女性。于是，我们大胆推断。正是由于男性情绪语音中所包含的无声部分，削减了语音的连续性并且增加了情绪的时长。导致男性情绪的识别率降低。

3.2基频曲线分析

图3-2、图3-3、图3-4、图3-5展示了四种基本情绪各自在不同性别基础上的基频曲线（以目标句“真没想到你会这样”为例），其中时间未做归一化处理。

综合分析上述4张图。我们可以发现：

（1）①无论男女，四种基本情绪的基频曲线都很清楚地聚为两组：一组是愤怒和惊奇，另一组是高兴和悲伤。前一组的基频值总体上明显比后一组高；②男女对比，女性的四种基本情绪基频值总体上高于男性：

（2）①无论男女，惊奇状态的音高范围最宽，一方面全句基频最高值通常较其他情绪高，另一方面全句基频最低值在基频值总体较高的两种情绪中也较愤怒为低。与其他情绪形成对照的是，惊奇总是在某个音节上拉高基频值到全句的最高值；②男女对比，男性的基频最高值总是高于女性。而且晚于女性出现：

（3）无论男女，悲伤的基频值最低，范围也最窄（基频曲线最为平坦）：

（4）男女对比，四种基本情绪中男性的基频曲线较女性更为平坦：

（5）男女对比，男性的基频变化范围较女性更大，但变化率则低于女性：

除了以上发现外，我们进一步考察了语调。在四种基本情绪中，除了愤怒，其他情绪的基频曲线都有一定的下倾趋势，语调下倾的幅度呈现以下顺序：惊奇>高兴>悲伤。这也表明：积极情绪>消极情绪。

字调和语调在当前阶段是密不可分的两个概念，因此我们也对尾字调进行了考察。我们可以发现：（1）无论男女，愤怒和悲伤（消极情绪）目标句的尾字调呈上升趋势，惊奇和高兴（积极情绪）目标句的尾字调呈下倾趋势；（2）男女对比，男性的目标句尾字调上升趋势和下倾趋势较女性都更为明显。

于是，我们认为，女性话语所包含的情绪更容易被感知的原因在于：

（1）基频值：由于声带构造的差别，女性的情绪基频值总体上高于男性，而人类更易感知基频值较高的话语中的情绪：

（2）基频的变化率：男性的基频曲线较女性更为平坦，女性基频的变化率高于男性。我们认为，情绪语音具有如下倾向：基频的变化越明显，变化率越高，情绪的表现力越强，也更易被感知：

（3）基频最高值的位置：在四种基本情绪的基频曲线上，虽然男女的基频最高值都出现在目标句中后段，但女性的基频最高值总是先于男性出现。我们认为，基频最高值位置较前也是导致女性的情绪更易被感知的原因。

4.结语

4.1研究结论

本研究考察了基于性别差异的汉语情绪语音韵律特征分布变化情况。我们采用角色扮演的诱导式方法，设计并采集了含有高兴、愤怒、悲伤、惊奇四种基本情绪的语音语料，分析它们的时长、基频曲线的特征，并通过不同性别的同种情绪语音信号对比，发现了女性话语所包含的情绪较男性更易被感知的原因：

（1）无声部分：除语速因素外，由于男性情绪语音中所包含的无声部分，削减了语音的连续性并且增加了情绪的时长，导致男性情绪的识别率降低；

（2）基频值：由于声带构造的差别，女性的情绪基频值总体上高于男性，而人类更易感知基频值较高的话语中的情绪：

（3）基频的变化率：男性的基频曲线较女性更为平坦，女性基频的变化率高于男性。我们认为，情绪语音具有如下倾向：基频的变化越明显，变化率越高，情绪的表现力越强，也更易被感知：

（4）基频最高值的位置：在四种基本情绪的基频曲线上，虽然男女的基频最高值都出现在目标句中后段，但女性的基频最高值总是先于男性出现。我们认为，基频最高值位置较前也是导致女性的情绪更易被感知的原因。

4.2研究展望

本研究存在一些不足，有待日后进一步弥补和探索。

（1）增加样本量。由于对情绪的理解还停留在浅层，我们无法设计出大量符合要求的对话脚本。导致本研究样本数量过少，对数据分析的准确性有一定的影响。希望日后能对情绪有进一步研究，设计出更多理想的目标句。

（2）增加被试量。本研究的被试仅为南京师范大学汉语言专业的一名女生和一名男生，数量少且不具有代表性。希望日后能增加被试量，选取不同年龄段的被试进行深入研究。

（3）改善情绪诱导方法。虽然本研究采用的角色扮演诱导式方法优于简单模仿式，但未能保证目标句上有饱满的情绪表达，且衔接不自然。导致四种基本情绪的数据差别不明显。希望日后有机会使用真实性和自然度都更高的自发式语料进行深入研究。

（4）增加声学参数。本研究仅对语音语料进行了时长和基频曲线的特征分析，希望日后能增加对共振峰、频谱、能量等参数的提取和分析，以获得全面的数据。

猜你喜欢

性别差异

不同任务类型中性别差异对外语效应影响的实证研究

初、中级水平汉语学习者的性别差异研究

AdvancedTeachingStrategiesofCollegeEnglishVocabulary

不同性别青年冠心病患者的临床特征及其性别差异

精神分裂症患者临床特征的性别差异

性别差异对TWA的影响

中国缺血性脑卒中急性期抑郁障碍的性别差异

45岁以下急性心肌梗死患者冠状动脉介入治疗预后的性别差异

基于性别差异的汉语情绪语音韵律分析

猜你喜欢

杂志排行

文教资料的其它文章