智能手机录制对嗓音声学测量的影响

2019-02-27王家应KIMHaKyung杨金梅高少华

中国听力语言康复科学杂志 2019年6期

王家应 KIM HaKyung 杨金梅高少华

近年来，智能手机作为现代化技术手段之一，已具备储存无损格式音频的功能，加之携带方便，在诸多领域被广泛使用，如在个人康复治疗与健康管理领域，智能手机APP在耳鸣康复治疗中开始普及[1]，对术后鼻内镜患者进行健康指导，实施动态管理，协助患者在家中进行健康监测和提醒用药[2]，弥补了传统医疗模式受时间和空间限制的缺陷。尽管我国智能手机的丰富功能已被应用于个人健康管理中，但在嗓音保护方面还未涉及。

嗓音障碍是耳鼻咽喉科常见的疾病，发病率逐年上升，患者中很大一部分人是职业用嗓者，如教师、歌手、销售人员等，该疾病严重影响了他们的生活质量。调查发现，常见的嗓音疾病有声带充血、声带水肿、声带息肉、声带粘膜下出血、咽喉充血、悬雍垂水肿、声带闭合不良、声带软性膨出等[3]。嗓音疾病不但发生率较高，且种类复杂。本研究以智能手机为嗓音音频录制设备，采用标准声学分析软件Praat与Dr.Speech分别对不同录制手段下的嗓音参数声学特征进行分析，以期寻求一种便捷经济、简单易行的嗓音障碍预防与评估手段。

1 资料与方法

1.1 研究对象

选取上海市某高校30名在校大学生为研究对象，年龄21～27岁，平均年龄23.5±1.5岁，男女各15名。经两名专家检查，所有研究对象均无听觉、言语及认知障碍史，嗓音音频录制期间无感冒症状，无慢性喉病或其他长期嗓音问题。

1.2 嗓音音频测试方法

采用国产智能手机（操作系统EMUI 3.1，基于Android5.1；CPU频率为1.5 GHz）录制被试嗓音音频，录制环境噪声≤35 dB SPL。嗓音音频录制方法：（1）编制研究对象《嗓音音频自主录制指导说明》进行自主录制：在保证舒适的前提下，保持坐姿端正；把智能手机扬声器放置于与嘴巴同一条水平线上；嘴巴与手机的距离保持约10 cm(约一个拳头的距离）[4]；以平时说话舒适的声音平稳地发/a/音，持续3～5秒[5]；（2）言语治疗师辅助被试录制嗓音音频，保证被试坐姿、手机与嘴巴的角度、手机与嘴巴的距离等均正确。分别保存两类Mp3嗓音音频样本。

采用声学分析软件Praat与Dr.Speech分析嗓音参数声学特征。采用语音采集软件Sound Forge9.0将保存的Mp3嗓音音频样本转换成“*.wav”格式语音信号，输出采样频率设置为44100 Hz，16 bit。对同一平稳段的“*.wav”格式语音信号进行分析，分别提取F0、Jitter、Shimmer、HNR 4个基本嗓音参数声学指标。

1.3 统计分析

使用SPSS 22.0对数据进行统计分析。采用单因素重复测量实验分析录制手段对嗓音参数声学特征的影响，其中自变量为自主录制与辅助录制两个水平；因变量分别为F0、Jitter、Shimmer、HNR。P＜0.05时差异具有统计学意义。

2 结果

2.1 不同制手段对嗓音参数声学特征的影响

2.1.1 基于Praat软件的嗓音参数声学特征分析结果采用Praat分析不同录制手段下的嗓音参数声学特征见表1。自主录制与辅助录制下，F0、Jitter、Shimmer、HNR均无统计学意义上的显著性差异（P＞0.05）。基于Praat软件分析结果，不同录制手段下嗓音参数声学特征均无显著差异。

2.1.2 基于Dr.Speech软件的嗓音参数声学特征分析结果采用Dr.Speech分析不同录制手段下的嗓音参数声学特征见表1。自主录制与辅助录制下，F0、Jitter、Shimmer、HNR均无统计学意义上的显著性差异（P＞0.05）。基于Dr.Speech软件分析结果，不同录制手段下嗓音参数声学特征均无显著差异。

2.2 自主录制手段下不同声学分析软件嗓音参数声学特征的相关性分析

为进一步探讨自主录制手段下Praat 与Dr.Speech声学分析软件是否能够提供相似的嗓音参数声学特征分析结果，对F0、Jitter、Shimmer、HNR进行了相关性分析，结果见表2。自主录制手段下，Praat与Dr.Speech的F0、Jitter、Shimmer、HNR呈极显著相关（P＜0.01）。综上，自主录制手段下，Praat与Dr.Speech声学分析软件能够提供相似的嗓音参数声学特征分析结果。

3 讨论

F0是声带周期性振动的频率，指一秒钟内声带振动的次数，反映声带的发育、成熟以及老化的生理过程，受声带长度、张力等影响，是嗓音评估中最基本的声学参数[6]。Jitter指声带每个振动周期之间频率变化的微小扰动，与对声带局部的控制能力相关，控制能力越好，声带振动时稳定性就越好[7]。Shimmer指声带每个周期之间振幅变化的微小扰动，与声带振动的稳定性与规律性有关[8]。HNR指嗓音中谐音成分与噪声成分的能量比例，HNR数值越高，说明嗓音中的谐音成分占据主导地位，HNR数值越低，说明嗓音中存在过多的噪音成分[8]。

国外已有研究分析了智能手机与声学客观测量工具在基本嗓音参数声学特征上的差异性及相关性，如Lin等[9]使用iPhone手机录制患者嗓音音频，验证了智能手机用于嗓音参数声学特征分析的可行性；Jin等[10]使用三星Galaxy智能手机和CSL声学分析软件对比分析嗓音正常人群基频（F0）、振幅微扰(Shimmer)等参数的声学特征，发现两种设备录制的嗓音音频在这些声学参数上无统计学意义上的显著性差异。Oliveira[11]的研究更为全面，发现iPhone手机与标准电脑录音系统在平均基频（MF0）、最大基频（MaxF0）、最小基频（MinF0）、Jitter、Shimmer、SNR、谐噪比（HNR）等较多嗓音参数声学特征上皆无统计学意义上的显著差异。国内该方面的研究相对缺乏，只有陈飞帆等[12]基于安卓平台研发了一款嗓音管理APP，但其重点是用于嗓音的监测，且发现HNR值的偏差仍有待提高。

表1 不同录制手段下Praat与Dr. Speech声学参数（±s）

注：1研究对象自主录制嗓音音频，2言语治疗师辅助录制嗓音音频

参数 Praat t P Dr. Speech t P自主录制1 辅助录制2 自主录制1 辅助录制2 F0（Hz） 183.20±58.40 179.24±57.88 0.84 0.41 189.43±60.86 182.56±59.91 1.60 0.12 Jitter（%） 0.38±0.17 0.38±0.12 0.09 0.93 0.29±0.14 0.27±0.11 0.84 0.41 Shimmer(%) 4.69±2.84 4.51±3.07 0.46 0.65 3.23±1.82 3.03±1.95 0.71 0.48 HNR(dB) 18.70±4.12 18.76±3.95 -0.12 0.90 20.56±4.61 20.32±3.89 0.41 0.69

表2 自主录制下不同软件声学参数相关性分析

本研究结果显示，F0均无统计学意义上的显著差异，说明自主录制的嗓音音频能够很好的反映患者声带组织的张力、成熟及老化等生理状况；Jitter和Shimmer均无显著性差异，说明自主录制的嗓音音频能够客观地反映声带振动时的稳定性与规律性。嗓音客观测量中，Jitter与Shimmer是最基本的声学参数，用来反映嗓音质量的特异性[13]，因此，Jitter与Shimmer能够帮助临床医生诊断声带病变，甚至可以预测后期的嗓音改变，同时还能区分声带是否长有息肉[14]。当声带发生病变后，声带振动时的稳定性与规律性遭到破坏，声带局部控制能力受到影响，嗓音音频信号发生紊乱。患者若出现嗓音不适症状，可自主录制嗓音音频，通过电子邮件发送给耳鼻喉科医生或言语治疗师进行嗓音参数声学特征分析，进而适时提供健康护嗓指导意见。HNR均无显著性差异，说明自主嗓音录制能够敏感地反映其声带振动时的嘶哑程度。HNR数值越低，嗓音中噪音成分越多。噪音成分与声带闭合程度有关，声门闭合越好，通过声门溢出的气流就越少，噪音越小，反之，噪音越大。因此，HNR对声音嘶哑程度的敏感性高[15]。如前文所述，教师、歌唱者等职业用嗓者使用嗓音的频率远远高于普通人群，嗓音疾病发生率很高，嗓音疲劳、嘶哑、声带闭合不良、声带充血等症状严重影响其生活质量。以教师为例，其教学任务繁重，出现嗓音不适症状，也未必有时间及时去医院检查。通过本研究结果，嗓音障碍者能够充分利用智能手机无损格式音频储存、发送等功能，高效经济实现嗓音管理。

本研究结果显示，自主录制手段下P r a a t 与Dr.Speech两类声学分析软件在F0呈极显著相关，这与González等[16]研究结果相同，其通过重测程序发现同一被试间F0有高度的稳定性，在所选声学参数中位居第一；Praat与Dr.Speech的HNR呈极显著相关，Ferrand等[17]研究也发现青年组、中年组的HNR都非常稳定，Ambreen等[18]在21～50岁研究对象组得出相同的研究结论；Praat与Dr.Speech的Jitter，Shimmer呈极显著高度相关，Jitter的相关性低于Shimmer。有研究者指出，尽管F0的相关性很高，但Jitter与Shimmer的相关性仍然相对较低，其中Jitter表现更为明显[19]；Shimmer的相关性高于Jitter，是因为Jitter更多依赖于波限的精确位置，这种波限位置即使产生极小的误差，嗓音音频也会出现很多噪音，这对Jitter的测量影响很大，但对Shimmer的测量影响较小[20]。González等[16]研究也发现，同一被试间F0稳定性很高的情况下，Jitter与Shimmer的稳定性只是在可接受的范围内，且Jitter不如Shimmer稳定。

综上，以国产智能手机为嗓音音频录制设备，采用Praat与Dr.Speech声学分析软件分别提取不同录制手段下的F0、Jitter、Shimmer、HNR，统计分析发现均无显著性差异，且自主录制手段下两类声学分析软件能够提供相似的嗓音参数声学特征分析结果，这给嗓音障碍的监测与评估提供以下几点启示：首先，充分利用国产智能手机无损格式音频储存与发送等功能，开发智能手机嗓音评估软件，让用户自主录制嗓音音频，再通过电子邮件发送给耳鼻喉科医生或言语治疗师，节约嗓音评估时间；其次，Dr.Speech是目前嗓音障碍评估的主要设备之一，该设备在经济发达城市的大医院或语音实验室才具备，评估费用昂贵且不易携带，相反，Praat是一款免费开放式的嗓音评估软件，一方面，即使是在经济发达城市的大医院，患者也可选择在家或工作单位等地方自主录制嗓音音频，通过电子邮件发送给医生或言语治疗师，再选择费用相对低廉经济的Praat进行嗓音分析，减轻家庭负担，另一方面，在不具备Dr.Speech评估设备的经济发展水平落后地区，同样也可通过患者自主录制嗓音音频，再直接采用Praat进行嗓音监测与评估，提高患者生活质量；再次，如患者因家庭、工作等原因迁至其他城市居住，其之前的嗓音障碍评估报告可直接提供参考，甚至可不用再次进行评估，节约治疗费用。本研究中嗓音录制的距离与角度只有一个，因此，后续研究应加入更多的距离与角度，多维度比较不同录制手段下嗓音参数声学特征间的关系。