国产智能手机测试基频的可能性及其影响因素△

2022-09-20孙宇欣姚权KimHaKyung许文飞王文清孙靖雯

听力学及言语疾病杂志 2022年5期

孙宇欣姚权 Kim HaKyung,,4 许文飞王文清孙靖雯

1 华东师范大学教育学部康复科学系(上海 200062); 2 上海市普陀区启星学校; 3 上海市第十人民医院耳鼻咽喉科； 4 上海交通大学医学院附属第九人民医院耳鼻咽喉头颈外科； 5 杭州市杨凌子学校； 6 上海市宝山区培智学校

嗓音功能评估中声学测量是获得嗓音相关指标最流行和最可靠的方法之一。常用的声学分析软件有Praat Dr. Speech多维嗓音分析(MDVP)和计算机化言语实验室(CSL)等。但大多数专业嗓音分析设备较为昂贵，并且难以移动，且由于经济发展存在地域差异，专业的言语治疗师和医院主要分布在一些大城市，部分职业用嗓者以及嗓音障碍患者很难接受到专业的嗓音评估。

随着数字媒体技术的迅猛发展，智能手机能够实现通过无损音频格式对语音信号进行存储，可以扩展智能手机用于数字语音记录的功能。国外的几项研究已经探讨了将智能手机语音记录功能用于嗓音声学分析的可能性，Lin等[1]使用iPhone进行录音并与使用嗓音声学分析设备的结果，如：基频(F0)、基频微扰(jitter)、振幅微扰(shimmer)等进行对比，两者具有高度的相关性，同时iPhone也可以有效地跟踪声带外科手术前后的嗓音变化。Yun等[2]使用Samsung Galaxy智能手机和CSL对30例正常说话者进行声学对比测试，两种设备之间无明显差异。Uloza等[3]比较三星Galaxy Note 3智能手机和麦克风录制的118例受试者(34例正常和84例病理嗓音)的嗓音信号，并分析了F0、jitter、shimmer和归一化噪声能量等，结果显示两种麦克风获取的声学指标有强相关性，在区分正常和病理嗓音时有较高的正确性和较低的错误率。然而，目前使用国产智能手机用于嗓音声学分析的可能性尚未得到检验，因此，本研究选择两种最常用的国产智能手机进行研究，以比jitter和shimmer等变量更稳定的F0作为因变量，分析并探讨国产智能手机测试F0的可能性及其影响因素。

1 资料与方法

1.1研究对象本研究招募38例嗓音正常女性，均来自华东师范大学的本科生或研究生，均自愿参加本研究；年龄19～25岁，平均22.3±2.8岁。入选标准：①身体健康，无吸烟酗酒嗜好，无慢性咽喉疾病病史或其他长期嗓音障碍；②无言语或听力障碍；③测试期间无感冒、发热、咽喉疼痛、上呼吸道感染等症状。本研究通过伦理委员会批准，参与者均签署知情同意书。

1.2测试材料使用两种测试语料进行录音，语料1是以舒适的音调和响度持续发单元音/ɑ/，要求持续5秒以上；语料2是以受试者习惯的音调说句子：“我叫XXX，今年大三啦”。

1.3录音手法在隔声室内用华为 G7 Plus智能手机、Vivo X6智能手机与运行Praat软件的Acer 笔记本电脑 (ES1-421-239N)连接的 Shure-SV100C 动态麦克风(Shure Incorporate, Evanston, IL)同时进行录音，通过Switch Sound Converter For Mac4.94进行音频格式转换。

在背景噪声低于26 dB A的隔声室中完成录音，要求研究对象上半身保持直立放松，两款智能手机和Shure-SV100C动态麦克风平行放置于口前，这三个装置保持2 cm的水平距离;两种智能手机分别被随机放置在三个角度(0°、45°和90°)和四个距离(距口唇5、10、15、20 cm)，而用Praat录音的Shure-SV100C动态麦克风保持在45°角度和距离口唇15 cm以获得标准参考数据。

使用Shure-SV100C动态麦克风录制的语音材料以wave(.wav)格式保存，Praat软件采样频率时44 100 Hz和16 bits。通过智能手机录制的语音材料传述到Acer笔记本电脑中，使用Switch Sound Converter For Mac4.94转换为 .wav格式。每例对象均有24个语音样本(2种语料×4个距离×3个角度)，使用Praat软件分析所有语音信号的F0。

1.4统计学方法采用SPSS16.0进行统计分析。通过四因素重复实验分析设备、语料、距离和角度对于F0测试可能存在的影响；采用3(设备)×2(材料)× 4(距离)× 3(角度)多元方差分析(MANOVA)，检验设备、距离、角度和材料的主效应及其交互效应。必要时，通过LSD (Least-Significant Difference) (none)对两个以上水平的自变量进行两两比较，交互效应采用SIDAK方法进行简单效应检验，P<0.05为差异有统计学意义。

2 结果

不同角度、距离和设备测得的受试者持续元音和句子F0分别见表1和表2。MANOVA结果显示设备、语料、距离和角度主效应均不显著(P>0.05)，交互作用结果无统计学意义(P>0.05)，设备×语料交互作用有统计学意义[F(2,36)=7.016,P=0.003<0.01]，设备×语料交互作用的简单效应试验结果显示，Vivo手机和Praat测得的两种测试语料F0差异均有统计学意义(/a:/：P=0.014<0.05;句子：P=0.028<0.05)。而华为手机与Praat测得的F0差异不显著(P>0.05)。

表1 不同角度、设备、距离测得持续元音/a/的

表2 不同角度、设备、距离测得句子的

3 讨论

本研究结果显示，无论使用哪种智能手机，麦克风距口唇5～20 cm的距离对F0测试无显著影响，更远的距离是否会对录音产生显著影响还有待进一步研究。对于两种智能手机，录音角度的主效应不明显，与角度相关的交互效应均不显著；说明录音角度对华为和Vivo两种智能手机的F0测试无显著影响。Titze(1993)探究了麦克风类型和放置位置对语音扰动测量(如：jitter)的影响，结果表明麦克风的敏感度和具体位置显著影响语音扰动的测试，距离越近越有助于获取更稳定的结果，而距离较远时角度对录音也有一定的影响。此外，不同类型麦克风之间的相位差或许会对扰动算法的提取有显著影响，在本研究中，F0作为因变量，被认为是与录音设备和分析软件相关的一项十分稳定的声学评估指标[4]。以上研究结果仅表明不同软件和系统之间的F0具有高度相关性且具有统计学意义，然而麦克风的放置位置是否会影响F0测量仍待探索。

本研究的语料主效应和交互效应均无统计学意义，表明持续元音/a/和句子作为语料的F0测试结果相似。由于持续元音/a/简单(即独立于语言)和可靠的声学特性被认为是声学测量的合适语料(即反映基本的发声功能)(Henriquez等，2009)。然而持续元音并不代表实时发声，因此在声学分析中也需要加入运动时的言语声，后者与自然发声更为接近[5,6]。本研究结果显示两种语料之间的F0无统计学差异；然而Kim[7]的一项研究表明，18 ～22岁的中国女性在发/a/音和从一篇文章中提取的句子时其F0具有显著差异，表明句子的发音可能会对持续元音有一定影响，此外，Kim使用的句子语料比本研究长，这可能导致声调和音高对F0产生更多的影响。

从文中结果看，Vivo手机与Praat测得的F0差异显著，而华为手机与Praat测得的F0差异不显著，表明不同品牌的手机在录音上存在差异。本研究结果与其他几项研究结果不同，Manfredi等[8]使用两种型号的智能手机(HTC One和 Wiko)，结果发现两者的jitter和shimmer存在高度相关。Uloza等[3]通过比较两种麦克风(oral AKG Perception 220和SP Samsung Galaxy Note 3)的声学指标验证了使用三星Galaxy Note 3麦克风用于自动语音和筛选的适用性。本研究结果仅表明华为G7 Plus和Vivo X6智能手机可用于声学分析的语音录制，这一结果有利于推动临床便携式语音评估的发展。

由此可见，智能手机的放置位置(距口唇的距离和角度)和不同的语料(持续元音/a/和句子)对F0测试无影响；与Praat测试结果相比，Vivo X6手机测得的F0值有显著差异，而华为G7 plus手机测得的F0值无显著差异，提示，智能手机可以作为F0测量的一个便携式设备，但并不是所有类型的手机都适用。当使用华为G7 Plus手机进行F0测试时，录音距离和角度分别为5～20cm和0°～90°；持续元音/a/和句子均可作为评估语料。

本研究的不足在于只使用了华为G7 Plus和Vivo X6两种智能手机，未来可以对在中国热销的多种智能手机进行研究；另一个不足是背景噪声未得到控制，未来应探索背景噪声对智能手机录音可能存在的影响。