基于气息音的嗓音分类研究

2022-02-12刘阳李进让

中国听力语言康复科学杂志 2022年1期

刘阳李进让

1 引言

嗓音客观声学评估是嗓音医学中重要的评估手段，具有经济、高效、无侵入的特点，患者舒适度高，在临床中被广泛使用。通过嗓音声学评估分析，可发掘出人耳主观辨识难以觉察的特性，弥补主观听感觉评估的不足。在严格控制测试流程时，声学评估可降低人为因素的影响，对发音人的发音状况进行客观评估，测试结果更加稳定可靠。因此,不论是治疗前全面了解患者嗓音状况，还是治疗前后疗效对比，客观声学评估都有显著的临床意义。尽管客观嗓音声学评估已使用多年，但目前的参数特征在区分各类嗓音疾病时仍存在一定困难。常规使用的嗓音参数特征难以与人耳主观听感觉评估结果建立直接的对应关系。如何使客观声学评估结果与主观听感觉评估结果相一致，甚至直接依靠客观声学评估结果对嗓音疾病类型进行诊断是学者研究探索的重点之一[1～3]。气息音（breathiness）是发声时气流通过声门时产生的声音，可以反映声门的闭合状况。在部分语言中，一定程度的气息音具有区分语义的作用。但当声门闭合受嗓音疾病影响时，发声气化程度明显过大，从而影响嗓音音质，因此，气息声是嗓音音质评估中的一个重要特征。在嗓音的主客观研究中，均十分重视对气息音的评估。常用的主观听感觉评估法，不论是GRBAS评估法（the overall dysphonia grade, roughness, breathiness, asthenia and strain，GRBAS scale）[4]还是听觉一致性感知评估（嗓音）法（the consensus auditory perceptual evaluation-voice，CAPE-V scale）[5]，气息音均是其中重要的一项。通过客观方式识别量化气息音的研究亦开展多年，第一谐波和第二谐波的振幅差（H1-H2）、第一谐波和第一共振峰的振幅差（H1-A1）、第一谐波和第三共振峰的振幅差（H1-A3）、倒谱峰突出（cepstral peak prominence，CPP）可用于反映嗓音中的气息音成分[6，7]。本文以气息音为特征，对嗓音疾病进行分类预测。

2 对象和方法

2.1 研究对象

从我院嗓音声学评估受试者中随机抽取4组进行本研究，分别为声带麻痹患者、器质性嗓音疾病患者（以声带息肉患者为主）、功能性嗓音疾病患者（以声嘶、肌紧张性发声障碍为主）及正常受试者各30人。所有受试者均经过喉镜检测，由专业医师进行诊断。

2.2 研究方法

2.2.1 录音所有录音、测试过程均在安静室内完成。采用DiVAS嗓音分析系统进行语音信号录制。测试时受试者维持坐姿，采用发卡式标准化麦克风采集音频信号，为降低近讲效应影响，换能器置于口唇约30 cm处。软件默认采样率为20 kHz。所有受试者均需按引导指令持续发元音/a/3～5秒。

2.2.2 数据处理从每位受试者的持续元音/a/录音中，去除头尾各0.25秒，以100毫秒为一帧，随机抽取20帧，每帧保存为一个语音片段，并标记为原始录音对应的疾病类型。使用voice sauce语音分析软件对抽取后的所有语音片段进行分析。提取H1-H2、H1-A1、H1-A3、CPP数值。对抽取出的数据进行人工复核，剔除异常数据。清洗后的所有数据包括功能性嗓音疾病组689个，器质性疾病组496个，声带麻痹组602个，正常组521个，各组整体规模相近。对每段语音片段的特征值序列求取均值。将所有数据合并为一个数据集。

2.3 统计分析方法

采用scikit-learn软件机器学习库中的随机森林分类法对数据进行处理，建立分类器模型。对集中的有效数据进行随机分割，70%用于建立训练模型，30%用于验证模型的准确率。分类器模型中的决策树规模分别为100棵和200棵，分别采用单一特征和组合特征建立模型并检验模型的准确性。

3 结果

在不同决策树规模下，分别使用单一特征（H1-H2，H1-A1，H1-A3，CPP）和组合特征（H1-H2 & H1-A1 & H1-A3 & CPP）建立分类器模型，如表1所示。

表1 单一特征和组合特征vs 不同决策树规模的正确率（%）

决策树规模为100棵时，随机森林分类模型对4类不同类型嗓音音质的分类预测整体准确率为70.99%，200棵时分类预测整体准确率为71.14%，提升决策树数量时，整体效益相近。不论何种决策树规模，模型的分类效果均较好。如图1混淆矩阵图所示，正常嗓音组预测结果准确率高达87%，对不同类型疾病组的分类预测准确率亦接近70%。

图1 以气息音为特征的4种嗓音分类混淆矩阵

组合特征H1-H2、H1-A1、H1-A3、CPP在分类过程中的重要性如表2所示。

表2 特征重要性

4 讨论

在声带振动周期中，由于声门间存在缝隙，从而导致气息音的产生。造成气息音的因素包括：（1）声带前段内收不完全；（2）声门后端功能不全时，在正常声门闭合周期后会继发声门关闭不全，从而产生气息音，如外展型痉挛性发声障碍/肌紧张性发声障碍、声带麻痹等；（3）当存在组织结构缺失、机械张力或肌张力不足时，可导致声带沟或弓形声带，在最大声门关闭期，声带间形成棱型缝隙，从而产生气息音；（4）声带存在损伤时，可能会出现各种情况的声门裂隙；（5）两侧声带振动相位不一致时[8]。

在对嗓音特征的研究中，气息音是非常重要的特征，多项研究显示，H1-H2、H1-A1、H1-A2、H1-A3、CPP可用于量化反映嗓音中的气息音成分[6，7，9]。H1-H2是第一谐波和第二谐波的振幅差，是由Bickley1982年首先引入语音学研究中[6]，其反映了开放商的大小，H1-H2越大，开放商越大[7,10]，可感知的气息音也越大[11]。当H1-H2＞12.5 dB时，气息音十分明显；H1-H2介于8.3～12.5 dB时，嗓音表现为中度气息音；H1-H2介于6.7～8.3 dB时，表现为轻度气息音；H1-H2介于0～6.7 dB时，没有气息音[6]。通常情况下，嗓音信号的气化程度越高，频谱向上倾斜的程度就越高，即H1＞H2；当H1＜H2时，频谱向下倾斜程度较高，嗓音呈现为嘎裂音；正常嗓音的频谱倾斜程度在两者之间。第一谐波的振幅相对频谱中其它部分的变化可以很容易被感知。H1-H2的辨别差很小，仅需要3.18 dB就可以显现出被识别的差异[12]。 Samlan等[9]通过计算机模拟分析认为，声带突间距在1.0～1.5 mm时，H1-H2与之正相关，大于1.5 mm时则呈负相关[8]。通过H1-H2可以大致判断气息音的严重程度[6]。 Smith等[13]使用声带双质量模型模拟喉上神经和喉返神经麻痹的实验中，声带麻痹组的H1-H2高于健康组，说明H1-H2可以用于区分声带麻痹和健康嗓音。

H1-A1反映了声带后部的开合情况[14]。H1-A3可以更好地区分气息音和正常发声[15]。嗓音信号中谐波成分被掩蔽的程度越多，气息音越明显。气息音明显的嗓音信号，其高频谐波被掩蔽的较多，这与H1-A3越高，气息音越明显相一致。

倒谱峰突出（CPP）是一种用于评估谐波峰值规律性的技术，规律的高振幅谐波比不规则的低振幅谐波产生更高的CPP。不完全闭合的声门处产生湍流，从而产生2～3 kHz噪声，改变嗓音的频谱分布。因此，当嗓音障碍导致谐波能量发生变化时，CPP可以很好地捕捉嗓音中谐波能量的相对振幅。通常情况下，CPP会随声带突距离的增加而降低[8]。

通过临床观察发现，本研究采用嗓音类型分类方法，气息音程度存在一定差异，但尚未有理论研究证实。因此，如果本研究可以获得较高的分类准确性，则证明气息音可以作为此种分类方法的分类特征。本研究结果显示，通过H1-H2、H1-A1、H1-A3、CPP可以获得较高的分类准确率，证明通过气息音可以对功能性嗓音疾病、器质性嗓音疾病、声带麻痹和正常嗓音进行区分。

随机森林是一种常用的机器学习算法，其本质是随机构建立无关联的决策树。训练过程中，每棵决策树根据基尼系数最小原则，彼此独立地对样本进行建模。当新的样本进入随机森林后，其结果由所有决策树投票产生。与传统统计学分析方法相比，随机森林更关注分类的结果，而不是分类的过程。在随机森林建模过程中，决策树的规模对模型的准确率有较大影响。通常在合理范围内，决策树数量越多，模型准确率越高，当决策树数量达到饱和时，决策树数量变化对结果的影响变小。本研究决策树数量由100上升到200时，组合特征组的准确率微小升高，单一特征组无变化，说明模型中的决策树数量已经饱和，决策树的数量对结果影响不大，影响结果的因素是特征类型。

本研究采用的4个特征在辨别气息音时哪个特征更有效一直存在争论。H1-A3对气息音的辨别更有效[15]；在识别嗓音障碍时，倒谱峰突出比其他声学测量更敏感，特异性更高[16]。本研究中，当决策树数量处于饱和状态时，分类器的表现如表1所示，使用单一特征时，CPP的分类效果最佳，约为38%；使用多特征组合时，CPP的特征重要性系数为28.06%，为4个特征中的第一位，这与Heman-Ackah的观点[16]似乎更一致。整体上说，不论是采用单一特征还是多特征组合形式，H1-H2、H1-A1、H1-A3、CPP在分类过程中的表现差异并不明显。

常规的嗓音声学分析中，常用方法是对持续元音中的稳定段进行分析，手动选取稳定段中时程约1秒的嗓音音频文件，对其进行时阈、频域、扰动等特征测量。该方法对算力要求低，易操作，测量结果为时程约1秒嗓音信号的平均值。通常情况下，成年男性基频大于100 Hz，女性和儿童更高，常规方法获得的平均值代表了至少100个嗓音周期。病理嗓音状态下，嗓音信号特征的变异度增大，采用常规方式获得的特征值细节信息丢失较多，只能描述该特征的大体轮廓，不能很好的体现其变异状况。故本文借鉴图像信息处理中的常用技巧对语音段落进行细致分割，使每个语音片段的时程远小于1秒，但又远大于一个嗓音周期，从而获得相对精细且可靠的特征信息。

本文限于嗓音疾病病理学的进展，仅选取了4种不同类型的嗓音音质类型进行分析。待有更多的理论基础支持时，应进行更细致的嗓音疾病分类研究。