说话人模型聚类算法研究与分析

2015-12-16邢玉娟

中国建材科技 2015年5期

谭萍邢玉娟高翔

（兰州文理学院数字媒体学院，甘肃兰州 730000 )

1 引言

说话人识别是生物身份认证技术中的重要分支，主要通过提取说话人语音中的个性特征参数，实现说话人身份的自动识别。支持向量机（Support Vector Machine,SVM）[1]是一种基于统计学习理论的机器学习方法，由于其出色的分类性能，近几年成为话者识别领域研究的热点。高斯混合模型（Gaussian mixture model, GMM）可以有效的描述说话人语音特征分布。将SVM和GMM相结合[2]，在说话人确认领域获得了成功的应用。然而，在说话人识别系统中随着注册人数的增加，语音数据规模急剧变大，GMM的计算复杂度增大，从而导致SVM训练速度变慢，进而影响系统的性能。针对上述问题，本文提出两种新的基于GMM的聚类算法。该算法借助GMM模型对话者语音数据建模，分别依据话者GMM模型间的KL散度和巴氏距离对模型进行聚类，减少SVM训练样本数量，从而达到提高系统识别性能和鲁棒性的目的。

2 说话人GMM模型

GMM模型是一种统计模型,它利用若干个高斯概率密度函数的加权和来近似地描述说话人特征矢量在概率空间的分布。

对于一个D维的输入特征向量X，M 个成员高斯概率密度的加权和表示为：

3 说话人模型聚类

随着说话人识别系统注册人数的增加，采集的语音数据的规模会急剧增大，从而导致GMM计算复杂度变高，进而影响到系统的识别性能。因此，本文提出两种说话人模型聚类算法，以期在保证识别率的情况下支持向量机训练阶段的计算复杂度。

3.1 KL散度聚类

KL散度是一种有效的概率模型差异度量方法[4]，本算法采用说话GMM模型和聚类中心模型()cp 之间的KL散度作为K均值聚类算法的距离度量：

由于在超向量映射中只是对均值向量进行自适应，因此所有话者的GMM具有相同的协方差矩阵和权重向量，则模型间的KL距离可以近似为：

算法2：KL散度聚类算法

1）设定聚类数K，随机指定K个说话人GMM模型为K个聚类的中心模型：用于记录当前类别n中聚类的说话人模型数目；

4）重复执行步骤②和③，直到聚类中心模型不再变化为止。

3.2 巴氏距离聚类

在KL散度聚类中，距离的计算只考虑到了模型的均值向量，在此我们又采用巴氏距离[5]进行模型的聚类，在距离的计算中不仅考虑均值向量，还考虑到协方差的影响。巴氏距离计算公式如下：

对（7）式取近似上限可得：

4）重复执行步骤②和③，直到聚类中心模型不再变化为止。

算法4 支持向量机判决

支持向量机是基于结构风险最小化原则在两类中寻找最优分类边界，在数据分类方面显示了优越的性能，因此本文使用支持向量机获得最终识别结果。使用目标说话人和其他说话人的特征向量进行SVM的训练，得到决策分类函数：

4 仿真实验与分析

4.1 实验语音库

为了对提出的算法性能进行测试，本文针对73个说话人进行文本无关确认仿真实验，实验中支持向量机采用RBF核函数。性能评估的标准为接受错误和拒绝错误的等差率(Equal Error Rate, EER) 和DET (Detection Error Tradeoff)曲线[6]。

实验数据采用自建语音库，其中男性36人，女性37人。语音信号的采用频率为11025Hz、量化位数为16bit。每位话者录制了7个语音段，每个语音段的长度为30s，其中4个语音段用于训练，3个语音段用于测试。在语音的预处理阶段，采用一阶数字滤波器对语音信号预加重，汉明窗宽度为30ms，帧移15ms。对每帧数据提取13维的MFCC及它的一阶差分构成26维输入特征向量。利用Cool Edit中的降噪器工具,清除各种背景杂音。

4.2 实验结果及分析

表1、表2分别为两种聚类算法在不同聚类数目下EER、minDCF和识别时间(Recognition Time, RT)比较。

表1 KL散度聚类算法性能

表2 巴氏距离聚类算法性能

由表1和表2可知：

1) 系统在两种聚类算法下，随着聚类数目的增加，两种算法的EER和minDCF呈降低趋势，表明算法性能越来越好，然而其识别时间反之变长。这主要是因为类别划分越细，训练语音数据也越多，使得系统的识别性能越好。但是由于大量的语音数据，导致GMM和SVM的计算复杂度增加，进而系统识别时间变长。

2) KL散度聚类算法在K=70，K=50，K=35，K=20下的EER分别是7.23%、6.77%、5.49%和4.93%，minDCF分别是0.0695、0.0613、0.0482、0.0419，而在相同条件下，巴氏距离聚类算法的EER分别是6.83%、5.94%、5.26%和4.22%，minDCF分别是0.0617、0.0583、0.0434和0.0392。显然巴氏距离聚类算法的性能优于KL散度聚类算法，证明巴氏距离在计算中不仅考虑均值向量，还考虑到协方差的影响而KL散度的计算只考虑到了模型的均值向量。但是巴氏距离的计算复杂度高于KL散度，因此系统的识别时间较长。

5 结语

针对说话人确认识别率不高及实时性差的问题，在深入研究传统高斯混合模型以及K均值聚类算法的基础上提出两种基于说话人GMM模型的说话人聚类算法： KL散度聚类算法和巴氏距离聚类算法。借助于话者GMM模型的聚类，减少支持向量机训练阶段的数据量，提高系统的识别速度和性能。仿真实验验证了这两种聚类算法的有效性。

[1]Haiyan Yang,Xinxing Jing, Ping Zhou.Application of Speaker Recognition Based on LSSVM and GMM Mixture Model[J].Information Technology Journal;2012,11(7)：799-803

[2]Lai Y.-X.,Lai C.-F.,Huang,Y.-M,Chao H.-C.Multi-appliance recognition system with hybrid SVM/GMM classifier in ubiquitous smart home[J]. Information Sciences;2013,230(1)：39-55

[3]Fujimoto,M.,Riki,Y.A.Robust speech recognition in additive and channel noise environments using GMM and EM algorithm[C].Acoustics, Speech, and Signal Processing 2004：I-941-944

[4]Lei Zhen-chun.Combining the Likelihood and the Kullback-Leibler Distance in Estimating the Universal Background Model for Speaker Verification Using SVM[C].2010 20th International Conference on Pattern Recognition, ICPR2010,2010,pages：4553-4556

[5]Chang Huai You,Kong Aik Lee,Haizhou Li.GMM-SVM Kernel With a Bhattacharyya-Based Distance for Speaker Recognition [J].Audio, Speech,and Language Processing,2010;18(6)：1300-1312

[6]刘祥楼,李辉,吴香艳,高丙坤. 基于SQLite技术的汉语语音识别数据库的建立[J].科学技术与工程,2011;11(14)：3326-3330