一种改进型的MEL滤波器混合特征参数提取方法研究*

2014-02-09陆安江张正平

通信技术 2014年12期

关键词：计算精度特征参数识别率

黄锐,陆安江,张正平

(贵州大学大数据与信息工程学院,贵州贵阳550025)

一种改进型的MEL滤波器混合特征参数提取方法研究*

黄锐,陆安江,张正平

(贵州大学大数据与信息工程学院,贵州贵阳550025)

由于在说话人识别中梅尔频率滤波器组结构分布不均匀,在低频区域分布密集而在中心频率、高频率分布稀疏,影响了在中、高频段的MEL倒谱系数(MFCC)的提取,本文提出适用于说话人识别的改进MEL滤波器与MidMel滤波器相结合得到两种混合特征参数,用此方式来提高中、高频率特征参数提取的精度,从而提高系统识别率。实验结果显示,在同一环境中,新的混合特征参数识别率与识别性能优于传统的特征参数,且运算量较少。

说话人识别梅尔频率滤波器 MidMel滤波器 MEL倒谱系数

0 引言

说话人识别是指根据说话人所发出的语言信号来鉴定此人的真实身份或确定他所宣称的身份与他的真实身份是否符合。怎样确切的判别某个人的身份,并保护其信息安全已经成为现今社会的一个焦点问题。利用人的生理特征识别身份的技术利用其优点可以在将来代替钥匙、密码等传统技术。现今,可以通过计算机把语音信号建模,然后与说话人的声音进行匹配,最后得到识别结果。因此,如何提高其识别率,怎样提取更好的语音特征参数就成为了一个重要的课题[1]。

当前,常见的特征参数包括线性预测系数(LinearPrediction Cepstral Coefficent,LPCC)、梅尔倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)[2]。最近,有学者提出了将各个说话人特征参数组合来提高识别率的新方法,并有研究表明高频部分含有大量表征说话人个性的信息。用语音信号4 kHz～10 kHz的特征参数与0～4 kHz频率范围的特征参数做说话人识别的结果可以达到一致,并且发现在500 Hz～2 kHz也包括说话人的重要信息[3]。sandipan等[4]人

对MFCC进行了改进,对MFCC没有侧重的高频部分用IMFCC(对MFCC滤波器进行翻转滤波)与MFCC结合得到新的混合特征参数,在一定程度上提高了识别率;文献[5]提出用fisher准则来结合傅里叶分析和小波分析构造出来的混合特征参数;文献[6]用MFCC于IMFCC结合提取出的混合特征参数再用fisher准则择优降维,得到新的特征参数提高了识别率,但其并没有考虑到中心频率的重要性;文献[7]采用MFCC、IMFCC、MID-MFCC结合的混合特征参数,但其过程较复杂。

本文首先计算MidMFCC参数,然后再计算改进的MEL滤波器。后者在低、高频有较好的分辨率,再结合MidMFCC参数,组成一种新的混合特征参数。

1 语音特征参数提取

1.1 Mel倒谱系数的提取

梅尔倒谱系数(MFCC)采用Mel滤波器,它在低频部分分辨率高而忽略了高频部分,它把语音信号的线性频谱转化为Mel频标的非线性谱,再将其置换至倒谱域。两种坐标的变换关系如式(1)。

提取MFCC参数的过程:

1)把语音原始信号预处理加窗后变成短时信号,然后用快速傅里叶变换(Fast Fourier Transform, FFT)把其变换为频域信号,并算出其短时能量谱。

2)将短时能量谱用Mel滤波器进行滤波,从而得到滤波系数。

3)对得到的滤波系数根据式(2)进行余弦变换,将信号映射到低维空间从而得到特征参数。

式中,(m)表示MFCC第m维特征参S(n)表示滤波器系数,M表示滤波器的阶数。

图1 Mel尺度变换关系Fig.1 Mel scale variation relations

图2 Mel滤波器组分布Fig.2 Mel-filterbank distribution

由图2可以看出,滤波器在低频上较密集,而在中、高频上较稀疏,这样就漏掉了很多有用的说话人个性特征参数。因此,提高MEL滤波器在中、高频的分辨率,从而提高识别率。

1.2 改进的MFCC

在MFCC特征参数中,侧重说话人低频部分,对中、高频计算精度教低,提取的特征参数不能更好的表征说话人的语音特征。

为了使提取出来的特征参数包含更多的说话人个性特征和降低计算的难度,设计出改进的Mel滤波器组,用以改进其在中、高频段特征参数计算精度,其模型如图3所示。

图3 改进的Mel滤波器组分布Fig.3 Modified Mel-frequency filter

改进的滤波器组在低于0～3 000 Hz的频率范围内与Mel滤波器组是相同的;在3 000 Hz～4 000 Hz的频率范围,是基于反Mel刻度变换得到的。它是在Mel刻度变换的基础上改进提出来的,反Mel刻度的物理变换关系式如式(3)所示。

反Mel滤波器的带宽会根据频率的增大而逐渐减小,所以在高频部分分辨率较大,它的结构特点与Mel滤波器刚好相反。

图4 IMFCC尺度变换曲线Fig.4 IMFCC scale variation curve

因此,反Mel滤波器组提取出的特征参数能够更好的表征高频部分说话人个性特征信息。反Mel变换关系如图4所示。

1.3 MidMFCC的提取

在参数提取过程中,刻度的转换关系主要体现在滤波器组的分布情况上,而由图3可以看出,在改进的MFCC参数中,滤波器主要集中在低频和高频的部分;而MidMFCC参数,滤波器在中心频率部分比较密集,而在低频和高频部分比较稀疏。MidMFCC的提取过程与MFCC的提取过程一致,MidMel刻度与Hz刻度的转换关系如式(4)所示。

MidMFcc变换关系如图5所示。

图5 MidMel尺度变换曲线Fig.5 MidMel scale variation curve

图6 MidMel滤波器组分布Fig.6 MidMel-filterbank distribution

用Mel滤波器组与反Mel滤波器组结合得到的特征参数,再与MidMel滤波器组得到的特征参数结合,从而得到新的混合特征参数。它在低频部分与Mel滤波器组的特点相同,在中频部分与MidMel滤波器组特点相同,而在高频部分具有反Mel滤波器组的特点。让改进的滤波器与Mel滤波器类似,并且符合人耳的听觉特性,在低、高频同时具有较高的分辨率,其特征参数的维数不变,并且不会增加特征参数的提取时间。

用改进的Mel滤波器提取新的特征参数的步骤与MFCC特征参数的提取相同,只是把Mel滤波器换成改进的Mel滤波器,然后与MidMel滤波器得到的特征参数结合得到新的特征参数。

2 实验分析

说话人识别主要分为孤立词说话人识别、连接词说话人识别和连续说话人识别。孤立词说话人识别中是把其中的词语当成一个整体来识别;连接词说话人识别一般是针对数字串进行识别;而连续说话人识别比较复杂,它针对说话人日常生活中随意所说的话来进行模式识别。本文主要从数字串的识别(连接词语音识别)进行判定,得到系统识别率,然后与传统MFCC参数的识别率做对比。

2.1 试验

实验在MatlabR2010a环境下进行,采用了8 KHz采样率、16 bits量化,每帧32 ms(约256点),帧移16 ms,并利用汉明窗进行短时分析,创建了从1～9的9个阿拉伯数字串的语音库,每个数字串用15个不同的人(11男4女),每人对9个数字串发音4遍并录制,对录制的样本信息先采用双门限端点检测法,去掉冗余。选取其中360个作为测试样本,其余的作为语音的训练样本。其中一组使用12阶Mel滤波器组得到MFCC特征参数;另外一组使用改进的Mel滤波器得到改进的MFCC参数和MidMFCC参数结合的混合参数。这样得到的混合特征参数就平均包含了整个说话人语音频域,增加了低、中、高频段倒谱系数的计算精度。然后分别对测试样本中的数据提取的MFCC系数序列矩阵和混合特征系数序列矩阵,按照图7的流程步骤实现说话人识别系统,其中改进的过程只在特征参数提取上有所不同。

图7 总流程Fig.7 Total flow chart

本文采用基于VQ[8]的说话人识别系统对两种系数矩阵进行训练,分析结果。实验采用5交叉验证(5 Cross-validation)的方法进行评判得到最后的识别率,即把5次得到的整体结果进行计算得到最后的识别结果,每一次的模型总数为20个,以识别正确或错误来表征识别率,其识别率如表1所示。

表1 不同特征参数的识别结果Table1 Identification results of different characteristic parameters

从表2的结果可以看出,对于相同的说话人语音样本,在相同的环境下改进后的MFCC混合特征参数比传统的MFCC特征参数最后的识别率得到了提高。

表2 不同特征参数的识别率Table 2 Identification rate of different characteristic parameters

在试验中还发现,用MFCC提取特征参数识别女性的误识个数多,这是因为女性的声音频率比男性的高,而Mel滤波器则是在低频部分精度高,忽略了高频部分的说话人特征参数。而改进后得到的参数却弥补了这一不足,更好的提高了计算精度。

3 结语

本文针对MFCC特征参数在说话人语音信号的低频部分有良好的计算精度,而忽略了中、高频说话人语音信号的计算精度。提出了采用MidMFCC与改进的Mel滤波器相结合的算法。实验结果表明,在相同环境下,改进的算法与经典的算法相比较识别率有了一定程度的提高。下一步的工作,将继续优化改进算法,对提取出的特征参数进行择优选择,提高识别的速度和效率。

[1] 张晓俊,陶智,吴迪,肖仲喆,赵鹤鸣.采用多特征组合优化的语音特征参数研究[J].通信技术,2012,45 (12):98-101.

ZHANG Xiao-jun,TAO Zhi,WU Di,XIAO Zhong-zhe, ZHAO He-ming.Study of Speech Chara-cteristic Parameters by Optimized Multifeature Combination[J].Communications Technology,2012,45(12):98-101.

[2] DAVIS S B,MERMELSTEIN P.Comparison ofparametric repre-sentations for monosy-llabic word recognition in continuously spoken sentences[J].IEEE Transactins on Acoustics,Speech and Signal Process-ing,1980,28 (04):357-365.

[3] 项要杰,杨俊安,李晋徽,陆俊.一种适用于说话人识别的改进Mel滤波器[J].计算机工程,2013(11):214 -218.

XIANG Yao-jie,YANG Jun-an,LI Jin-hui,LUJun.An Improved Mel-Frequency Filter fo-r Speaker Recognition [J].Computer Engin-eering,2013(11):214-218.

[4] SANDIPAN C,ANINDYAR,SOURAV M.Captur-ing complementaly information via reve-rsed filter bank and parallel implement-ation with MFCC for improved text-indep-endent speaker identification[C]//Proc-eedings of the 2007 International Confe-rence on Computing:Theory and Applicati-on.Piscataway:IEEE,2007:463-467.

[5] 汪峥,连翰,王建军.说话人识别中特征参数提取的一种新方法[J].复旦学报(自然科学版),2005,44 (01):197-200.

WANG Zheng,LIAN Han,WANG Jian-jun.App-lication of a New Mixed Feature in Spea-ker Identification [J].Journal of Fudan University(Natural Science), 2005,44(01):197-200.

[6] 胡峰松,张璇.基于梅尔频率倒谱系数与翻转梅尔频率倒谱系数的说话人识别方法[J].计算机应用, 2012,32(09):2542-2545.

HU Feng-song,ZHANG Xuan.Speaker Recognition Method based on Mel-Frequency Cepstrum Coefficient and Inverted Mel-Frequency Cepstrum Coefficient[J].Journal of-Computer Applications,2012,32(9):2542-2544.

[7] 鲜晓东,樊宇星.基于Fisher比的梅尔倒谱系数混合特征提取方法[J].计算机应用,2014,34(02):558-561.

XIAN Xiao-dong,FAN Yu-xing.Parameter Extraction Method for Mel-Frequency Cep-stralCoefficients based on Fisher Criterion[J].Journal of Computer Applications, 2014,34(2):558-561.

[8] YANG Hai-Yan,JING Xin-Xing.Perfor-mance Test of Parameters for Speaker Recognition System based on SVM -VQ[C]//2012 International Conference on Machine Learning and Cybernetic-s(ICMLC),Xian:IEEE,2012: 321-325.

黄锐(1990—),男,硕士,主要研究方向为语音识别;

HUANG Rui(1990-),male,M.Sci.,majoring in voice recognition.

陆安江(1978—),男,博士研究生,讲师,主要研究方向为传感器技术;

LU An-jiang(1978-),male,doctoral postgraduate,majoring in sensor technology.

张正平(1964—),男,博士生导师,教授,主要研究方向为通信新技术。

ZHANG Zheng-ping(1978-),male,doctoral tutor,majoring in the new technology of communication.

A M odified M ixture Feature Param eter Extraction
M ethod of M el-Frequency Filter

HUANG Rui,LU An-jiang,ZHANG Zheng-ping
(School of Big Data and Information Engineering,Guizhou University,Guiyang Guizhou 550025,China)

The nonuniform distribution ofmel-filterbank structure in speaker recognition,that is,too intensive in low frequency region while too sparse in high frequency andmid-frequency region,would affect the extraction of MFCC in mid-frequency and high frequency.In light of this,the paper proposes amethod to extract the twomixed feature parameters by combining Mel-filterbank and MidMel-filterbank,thismethod applicable to speaker recognition system could improve the accuracy ofmedium and high frequency feature parameters extraction and thus upgrade the system recognition rate.Experimental results indicate that the recognition rate and recognition performance of the novelmixed parameters is superior to that of traditional characteristic parameters,and moreover,with less computational complexity.

speaker recognition;Mel-filterbank;MidMel-filterbank;Mel-frequency Cepstral Coefficient(MFCC)

TN912.34

1002-0802(2014)12-1388-04

10.3969/j.issn.1002-0802.2014.12.009

2014-09-22;

2014-10-22 Received date：2014-09-22;Revised date：2014-10-22

贵州省社发攻关项目(黔科合SY字[2013]3105号)

Foundation Item:The Social Development Project in Guizhou Province(Guizhou Province SY[2013]3105)