APP下载

噪声环境下畸变模型线性化处理的顽健语音识别方法

2010-08-06何勇军韩纪庆

通信学报 2010年9期
关键词:加性畸变识别率

何勇军,韩纪庆

(1. 哈尔滨工业大学 计算机科学与技术学院,黑龙江 哈尔滨 150001;2. 哈尔滨理工大学 计算机科学与技术学院,黑龙江 哈尔滨 150080)

1 引言

在语音识别中,加性噪声和信道畸变一直是导致系统性能下降的重要原因。数 10年来,在提高语音识别系统环境顽健性方面,研究者们做了大量工作,取得了一定进展。目前存在的方法大致可分为特征增强和模型补偿/适应2大类[1]。前者提取顽健性特征来提高系统性能;后者则训练适应噪声环境的声学模型来降低环境失配的影响。在现实环境中,语音通常同时受加性噪声和信道畸变的影响,同时补偿这2类畸变对于增强语音识别系统顽健性具有重要意义。联合补偿方法(JAC, joint compen-sation of additive and convolutive distortions)[2~4]试图达到这一目标。它在期望最大化(EM, expectation-maximum)框架下估计噪声参数然后补偿模型参数,能有效提升语音识别系统的识别率,其性能明显优于特征增强类方法。更重要的是,JAC类方法在识别过程中进行补偿,无需额外的标注数据。在补偿过程中,JAC类方法需要噪声参数的显式表示,但以MFCC为特征的系统,畸变语音和干净语音以及噪声之间的关系式呈高度非线性[2],其中噪声参数无法被解析表达,这导致参数估计难以准确实现。

JAC用一阶VTS将非线性畸变模型展开[2~6],获得噪声参数的近似解析表达式。由于一阶 VTS存在较大误差,这使得JAC类补偿方法对系统性能的提升受到限制。通过研究发现,计算MFCC过程中的对数运算将导致语音和噪声参数呈非线性。针对这一点,本文将对数运算用其分段线性插值函数代替,构建新的线性畸变模型,并在此基础上导出了噪声参数估计和模型补偿公式。与现有JAC类方法相比,本文方法建立在线性畸变模型之上,避免了使用一阶 VTS展开所引入的模型误差。实验表明,该方法能有效提高系统识别率。

2 对数函数的分段线性插值近似

一阶 VTS用过展开点的切平面近似代替真实模型的曲面,当展开点附近的真实曲面曲率较大或选择的展开点距离观察值较远时,线性化后的畸变模型将存在较大误差;另一方面,展开点的选择目前尚无规律可循,也是一个有待解决的问题。二阶及其以上VTS计算复杂度将急剧增加,而且也无法获得噪声参数的解析表达式,难以用于模型补偿。对数运算能将乘积运算转化为加运算,但在加性噪声存在时却使得畸变模型呈高度非线性。因此,提出用分段线性函数对对数函数插值近似,建立线性畸变模型。

MFCC的计算是先对信号分帧,作离散傅立叶变换(DFT, discrete Fourier transform),然后加梅尔滤波器组并对其输出取对数,最后作离散余弦变换(DCT, discrete cosine transform),如图1的虚线。本文特征按照图1实线的方向计算。在实验中,先统计梅尔滤波器输出的上限D1和下限D2,然后在[D1,D2]内计算对数函数的分段线性插值函数即可满足系统需求。

图1 本文特征与MFCC特征的计算对比

假定在区间[D1, D2]上存在等比排列的点:D1=d0, d1,…, dp=D2,即 dr=qdr-1, r=1, 2,…, p,其中,q取大于1的常数,p为区间个数。在区间[dr,dr+1]上,用过点(dr, ln(dr))和(dr+1, ln(dr+1))的线段代替对数曲线,其中,ln(·)代表自然对数运算。由于自然对数的变化率随自变量增加而减小,在自变量较小的区间上需要较多的线段去逼近,因此,这里采用逐渐递增的等比数列分割定义区间。

在任意一个区间[dr, dr+1]上,系数ar、br是完全确定的。对于一次运算,只要确定函数值lr(x)和自变量x中的任意一个即可确定运算系数。

在后面的运算中,需要对关系式 y=hx+n两端进行运算,其中,x、y分别代表某一梅尔滤波器上干净语音和混噪语音的输出,h、n分别代表信道和加性噪声参数。若x∈[ds, ds+1],y∈[dr, dr+1], 其中,s, r=1, 2, …, p可以相同也可以不同,则有ls(x)=asx+bs且

式(2)为干净语音、畸变语音以及噪声参数建立的线性关系。这样表示既可实现干净语音模型和畸变语音模型之间的相互转换,又便于噪声参数由其他参数表达。在噪声参数 h、n确定时,已知 ls(x)可确定as、bs,然后用hx+n= h[(ls(x)-bs)/as]+n确定ar、br,即可求出lr(y)。反之,如已知lr(y),也可确定ar、br,计算出y=hx+n,进而求出x并确定as、bs,最后求出ls(x)。

3 对数运算线性化情况下的畸变模型

在频域畸变语音的功率谱可表示为[7]

其中,k=1, 2,…, K为DFT序号,X[k]和Y[k]分别为干净语音和畸变语音的DFT,H[k]和N[k]分别为信道畸变和加性噪声的DFT。等式两端加梅尔滤波器组 :,其中,l=1, 2,…, L,L为梅尔滤波器个数,表示第l个梅尔滤波器在第k个频谱分量上的值,并令

则第l个梅尔滤波器的输出为

在MFCC的计算过程中,接下来要作对数运算,这里用其分段线性插值函数代替。根据式(2)有

等式两端作 DCT,并采用与文献[2]类似的处理方式,令

其中,C为DCT矩阵,T为转秩运算。由于每个梅尔滤波器上的能量输出值可能处于不同区间,在运算时要用到不同的分段函数,这里用下标rl和sl表示第l个梅尔滤波器上的输出和所处的区间。其中,系数向量a1、a2及a3内对应元素按式(2)的系数确定方式确定。则畸变模型表示为

其中,diag(a)表示以向量a为主对角元素的对角阵。式(18)和式(19)为线性表达式,噪声参数 h和 n均可被解析表达。在后面实验中将看到,线性化对数运算之后计算的特征在干净语音情况下,识别率不低于MFCC特征;在噪声环境下,基于线性化模型的补偿方法明显优于一阶VTS类JAC方法。

4 线性畸变模型下干净模型参数与畸变模型参数的关系

目前大词表连续语音识别系统普遍基于隐马尔可夫模型(HMM, hidden Markov model),其各个状态用高斯混合密度函数建模。噪声在模型上的影响表现为改变各高斯分量的均值和方差。假定加性噪声在同一单句中服从未知均值和方差的高斯分布,信道畸变保持不变,二者在句子之间可以变化[3]。对式(18)两端取均值:

其中,μy、μx和μn分别为畸变语音、干净语音以及加性噪声的特征均值向量,系数向量、、和的确定方式同前。当给定噪声参数h和μn,畸变语音声学模型的第j个状态的第k个高斯分量的均值只与干净语音的声学模型对应均值有关,即

其中,μx,jk和μy,jk分别为干净语音和畸变语音模型的第j个状态的第k个高斯分量的均值向量,同理对式(18)两端求协方差有

其中,Σx,jk、Σy,jk和Σn分别为干净语音、畸变语音以及加性噪声的协方差。当计算差分的窗口较小时,用与文献[4]类似的处理方法,声学模型的动态参数更新如下:

本文中Δ表示一阶差分,ΔΔ表示二阶差分。在确定噪声参数时,通过干净声学模型参数用式(20)~式(26)计算畸变声学模型参数,再用更新后的模型识别语音以解决环境失配问题。本文方法不仅考虑了模型均值的更新,也考虑了模型方差的更新。

5 噪声参数的估计

噪声参数包括信道参数h和加性噪声均值参数μn、μΔn、μΔΔn及其方差参数 Σn、ΣΔn、ΣΔΔn。接下来将在EM框架下给出噪声参数的估计方法。如果一句发音的MFCC静态特征为Y={y1, y2,…, yN},其中,N为特征向量个数,构建Q函数[4]:

由于各噪声参数在新的畸变模型下可显式表示,本文采用与文献[3]类似的策略,即先优化畸变模型,然后用畸变模型表达式优化噪声参数。Q函数对均值求导后令其等于 0,并按所有 j、k进行叠加,同时考虑到各维特征系数不相关,有代入式(21)解出信道参数:

EM 算法通过迭代使估计量收敛于其极大似然估计值,设第 i次迭代时加性噪声均值为,则据上式第i+1次迭代得到的信道参数为

代入式(22)解出nΣ并构建迭代公式为

用本文的线性畸变模型估计出需要的噪声参数,再用第三部分的模型更新公式更新声学模型,反复迭代,使声学模型与噪声环境匹配。

6 识别过程

识别时以句子为单位估计噪声参数并更新声学模型,再用更新后的模型识别该句子。现将识别过程以伪代码形式叙述如下。

for每句语音S

用 S的 前 N 帧非语音帧初始化 n(0)和 Σ(0);

whilei < I

用前次迭代更新后的模型识别S;

计算 γt( j , k )(式 (29));

计算 h(i+1)(式 (31));

i ← i +1;

e nd while

用最后的模型识别句子S;

end for

其中,I为最大迭代次数,每次更新模型参数时都采用最新估计的噪声参数。为标记方便,符号下标jk被略去。由于信道参数未参与对数运算,其初始值为全1向量,这有别于基于MFCC特征时的初始化。

7 实验结果与分析

实验使用King-ASR-009语料库[8],该语料库含有200名(87男,113女)不同年龄、发音、文化层次的发音人。使用 4种通道(SHURE SM58、ANC-700、TELEX M-60和ACOUSTIC MAGIC,分别记为Mic1、Mic2、Mic3和Mic4)同时录音,录制每人朗读的 120条短信文字。数据采样率22.05kHz,量化16bit。本文将所有数据重新采样,使其采样频率为16 kHz。

实验选取Mic1下100人(50男,50女)的12 000句(每人120句)语音训练声学模型。Mic1数据质量较好,被看作干净语音,其他麦克风具有不同程度的信道畸变。用Mic1及其他信道下另外40人(20男,20女)的语音,以一定的信噪比叠加噪声,形成噪声环境下的测试语音。实验使用Noise-92噪声库的4种噪声,即White、Factory、Babble和Leopard,每种噪声以一定的信噪比 (SNR, signal to noise ratio) 叠加在干净语音上。在数据选择上,训练集和测试集说话人没有重叠,配置情况见表1。

表1 训练集和测试集配置情况

实验采用剑桥大学的 HTK工具。前端处理的预加重系数为0.97,梅尔滤波器组的滤波器个数为33,短时傅立叶变换点数为512,帧长为30ms,帧移10ms。本文方法选取13维特征系数及其一阶、二阶差分构成 39维特征向量;基线系统及其他用于比较的方法采用相同设置的MFCC特征。系统训练3音子绑定声学模型,词典中将每个汉字分解成音素,并用863中文语料库和King-ASR-009中所有文本训练三元统计语言模型。选择[0.001,100]为对数函数插值区间。目前语音识别系统常用的基于一阶VTS的JAC方法[4](记为VTS)、倒谱均值规正(CMN, cepstral mean normalization)[9]、相关谱滤波(RASTA, relative spectra)[10]、谱减(SS, spectral subtraction)[11,12]和模型自适应(最大似然线性回归[13]和最大后验概率[14])被用于对比实验。从每个测试集中选择每个人的前5句发音作为对应环境的自适应数据。自适应时,先进行最大似然线性回归自适应,然后作最大后验概率自适应。

首先在无噪情况下测试了MFCC特征与本文特征在划分区间数p取不同值时(记为MFC-p)的识别率。在实验中选用测试集0为测试数据,实验结果见表2。

表2 MFCC与MFC-p识别率对比

本文统计的是汉字识别率。从实验结果可以看出,在无噪情况下,MFCC特征识别率为87.2%。使用本文特征,当p小于5时,识别率仅有少量下降,而当p大于等于5时,识别率回到MFCC特征的水平。随着p的继续增加,识别率保持不变。考虑到计算速度,在后面的实验中,本文方法一律使用MFC-5,参数估计时最大迭代次数为6。

然后采用测试集 1测试各方法在信道畸变下的性能,即用Mic1数据训练的模型识别Mic2~Mic4下的数据,实验结果见表3。不作任何补偿的基线系统性能较差,最好的情况不超过 50%。CMN和RASTA联合使用对信道畸变有一定效果,识别率有较大提高;VTS和模型自适应取得了更好的性能。相比之下,本文方法能进一步提高系统识别率,在3个通道上的识别率都在75%以上,性能优于VTS。

表3 信道畸变情况下各方法性能对比(识别率/%)

接下来用测试集2测试各方法在仅有加性噪声存在时的性能,实验结果如图2所示。基线系统的性能随着信噪比的降低而迅速降低,尤其是在SNR=5dB高斯白噪声情况下,识别率仅25.4%。CMN+SS与VTS以及模型自适应方法较大幅度地提升了系统识别率。模型自适应方法在多数情况下优于CMN+SS却不及VTS。尽管可以预料,随着自适应数据的增加,模型自适应性能会逐渐上升,但需要额外训练语料不便于现实应用。VTS和本文方法均无需额外训练数据,而本文方法对加性噪声的补偿效果更为明显,在 SNR=5dB时使得系统识别率在70%左右,在SNR=25dB时,4种噪声下的识别率分别为79.1%、81.9%、82.2%和82.6%。

图2 加性噪声情况下各方法性能对比

最后用测试集3测试各方法在加性噪声和信道畸变同时存在时的性能,实验结果如图3所示。可以看出,基线系统在所有情况下,识别率都不超过40%。本文方法在SNR=25dB时的White和Factory噪声下略高于 VTS,在其他情况下能比 VTS提升3~4个百分点。这进一步说明了本文方法的有效性。

图3 加性噪声和信道畸变同时存在时各方法性能对比

8 结束语

在 MFCC域含噪语音的畸变模型呈高度非线性,这使得模型域方法无法直接使用畸变模型估计噪声参数。基于一阶VTS的方法虽然能将畸变模型线性化,但其误差限制了这类方法性能的进一步提升。本文针对该问题提出了一种新的线性畸变模型,并在此基础上,导出了噪声参数估计和声学模型补偿方法,最后用实验验证了其有效性。

[1] YUSUKE S, MASANMI A. Bayesian feature enhancement using a mixture of unscented transformations for uncertainty decoding of noisy speech[A]. Proceedings of ICASSP[C]. Taiwan, China, 2009.4569-4572.

[2] ACERO A, DENG L, KRISTJANSSON T, et al. HMM adaptation using vector Taylor series for noisy speech recognition[A]. Proceedings of ICSLP[C]. Beijing, China, 2000. 869-872.

[3] GONG Y F. A method of joint compensation of additive and convolutive distortions for speaker-independent speech recognition[J]. IEEE Transaction on Speech Audio Processing, 2005, 13(5)∶ 975-983.

[4] LI J Y, DENG L, YU D. A unified framework of HMM adaptation with joint compensation of additive and convolutive distortions[J].Computer Speech and Language, 2009, 23(3)∶ 389-405.

[5] VAN D, GALES M. Extended VTS for noise-robust speech recognition[A]. Proceedings of ICASSP[C]. Taiwan, China, 2009. 3829-3832.

[6] GALES M, FLEGO F. Combining VTS model compensation and support vector machines [A]. Proceedings of ICASSP[C]. Taiwan,China, 2009. 3821-3824.

[7] LIAO H, GALES M. Joint Uncertainty Decoding for Robust Large Vocabulary Speech Recognition[R]. Technical Report CUED/TR552.University of Cambridge, 2006.

[8] KING-ASR-009. A Chinese speech database for speech recognition[EB/OL].http∶//www.speechocean.com/productdetail.asp?id=Ki ng-ASR-009,2010.

[9] STEVEN F B, DENNIS C P. Feature and score normalization for speaker verification of cellular data[A]. Proceedings of ICASSP[C].Hong Kong, China, 2003. 49-52.

[10] HERMANSKY H, MORGAN N, BAYYA A. RASTA-PLP speech analysis technique[A]. Proceedings of ICASSP[C]. San Francisco,USA, 1992. 1121-1124.

[11] BOLL S, PULSIPHER D. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Transaction on Speech Audio Processing, 1979, 27(2)∶ 113-120.

[12] MARTIN R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J]. IEEE Transaction on Speech Audio Processing, 2001, 9(5)∶ 504-512.

[13] SAON G, HUERTA H, JAN E E. Robust digit recognition in noisy environments∶ the IBM Aurora 2 system[A]. Proceedings of Interspeech[C]. Aix-en-Provence, France, 2001. 629-632.

[14] HUO Q, CHAN C, LEE C H. Bayesian adaptive learning of the parameters of hidden Markov model for speech recognition[J]. IEEE Transaction on Speech Audio Processing, 1995, 3(5)∶ 334-345.

猜你喜欢

加性畸变识别率
ℤ2ℤ4[u]-加性循环码
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
企业家多重政治联系与企业绩效关系:超可加性、次可加性或不可加性
企业家多重政治联系与企业绩效关系:超可加性、次可加性或不可加性
提升高速公路MTC二次抓拍车牌识别率方案研究
在Lightroom中校正镜头与透视畸变
高速公路机电日常维护中车牌识别率分析系统的应用
基于加性指标的网络断层扫描的研究
辐射诱导染色体畸变的快速FISH方法的建立