APP下载

一种改进的GOP算法在区分性训练的应用*

2014-09-17热米拉艾山江

通信技术 2014年5期
关键词:后验集上区分

热米拉·艾山江,黄 浩

(新疆大学信息科学与工程学院,新疆乌鲁木齐830046)

0 引言

随着语音识别技术的不断发展和完善,基于计算机辅助的语言学习成为语音信息处理技术研究领域的一个活跃的研究方向。计算机辅助语言学习的核心部分是自动发音检错系统,它的主要作用是通过计算机检测说话人语音中的错误发音并对此进行改进,从而为学习者提供更有效的学习。自动发音错误检测系统作为计算机辅助语言学习的核心部分,它的检错性能非常重要,而系统的检错性能依赖于经过正确训练参数的声学模型[1],因此国内外很多研究人员在声学模型的建模和训练方面开展了很多研究。目前主流的声学建模是基于HMM的声学建模,而传统的发音质量评估方法是基于后验概率的GOP算法。

在发音检错系统的声学模型参数[2]训练上基于区分性原理的参数优化方法从最近的的研究结果看表现出高效率性。区分性原理在语音识别研究领域中的应用已经取得了很大成功,常用的区分性训练准则主要包括最小分类错误(MCE,Minimum Classification Error)[3]、最大互信息(MMI,Maximum Mutual Information)[4]以及近年来流行的最小音子错误(MPE,Minimum Phone Error)准则[5]。在这些区分性准则的指导下通过定义一个与识别率相一致的目标函数,优化目标函数来直接提高识别率,成功的解决了传统最大似然参数训练方法的局限性[6]。因此研究人员将语音识别里提出的成功的区分性训练方法扩展到发音检错系统的性能优化方面。与语音识别不同的是在发音检错中,其性能包括正确率和检出率,导致定义目标函数比较困难,因此从错误检测度量的评估来处理这个问题[7]。根据上述思想,文中提出最大化F1值准则的算法。基于最大化F1值(MFC)的区分性训练方法,将正确度标注的非母语语音数据库上的发音错误检测的F1值的最大化作为模型参数的训练准则。通过Sigmoid函数平滑后的F1值函数作为目标函数,用弱意义辅助函数方法优化目标函数,通过采用扩展的Baum-Welch算法来进行参数更新,获得明显的改进。

文中在最大化F1值的区分性训练方法[8]的质量评估上提出一种先归一化再求后验概率的改进的GOP算,根据改进GOP算法给出了使用改进GOP算法最大F1准则的参数更新公式,发音检错实验结果表明基于改进的GOP算法的最大F1值准则训练较使用传统的GOP算法能够进一步提高检错F1值。

1 改进的GOP计算公式

传统的GOP(Goodness of Pronunciation)算法属于后验概率的算法,它是针对汉语的声母、韵母定义的音素,其主要方法是通过给出的某一语音段,计算其正确程度的定量得分的[9]。GOP得分计算公式[10]为:

式中,Or,n=1,…,r,…,R 表示为每条训练语句的特

式中,κ是在区分性训练中常用的用来减少模型概率动态范围的比例因子,其取值范围是0<κ<1。按照上述假设定义如下判别函数:

用改进的GOP算法定义语音段(r,n)的检错测度可以写成:

式中,d(r,n)<0 表示该语音段 Or,n被判定为错误发音,d(r,n)<0表示被判定为正确的。τ是门限值,它可以由经验值调整,也可以由训练集统计训练得到。

2 最大F1值准则目标函数

2.1 目标函数

根据最大化F1值区分性训练方法。F1值是精确度和召回率的调和平均,其计算公式为:

式中,Precision为精确度,Recall为召回率,由于F1值函数对模型参数的不连续性,因此利用Sigmoid对F1值函数进行平滑,则得如下平滑后的F1值目标函数:

式中,NW是人工标注为错误的因素数目,Err(r,n)表示语音段(r,n)的人工标注结果。NSWW(λ)为平滑后的被人工和机器同时判定为错误发音的个数,是平滑后的机器判定为错误发音的个数。

2.2 目标函数的优化

在MFC参数优化采用构造弱意义辅助函数[11]的方法,根据弱意义辅助函数优化原理,通过计算零阶,一阶,二阶累积量从而对辅助函数的HMM高斯参数的均值与方差利用EBW迭代公式进行优化。累积量的计算公式如下[12]:

式中,I(r,n)和 L(r,n)分别是语音段(r,n)的起始帧和结束帧;γMFCq是t时刻观察矢量O(t)在状态s中混合高斯m的后验概率,通过强制对齐的起止时刻以及该语音段的观察序列O(r,n)进行前后向计算得到,γMFCq是MFC参数训练中的累积量。式(7)~式(9)中的的计算式把的计算公式的换成就可计算。

有上述模型参数可以看出,模型参数更新主要取决于MFC参数的计算。的计算公式为:

将式(6)中目标函数表达式代入上式,根据链式求导法则,分别计算上式中的的偏导数:

式中,根据传统的GOP算法算出来的语音段(r,n)上音素q的后验概率为γq(r,n):

根据文中提出来的改进的GOP算法计算γq(r,n)得:

使用改进的GOP算法优化系统参数步骤如下:

1)初始化。

2)在训练语段中的每个语音段(r,n)计算GOP值。

3)求使FMFC最大化的发音相关门限值τ的最优值。

6)更新模型参数。

7)若未达到最优值,返回步骤2),继续进行参数更新。

3 实验与结果

3.1 数据库和实验配置

在文中通过汉语普通话发音错误检测实验来验证所提方法的有效性。该实验基于面向新疆大学在校进行预科语言学习的维吾尔族大学生的汉语发音错误检测任务,普通话发音检错任务应当包括音素错误检测和声调错误检测两个部分。基线声学模型训练来自863汉语普通话语音数据库(L1语音库)中160个说话人(男女各80个人)的86 271条训练语句。

区分性训练在非母语说话人语音库(L2)上进行。L2语音数据选自100名维吾尔族大学生的朗读数据集。每名说话人朗读2~3套文本材料,每套文本材料包括50个单音节字、25个双音节词以及20个短句。这些数据经过人工标注出发音错误。实验过程中将这些数据分为L2训练集(18 643句)、L2测试集(7 030句)。概率平衡因子根据经验选取为κ=0.1,Sigmoid参数选取为q=10.0。

3.2 实验结果

表1给出了在传统的GOP算法和改进的GOP算法上所得的发音检错训练集和测试集的目标函数FMFC和F1的值。

表1 目标函数FMFC和F1值Table 1 Objective function value FMFC and F1

表1中,在基线模型上使用传统GOP算法和改进的GOP算法,在训练集和测试集上的FMFC和F1值分别为0.369,0.395,0.365 和0.392。在 MFC 准则下的模型上使用传统的GOP算法时,在训练集和测试集上的 FMFC值,分别从0.369 上升到0.673,从0.365上升到0.452,而训练集和测试集上的F1值分别从0.395 升高到0.719,从0.392 上升到0.479,可以看出在MFC上使用GOP算法时,训练集和测试集上的FMFC和F1值大大的增大。我们再在MFC准则下的模型上使用改进的GOP算法时,在训练集上FMFC和 F1值分别为0.665 和0.616,在测试集上FMFC和F1值分别为0.454和0.489。在使用传统的GOP算法时在训练集上的FMFC值为0.673时,在测试集上的F1值为0.479,而使用改进的GOP算法时,在训练集上FMFC值为0.665时,在测试集上F1值为0.489,较传统的方法提高了1%。由此可以看出利用改进的GOP算法时,训练集上的目标函数值不用增很多就能得到较好的测试集上的F1值。

4 结语

文中首先介绍了传统的发音质量评估方法GOP,然后在此基础上得到了一种改进的GOP算法公式。改进的GOP算法把传统的GOP算法的先求后验概率再归一化的模式改成先归一化再求后验概率。然后利用改进的GOP算法计算最大化F1值区分性训练中的语音段(r,n)的新的检错测度和后验概率,实验结果表明,用改进的GOP算法得到的检错测度和后验概率在MFC训练上更有效率性,在训练集上较低的目标函数值时在测试集上也能得到较好的的F1值,具有了较好的过训练抑制性,从而达到了提高发音检错系统性能的提高。

[1] 米日古力·阿布都热素,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.基于电话语料的维吾尔连续音素识[J].通信技术,2012,45(07):54-59.Mirigul Abdurusul,Akbar pattar,Askar Hamdulla.Telephone Speech Corpus-based Uyghur Continuous Phone Recognition.Communications Technology,2012,45(7):54-59.

[2] 古力努尔·艾尔肯,艾斯卡尔·艾木都拉,地里木拉提·吐尔逊.维吾尔语四音节元音和谐词的共振峰模式研究[J].通信技术,2013,46(11):47-50.Gulnur Arkin,Askar Hamdulla,Dilmurat Tursun.Formant Features Analysis of Vowel Harmonious in Four-Syllabic UyghurWords. Communication Technology,2013,46(11):54-59.

[3] POVEY D.Discriminative Training for Large Vocabulary Speech Recognition[D].England:Cambridge University,2004.

[4] NORMANDIN Y.Maximum Mutual Information Estimation of Hidden Markov Models[C]//Pro.Of Automatic Speech and Speaker Recognition.Holland:Kluwer Academic Publishers ,1996:57-81.

[5] POVEY D ,WOODLAND P C.Minimum Phone Error and I-smoothing for Improved Discriminative Training[C]//Proc.of ICASSP.Orlando,USA:IEEE press,2002:105-108.

[6] 张峰.基于统计模式识别的发音错误自动检测的研究[D].合肥:中国科学技术大学,2009:13-35.ZHANG Feng.A Study on Automatic Mispronunciation Detection based on Statistical Pattern Recognition[D].He Fei:University of Science and Technology of China,2009,13-35.

[7] 刘金鑫.区分性训练在计算机辅助发音训练系统中的应用[D].天津:南开大学,2011:38-44.LIU Jin-xin.Application of Discriminative Training in Computer Assisted Pronunciation Training System[D].Tian Jin:Nankai University,2011,38-44.

[8] HUANG Hao,WANG Jian-ming,Abdureyimu Halidan.Maximum F1-Score Discriminative Training for Automatic Mispronunciation Dtection in Computer-Assisted Language Learning[R].USA:ISCA,2012:815-818.

[9] 竺博.区分性训练和区分性自适应在自动语音识别声学模型优化中的应用[D].合肥:中国科学技术大学,2009:16-28.ZHU Bo.Application of DT and DT Adaption Acoustic Model of ASR[D].He Fei:University of Science and Technology of China,2009,16-28.

[10] WITT S M,YOUNG S J.Phone-level Pronunciation Scoring and Assessment for Interactive Language Learning[J].Speech Communication,2000,30(2-3):95-108.

[11] POVEY D.DiscriminativeTraining for Large Vocabulary Speech Recognition[D].England:University 0f Cambridge,2004:25-34.

[12] 黄浩,王建明,哈力旦·阿不都热依木,吾守尔·斯拉木.自动发音错误检测中基于F1值最大化的声学模型训练方法[J].声学学报,2013,38(06):751-758.HUANG Hao,WANG Jian-ming,Abdureyimu Halidan,Silamu Wushour.Maximum F1-Score Discriminative Training for Automatic Mispronunciation Detection[J].ACTA ACUSTICA,2013,38(6):751-758.

猜你喜欢

后验集上区分
GCD封闭集上的幂矩阵行列式间的整除性
一种基于折扣因子D的贝叶斯方法在MRCT中的应用研究*
基于贝叶斯理论的云模型参数估计研究
怎么区分天空中的“彩虹”
R语言在统计学教学中的运用
区分“我”和“找”
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
怎祥区分天空中的“彩虹”(一)
师如明灯,清凉温润
罪数区分的实践判定