APP下载

一种构建自适应蒙古语语音识别声学模型的方法

2018-04-18马志强李图雅

计算机应用与软件 2018年2期
关键词:蒙古语识别率声学

马志强 李图雅 闫 瑞 张 力

(内蒙古工业大学信息工程学院 内蒙古 呼和浩特 010080)

0 引 言

大词汇量连续的蒙古语语音识别系统是基于GMM-HMM(Gauss Mixture Model-Hidden Markov Model)模型实现的,在声学模型的建模过程中,由于:(1) 非词首音节短元音的出现位置不确定,导致很多词有几种读音,在语料库中出现了一词有多种读音的现象;(2) 对于不同人,由于发音人受方言、个人习惯、以及录音环境等的影响,所读音与蒙古语标准发音有差别。以上现象都使蒙古语语音识别正确率出现下降。

本文在GMM-HMM声学模型的基础上,结合最大似然线性回归MLLR与最大后验概率MAP自适应方法的优点,给出了一种适合蒙古语语音识别进行声学模型自适应建模的MLLR-MAP方法。核心思想是首先使用蒙古语小规模自适应集对MLLR和MAP方法中的参数进行估计计算;然后对已经构建的基线声学模型顺序按照MLLR和 MAP方法进行重新建模,使得基线声学模型更加逼近自适应数据集;最后得到了一个具有自适应集数据特征的蒙古语声学模型。MLLR-MAP方法中的自适应性的依赖程度由MLLR的转移矩阵和MAP的依赖权重值决定,MLLR的转移矩阵由自适应数据集决定,而最优值则需要通过实验进行人工选择得到。实验结果表明,在声学模型总正确率、声学模型错误率、声学模型准确率和系统句识别错误率、系统词识别错误率指标上都明显优于其他方法。

1 相关工作

研究者对声学模型的自适应问题主要在自适应方法上做了研究,包括向量量化法、层次化谱聚类法、概率谱映射法和贝叶斯自适应法等。其中,Woodland 等提出的MLLR方法和MAP方法[1]属于贝叶斯自适应法,适合连续密度GMM模型;MLLR方法可以使用少量的特定人的语音数据就可以快速地建立自适应声学模型;MAP方法则随着特定人语音数据的增多, 原始的模型将被逐渐更新为适合特定人的声学模型,但是会出现过拟合的现象。

1.1 最大似然线性回归方法

(1)

式中:Ws是一个n×(n+1)矩阵[bTAT]T,A是一个n×n的矩阵,b是一个n维向量,ξs是扩展的均值向量[1,uT]T(或[1,u1,…,ui,…,un]T),ui是原始的均值,1是偏移量,n是特征维数[2-3]。

(2)

MLLR只考虑高斯模型中转移矩阵的再估计,总概率可以通过各个状态得到,所以,设S是所有状态的集合,辅助函数扩展为公式[4-5]:

(3)

因此,MLLR方法进行声学模型自适应建模时,不随自适应数据集的增加而使语音识别率提高,当自适应数据集达到一定时,声学模型的识别率不再提高。

1.2 最大后验概率方法

MAP方法对高斯模型参数的调整是通过先验信息求解最大后验概率方法的一种自适应方法[6-7]。对于高斯分布均值的MAP重估的一般公式为:

(4)

MAP方法对蒙古语高斯混合声学模型进行重估时,声学模型的自适应性由MAP的依赖权重决定。依赖权重表示声学模型的自适应对先验信息的依赖程度,反映了先验信息与自适应数据之间的相互平衡。然而,依赖权重是一个动态变化的值,所以确定合适的依赖权重对提高基于GMM-HMM蒙古语声学模型的自适应性十分重要。

2 自适应蒙古语声学模型建模方法

由于蒙古语中含有丰富的词干、词缀,组合得到的蒙古语词的个数非常多。因此,语料库很难全覆盖蒙古语语言中的全部词语。所以,通过结合MLLR和MAP方法的优点,给出了一种构建自适应蒙古语语音识别声学模型的MLLR-MAP方法。

2.1 蒙古语语音的特点

蒙古语属于阿尔泰语系,蒙古语的词由词干和词缀构成,一个词干后面可以连接至少一个以上的词缀。词干和词缀都有自己的发音,词的发音是由词干和词缀结合发音的,一般情况下词干和词缀结合后发音不变。但是,在发音中也存在着以下特殊情况[8-9]。

(1) 词缀与不同词干结合后,读音会出现音变现象,导致生成多种不同的读音,因此,无法用一个固定的、静态的词典为所有的蒙古语词进行注音。

(2) 蒙古语中包含一定数量的多音节词,因此,在词干和词缀之间,前一音节的元音同后面音节的元音存在着明显的元音和谐现象。

(3) 蒙古语口语中发音时比较习惯使用重音,不合理的使用重音会使语流平淡,导致蒙古语的音节在口语语流中的变化较大,稳定性差。

由于大多数词干是与词缀连接形成更长的词干,而词干后接词缀的规则无法直接应用到蒙古语语音识别中。因此,针对上述提到的蒙古语构词音变问题、元音和谐问题和口语语流问题,通过建立自适应蒙古语声学模型,提高蒙古语语音识别的正确率。

2.2 MLLR-MAP方法

蒙古语声学模型建模采用M元加权的混合高斯模型,模型表示为公式:

(5)

(6)

在MLLR转换中,Wk是使用蒙古语小规模自适应集数据求解式(3)得到的。因此,MLLR模型中的所有参数只与训练数据相关。

然后对蒙古语的MLLR声学模型进行MAP自适应处理,MAP自适应处理过程修改为公式:

(7)

因此,蒙古语声学模型的MLLR-MAP自适应方法的核心是人工选取最优的模型参数τk。

2.3 自适应蒙古语声学模型MLLR-MAP的训练

蒙古语声学模型的MLLR-MAP训练过程主要包括:(1) 构建基线蒙古语声学模型;(2) 对小规模蒙古语自适应集数据进行MLLR模型参数估算,使用式(6)对基线蒙古语声学模型进行快速逼近,得到蒙古语MLLR声学模型;(3) 再对小规模蒙古语自适应集数据进行MAP模型参数估算,把蒙古语MLLR声学模型作为MAP的先验信息,通过式(7)构建蒙古语MLLR-MAP声学模型。蒙古语MLLR-MAP声学模型的训练过程如图1所示。

图1 蒙古语MLLR-MAP声学模型训练过程

具体的蒙古语MLLR-MAP声学模型的训练步骤如下:

训练过程:蒙古语基线声学模型作为自适应的先验值,通过对小规模蒙古语自适应集的统计计算,分别得到MLLR和MAP模型的参数,最后经过MLLR、MAP转换后得到了蒙古语MLLR-MAP声学模型。

输入:基线声学模型,小规模蒙古语自适应集

输出:蒙古语MLLR-MAP声学模型

步骤1:对自适应训练集进行MFCC特征提取,得到特征文件。

步骤2:累加观察序列,得到自适应集的统计信息。

步骤3:使用折半取值逐渐逼近的方法依次选取依赖权重τ值,对蒙古语基线声学模型的均值、方差、混合权重、转移矩阵做MAP自适应,得到对应τ值MAP自适应的声学模型识别率。

步骤4:对比对应τ值MAP自适应后的声学模型识别率,选取声学模型识别率最大者对应的τ值。其中τ值的选取采用折半取值办法,因此,需多次试探判断是否大于基线声学模型的识别率。

步骤5:对基线声学模型的均值和其他参数进行MLLR自适应,得到MLLR自适应转移矩阵。

步骤6:通过转移矩阵调整基线声学模型的均值,得到MLLR自适应后的均值,对应的声学模型为MLLR声学模型。

步骤7:进行最优τ值MAP自适应,得到最优的MLLR-MAP声学模型。

3 实验设计与结果分析

为验证MLLR-MAP方法在蒙古语语音识别声学模型中的效果,搭建了基于Sphinx的蒙古语语音识别系统,分别进行了τ值的选取和蒙古语MLLR-MAP声学模型自适应实验。

3.1 语料库与评价指标

蒙古语语料库由训练集、自适应集和测试集构成,具体构成见表1。

表1 语料库构成

训练集来源于蒙古语播音员的教学录音,共310句,计39 MB,用于基线声学模型的训练。自适应集和测试集由普通的同一个蒙古族学生按照口语形式录制,分别包含13和31个句子的录音。

实验过程中使用声学模型识别率对声学模型进行评价。声学模型识别率评价指标包括模型总正确率TPC、错误率ERR和准确率ACC。

总正确率指以句为单位,识别结果词序列中正确的词数所占的比例。不考虑插入错误词的情况,具体见公式:

TPC= (N-D-S)/N×100%

(8)

式中:N指参考词序列(即每个句子正确的词一级的序列)中词的数目;D是识别结果词序列中未识别的词数;S是识别词序列中替换错误的词数。

错误率指识别结果词序列中错误词所占的比例,错误词包括:插入错误词、未识别词和替换错误的词。计算具体见公式:

ERR= (I+D+S)/N×100%

(9)

式中:I是插入错误的词数。

准确率指在考虑插入错误词的情况下,识别结果词序列中正确的词数所占的比例。具体见公式:

ACC= (N-I-D-S)/N×100% = (1-ERR)×100%

(10)

通常准确率的值小于总正确率的值,因为准确率考虑了插入错误而总正确率没有考虑。

3.2 值的选取

由于MLLR-MAP方法中τ值参数不能由自适应训练数据唯一确定,需要人工选择。因此,在基线声学模型的基础上,通过MAP自适应选取识别率最高的τ值作为最终MAP时的τ值。当τ的取值越大时,自适应收敛速度就越快。根据Nickolay V.Shmyrev的结论[13],τ值是一个在[1,100]区间的整型值。因此,在[1,100]范围内采用折半取值逐渐逼近的方法进行蒙古语声学模型建模实验,选取使声学模型的识别正确率最优的τ值。

实验中,按照τ值与蒙古语声学模型正确率变化的情况,τ值的取值依次按照:50->1->100->4->75->38->13->31->19->22->28->23->24。对应的τ值与声学模型识别正确率的实验结果如图2所示。实验结果表明,在[1,100]区间内,随着τ值的增加,声学模型识别正确率的趋势是先逐渐升高再逐渐降低,其中,在[22,31]区间识别正确率出现了小起伏的波动,在τ<22时,识别正确率一直在上升,在τ>31时,识别正确率一直在下降,当τ=22时,取得最高识别正确率70.76%。

图2 声学模型识别率

3.3 蒙古语MLLR-MAP声学模型实验

为了对比MAP、MLLR、MAP-MLLR、以及MLLR-MAP方法对蒙古语声学模型自适应性能的影响,我们设计了8个蒙古语声学模型自适应建模实验。为了区分不同实验名称,实验中使用建模方法名称来定义实验名称和蒙古语声学模型名称,具体定义如表2所示。

表2 声学模型定义

实验中,都采用表1中列出的相同蒙古语语料库。蒙古语语音特征采用梅尔频率倒谱系数MFCC(Mel Frequency Cepstral Coefficents),帧窗口长度为25 ms,帧移10 ms。帧提取采用上下文结合的办法,即在当前帧前后各取5帧来表示当前帧的上下文环境。声学模型训练以三音素作为识别单元,采用Sphinxtrain-1.0.8工具中的Baum-Welch算法;解码采用Pocketsphinx-1.0.8工具中的Viterbi算法。

实验中,自适应集和测试集由不同比例的男女生发音的句子构成,采用声学模型评价指标对8类实验进行评价,具体实验结果数据统计如表3所示。

表3 声学模型实验结果

相对于构建的基线声学模型,其他7种蒙古语声学模型建模方法在不同男女比例的自适应集和测试集上声学模型的总正确率和错误率上都有不同程度的提升,TPC提升率(TPC↑)=声学模型的TPC-基线声学模型的TPC,ERR下降率(ERR↓)=基线声学模型的ERR-声学模型的ERR。声学模型的提升结果如表4所示。

表4 声学模型提升对比

因此,7种构建自适应蒙古语声学模型的建模方法在5种自适应与测试数据集上的平均提升结果如图3所示。

图3 相对于基线声学模型性能提升结果

实验结果表明,在使用相同的蒙古语语料库和基线声学模型的实验环境下,使用MLLR-MAP自适应方法构建的蒙古语声学模型,无论是在τ=22最优的情况下,还是在其他τ(例如τ=62)值的情况下,蒙古语声学模型的识别率优于其他自适应的建模方法。并且在τ=22时,MLLR-MAP构建的蒙古语语音声学模型是最优的。在平衡语料库下,总正确率提升了14.54%,错误率下降了17.52%。在所有的实验情况下,平均总正确率提升了17.27%,平均错误率下降了18.15%。

4 结 语

(1) 通过结合MLLR和MAP两种自适应模型的

建模方法,给出了一种构建自适应蒙古语语音识别声学模型的MLLR-MAP方法。

(2) 在τ值选取方面,为了选取合适的τ值,采取了折半取值逐渐逼近的方法,给出了蒙古语语音识别声学模型MAP自适应的参数τ值。

(3) 在自适应声学模型建模方法方面,把MLLR自适应后的均值作为声学模型MAP自适应均值的输入,有效均值的重估使得声学模型识别率得到了进一步的提高。

(4) 设计了8个自适应建模实验,通过实验数据,充分对比了各种自适应声学模型的建模方法。实验结果表明,MLLR-MAP声学模型自适应性能在声学模型识别率上明显优于其他模型,确定了MLLR-MAP方法比MAP-MLLR等其他方法在蒙古语语音识别上的有效性。因此,可以为其他少数民族语言语音识别声学模型的自适应性建模提供借鉴。

未来的工作中,需要对非平衡训练集在蒙古语语音识别声学模型中的应用展开研究,以及对MLLR自适应中重估方差问题的研究。

[1] Leggetter C J, Woodland P C. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models[J]. Computer Speech & Language, 1995, 9(2):171-185.

[2] Gales M J F. Maximum Likelihood Linear Transformations for HMM-based Speech Recognition[J]. Computer Speech & Language, 1998, 12(12):75-98.

[3] Borsky M, Pollak P. Knowledge-based and Automated Clustering in MLLR Adaptation of Acoustic Models for LVCSR[C]// International Conference on Applied Electronics. 2012:33-36.

[4] Ramya T, Christina S L, Vijayalakshmi P, et al. Analysis on MAP and MLLR based Speaker Adaptation Techniques in Speech Recognition[C]//Circuit, Power and Computing Technologies (ICCPCT), 2014 International Conference on. IEEE, 2014: 1753-1758.

[5] Povey D, Woodland P C, Gales M J F. Discriminative map for acoustic model adaptation[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. IEEE, 2003:312-315.

[6] Mahiba S M, Christina S L, Vijayalakshmi P, et al. Analysis of Cross-Gender Adaptation Using MAP and MLLR in Speech Recognition Systems[C]//Recent Trends in Information Technology (ICRTIT), 2013 International Conference on. IEEE, 2013: 387-392.

[7] Lee C H, Gauvain J L. Speaker adaptation based on MAP estimation of HMM parameters[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing: Speech Processing. IEEE Computer Society, 1993:558-561.

[8] 柯登峰, 徐波. 互联网时代语音识别基本问题[J]. 中国科学, 2013, 43,(12):1578-1597.

[9] 丰洪才, 卢正鼎. 基于MAP和MLLR的综合渐进自适应方法研究[J]. 计算机工程, 2005, 31(5):4-7.

[10] 飞龙, 高光来, 闫学亮, 等. 基于分割识别的蒙古语语音关键词检测方法的研究[J]. 计算机科学, 2013, 40(9): 208-211.

[11] CMU. Sphinx-4 Application Programmer’s Guide [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4/#source#source.

[12] CMU. Training Acoustic Model for CMU Sphinx [EB]. http://cmusphinx.sourceforge.net/wiki/tutorialam.

[13] CMU. Adaptation for Very Small Grammar [EB].https://sourceforge.net/p/cmusphinx/discussion/help/thread/fe169a87/?limit=25#6022.

猜你喜欢

蒙古语识别率声学
进一步放大细腻通透的优势 Davis Acoustics(戴维斯声学) MODEL M/MODEL S/BASSON 88
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
提高翻译水平对年轻一代蒙古语广播工作者的重要性
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
蒙古语呼伦贝尔土语“r”和“l”的语音差异及发音方法研究
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展