APP下载

基于CNN-CTC的蒙古语层迁移语音识别模型

2022-08-02吕浩田马志强王洪彬谢秀兰

中文信息学报 2022年6期
关键词:蒙古语声学语料

吕浩田,马志强,2,王洪彬,谢秀兰

(1. 内蒙古工业大学 数据科学与应用学院,内蒙古 呼和浩特 010080;2. 内蒙古自治区基于大数据的软件服务工程技术研究中心,内蒙古 呼和浩特 010080)

0 引言

端到端语音识别模型将传统的声学、发音和语言模型统一为一个单独的声学模型,不仅降低了语音识别建模的复杂程度[1-3],同时相较于传统模型性能表现更为优异[4-8]。端到端语音识别已经成了语音识别领域的主流方式,其中基于 CNN-CTC 的声学模型[9-10]是端到端语音识别的主流模型之一。蒙古语作为一门少数民族语言,一方面其语音识别的发展起步较晚;另一方面其缺少可用于语音识别研究的大规模公开语料,这使得蒙古语语音识别的准确率低于英语、汉语等语种且研究相对困难。

低资源语音识别是指缺乏语音、标注、发音字典和文本等数据资源中某一方面或几方面资源的语音识别研究。缺乏大规模公开语料的语音识别研究是低资源语音识别研究中面临的困难之一。对于低资源语音识别的研究主要有三个方向: ①对低资源语料进行数据增强,如利用其他语言数据扩充数据[11-12],对训练所使用的音频数据进行语速扰动[13-14]; ②针对低资源语料建立参数稀疏模型,如Zhang W、Fung P使用稀疏逆协方差矩阵,提高了模型的相对识别精度[15-16],Miao Y、Metze F等人通过深度Maxout网络提高了混合系统和瓶颈特征系统的性能[17],Miao Y、Metze F等人提出了跨语言子空间混合模型[18]; ③迁移学习,利用其他语种的高资源语料辅助低资源语料完成建模,如Vu N T, Imseng D等人提出的多语言声学模型[19]。蒙古语目前没有公开的大规模语料数据,低资源语音识别的研究是蒙古语语音识别的重要研究方向之一。

本文的主要贡献是: 在低资源蒙古语语料下提出了应用高资源语种语料构建CNN-CTC蒙古语语音识别模型的层迁移训练方法,并在层迁移训练方法中设计了自上向下、自下向上和间隔抽取等三种层迁移策略。在 10 000句英语语料数据集和 5 000句蒙古语语料数据集上进行了实验,验证了层迁移模型的有效性,且在最优迁移策略下得到了比普通基于CNN-CTC的蒙古语语音识别模型WER低10.18%的基于CNN-CTC的蒙古语层迁移语音识别模型。

1 相关现状

20世纪90年代成功的单语言系统到其他语言的移植和多语言语音识别的研究,引起了与具体语言无关的声学模型用于未知语言的建模的研究[20]。20世纪90年代末,研究人员对与语言无关的声学模型进行了大量的研究[21-25]。低资源语音识别声学模型的研究主要针对三个方面展开: 一是对声学特征的改进或增强;二是对声学模型的改进;三是针对声学模型的训练方法的改进。

目前针对小语种跨语言的低资源语音识别声学特征方面的研究主要为语音数据和特征的改进。钱彦旻、刘加在传统基于词置信度的无监督方法的基础上提出数据筛选准则的改进,相对于有监督训练系统有相对8%的降低[26]。刘迪源、郭武提出利用最小音素错误率准则来优化瓶颈网络以及GMM-HMM模型,相比于传统方法获得了9%的相对词错误率下降[27]。秦楚雄,张连海也提出了两种特征改进方法,并通过实验证明了其有效性[28-29]。

对低资源语音识别声学模型进行的研究主要为新模型的引入。黄光许、田垚等人在声学模型中引入了LSTM递归神经网络,在OpenKWS13标准数据集上进行实验,结果表明该技术相比深度神经网络基线系统词错率有10%的降低[30]。另外,舒凡、屈丹等人针对低资源环境下由于标注训练数据不足造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法在OpenKWS16评测数据的实验结果表明,采用LSTM-LRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%[31]。

针对低资源语音识别声学模型训练方法的研究和改进相对较少。Zhang Y、Chuangsuwanich E等人研究了自适应校正递归神经网络,实验证明,应用此网络的系统性能优于应用DNN和长短时记忆网络的系统,且迁移学习方法可应用于此架构进一步优化低资源语音识别性能[32]。

低资源语音识别声学模型通过声学特征、模型结构和训练方法的不断改进,建模能力越来越好,对低资源数据拟合程度越来越高。随着特征和模型的优化以及多任务学习、迁移学习技术的改进,低资源识别声学模型的建模能力将不断增强。

神经网络迁移学习是指将迁移学习中源领域中训练的部分神经网络转化为目标域神经网络的一部分。针对神经网络的迁移学习,2014年Yosinsk等人对深度神经网络和可迁移性之间的关系进行了研究,研究表明一些基于CNN的神经网络适合进行神经网络迁移学习[33]。

2 基于CNN-CTC的蒙古语声学模型

2.1 模型结构

基于CNN-CTC的蒙古语声学模型结构如图1 所示。其中输入层的输入节点矩阵由蒙古语语料中最长的音频帧数决定,蒙古语数据集中最长音频共1 469帧,所以模型输入层的输入节点矩阵为200×1 600的二维矩阵。

图1 基于CNN-CTC的蒙古语声学模型结构

卷积神经网络部分由包含4个卷积块结构的卷积块集、两层全连接层、蒙古语softmax层和CTC组成。

如图2所示,实验证明利用CNN-CTC声学模型以蒙古语音素为建模单元,最终在测试集上的词错率为73.23%,高于利用CNN-CTC声学模型直接对蒙古语字进行建模在测试集上的词错率为53.62 %,故蒙古语数据集的建模单元采用蒙古语字,其数量为800。所以softmax层输出维度为800×200,其中200是由输入层长度1 600除以4个卷积块中池化核大小的乘积而来。

图2 不同建模单元WER对比图

2.2 语谱图

语谱图是频谱图在语音上的应用,通过对语音时域信号进行处理计算的频谱图。语谱图的横轴为时间轴,纵轴代表的是频率,每一个坐标点代表能量值。由于语谱图使用二维坐标系表示时间、频率、能量三个维度的信息,所以采用颜色的深浅来表示能量值的大小。相对于传统的声学特征MFCC等而言,语谱图对于原始语音数据的处理变换较少,可以更好地留存原始语音中所包含的信息,在声学建模过程中所建立的声学模型可以学习到更多的有效信息。

语谱图的获取过程如图3所示,具体步骤如下:

图3 语谱图特征提取过程

(1) 将原始语音模拟信号转换为计算机可以存储和计算的数字信号,也就是音频的采集录音,在录音时需要设定参数,用以确认音频的保存格式,并设置储存格式以及其声道数、采样率和每个采样点存储位数。

(2) 对录制音频的语音信号进行分帧加窗,设置帧长和帧移并进行分帧操作,之后选择窗函数进行加窗操作,一般为汉明窗。

(3) 分帧加窗后的每一帧语音信号进行FFT,将时域信号变为离散的频域信号,最后对经过FFT的数据取对数得到语谱图。

2.3 模型结构探究实验

为了得到最优的基于CNN-CTC的蒙古语声学模型,本实验在基于CNN-CTC 的声学模型基础结构上设置模型的卷积块数目分别为1、2、3、4、5、6并使用由3h蒙古语语料数据作为训练集,0.5h数据作为开发集,0.5h数据作为测试集的低资源蒙古语语料数据集IMUT_Mon_4h数据集对模型进行训练和测试,最终得到不同卷积块数目下所对应的基于 CNN-CTC的蒙古语声学模型在训练集和测试集上的词错率。

实验分别采用每帧40维的蒙古语MFCC特征和每帧200维的蒙古语语谱图特征,对拥有不同卷积块数目的基于CNN-CTC的蒙古语声学模型进行训练,并且利用IMUT_Mon_4h蒙古语语料数据集对在此情况下基于CNN-CTC的蒙古语声学模型进行探究实验,探寻最优模型,结果如表1所示。

表1 蒙古语不同卷积块数模型WER

由表中的数据可以看出,在蒙古语语料IMUT_Mon_4h上,选择蒙古语语谱图特征训练基于CNN-CTC的蒙古语声学模型。无论是在训练集还是测试集上的WER,都远远低于使用蒙古语MFCC特征所训练的基于CNN-CTC的蒙古语声学模型。所以采用蒙古语语谱图特征所训练的基于CNN-CTC的蒙古语声学模型比采用蒙古语MFCC特征训练的模型识别正确率更高,且当模型卷积块数目为4时在测试集上可降低1.7%的WER。

另外,训练集WER和测试集WER在卷积块数目为4之前随着卷积块数目的增加而下降,但当卷积块数目大于4之后WER开始逐渐增长。由此可知在IMUT_Mon_4h数据集上,训练数据对卷积块数目为4时基于CNN-CTC的蒙古语声学模型的训练较为充分且没有明显的过拟合现象出现。但是随着卷积块数目继续增长,模型在训练集和测试集上的WER开始上升。

因此,使用IMUT_Mon_4h数据集对卷积块数目分别为1、2、3、4、5、6的基于CNN-CTC的蒙古语声学模型进行训练,可以训练得到最佳性能的基于CNN-CTC的蒙古语声学模型结构应该为卷积块数目为4时的模型结构,此时模型在测试集上的WER为53.62%。

3 基于CNN-CTC的蒙古语层迁移语音识别模型

3.1 层迁移模型结构

基于CNN-CTC的蒙古语层迁移语音识别模型如图4所示。该模型在基于CNN-CTC的声学模型结构上,利用基于CNN-CTC的高资源语种声学模型Ms中的卷积块集,构建基于CNN-CTC的蒙古语层迁移语音识别模型Mt。模型输入层、softmax层和CTC与基于CNN-CTC的蒙古语声学模型相同。层迁移模型由Mt.m个卷积块结构、2个全连接层、蒙古语softmax层和CTC组成。

如图4所示,其中CNN-CTC-Target为将基于CNN-CTC的高资源语种声学模型的第一个卷积块迁移至基于CNN-CTC的蒙古语层迁移语音识别模型所构建的层迁移模型。

图4 基于CNN-CTC的蒙古语层迁移语音识别模型

3.2 层迁移模型训练算法

基于层迁移模型训练过程构建层迁移模型训练算法,如算法1所示。算法的目的是输出最佳模型,通过遍历所有策略,对每种策略得到的所有模型进行测试,选择在测试集上WER最低的模型作为最终层迁移模型输出。

层迁移模型的具体训练步骤如下:

(1) 使用已有的高资源语种语料训练基于CNN-CTC的高资源语种声学模型Ms。

(2) 分别采用自下向上、自上向下、间隔抽取的迁移层选择策略,完成Ms对Mt的层迁移,得到多个层迁移模型。

(3) 将由模型Ms,迁移至模型Mt的卷积块中的层学习率α设置为较低的值,层迁移声学模型中其他层的学习率β设置为较高的值。

(4) 使用低资源蒙古语语料数据集对层迁移模型进行适应性训练,分别使用学习率α和β更新对应的参数。

(5) 通过步骤(3)和步骤(4)对所有模型进行训练和测试,根据测试结果选择最佳模型作为最终输出模型。

为了研究不同级配类型对抗滑性能的影响,本文选择了AC—13、SMA—13和OGFC—13三种典型的沥青路面表面层的级配类型,三种级配走向如图1。

算法1: 层迁移模型训练算法输入: 高资源语料库Data_s,低资源语料库Data_t,迁移层选择策略policy = {自下向上,自上向下,间隔抽取},学习率alpha、beta,基于CNN-CTC的高资源语种声学模型结构Ms,目标模型结构Mt,损失函数Lctc输出: 目标模型Mtarget1. initalize(Ms) #初始化Ms2. for i in Data_s do3. train(Ms)#使用Data_s中的样本训练Ms4. end for5. initalize (Mt)#初始化Mt6. Mtarget=Mt7. M_list = transfer(Ms,Mt,policy)#使用策略policy利用Ms对Mt进行层迁移8. for M in M_list do #遍历使用策略policy层迁移得到的所有模型9. for j in Data_t do10. M.P=Mt.P-alpha∂Lctc∂P #用学习率alpha对M中迁移层参数集P进行更新11. M.Q=Mt.Q-beta∂Lctc∂Q #用学习率beta对M中其它层参数集Q进行更新12. end for13. if test(M).wer < test(Mtarget).wer then14. Mtarget=M #如果模型M测试词错误率低于Mtarget,则Mtarget变为M15. end if16. end for

4 实验环境与评价指标

4.1 实验设置

4.1.1 实验数据

本实验中,采用IMUT_Mon_4h。语料中包含有5 000句wav格式的蒙古语音频以及5 000句蒙古语文本。所有的蒙古语语料音频均为单声道,录音过程中采用的采样率为16kHz,音频数据存储时的比特位宽度为16位。蒙古语为音标型文字,每一个词都是由一到多个蒙古语音标组成的,英语的文字组成与蒙古语的这一特性较为相似,且拥有大量的公开数据集,所以选用英语作为高资源语种。

英语数据集采用英语和捷克语电话语音语料库Vystadial 2013数据集中约45个小时的英语语料voip_en中分层抽取的9h英语语料训练集,0.5h开发集,0.5h测试语料集所构成的英语语料数据集voip_en_10h。语料中包含有10 000句wav格式的蒙古语音频以及10 000句英语文本。所有的英语语料音频为单声道,采样率为16kHz,音频存储的比特位宽度为16位。

在高资源模型数据量对层迁移模型的影响实验中,分别使用了由voip_en_10h训练集中随机抽取的3h、6h和9h的英语语料数据得到voip_en_3h、voip_en_6h、voip_en_9h三个数据集对基于CNN-CTC的英语声学模型进行训练。

4.1.2 模型相关设置

在本实验中,基于CNN-CTC的英语声学模型结构均为第3节中得到的在voip_en_10h数据集上表现最佳的包含5个卷积块的模型结构。基于CNN-CTC的蒙古语层迁移语音识别模型为包含5个卷积块的基于CNN-CTC的蒙古语声学模型结构。

实验中所有模型都采用ReLU函数作为神经元节点的激活函数,采用Adam优化函数。模型中迁移而来的卷积块学习率设置为α、其他层学习率设置为β,一阶矩估计的指数衰减率设置为0.9,二阶矩估计的指数衰减率设置为0.999,每次参数更新后学习率衰减值设置为0.0,模糊因子设置为10-8。

4.2 评价指标

5 实验与结果分析

为了确定模型中迁移而来的卷积块学习率α和其他层学习率β的最佳设置值,验证层迁移的有效性,得到最佳的迁移层选择策略和高资源模型训练所使用的语料数量与层模型性能的关系,本文设计了层迁移模型训练中学习率选择实验、层迁移有效性实验、迁移层选择策略实验和高资源模型训练数据量对层迁移模型的影响实验。

5.1 层迁移模型训练中学习率选择实验

本实验使用voip_en_10h英语语料数据集训练的基于CNN-CTC的英语声学模型,对基于CNN-CTC的蒙古语层迁移语音识别模型,进行自下向上的选择策略进行第1至3个卷积块的迁移。实验中,将模型训练过程中优化函数的学习率α和β设置为多组不同值进行了实验,三组综合最好的实验结果如表2所示。

表2 层迁移模型训练实验结果对比

由实验结果可知,训练过程中的学习率α和β分别设置为0.000 01和0.000 1时模型在测试集上的WER最低,训练模型的时间较长。当学习率α和β分别设置为0.000 1和0.001时模型的训练耗时在实验中最短,在测试集上测试结果中WER比学习率α和β分别设置为0.000 01和0.001时略高。

因此学习率的设置应该根据实际应用场景中的具体情况决定,如果需要得到识别正确率更高的模型,同时可以接受一定程度上的训练耗时增加,则应该采用较低的学习率α和较低的β,也就是实验中的0.000 01和0.000 1两个取值;如果想要在尽量短的训练耗时下得到对识别正确率要求适当放松的模型,则学习率应该采用较低的α和稍高的β。

5.2 层迁移有效性实验

在卷积块数目为5时, CNN-CTC-Target模型与CNN-CTC-Mon-5、CNN-CTC-Mon-4三个模型在训练过程中,对应loss值变化的曲线对比如图5 所示。

图5 模型训练过程中loss值变化曲线对比

由图5可以看出,随着epoch的增加,三个模型的loss值下降。其中CNN-CTC-Mon-4模型相比CNN-CTC-Mon-5模型loss值下降得速度快,最终loss值低。而CNN-CTC-Target的收敛速度相较于前两者loss值下降速度更快,最终loss值低,故层迁移可以加速模型的训练速度,且收敛性更好。

图6为三个模型的WER对比图。由图6可以看出,在IMUT-Mon-4h数据集的训练集和测试集上,CNN-CTC-Target模型的WER都低于另外两个模型的WER。这说明基于CNN-CTC的蒙古语声学模型层迁移方法可以有效地降低基于CNN-CTC的蒙古语声学模型的WER。

图6 模型WER对比图

5.3 迁移层选择策略实验

在迁移层的选择实验中利用voip_en_10h英语语料数据集训练的基于CNN-CTC的英语声学模型对卷积块数目为5的面向低语料资源的蒙古语CNN-CTC层迁移声学模型分别以自下向上、自上向下和间隔抽取三种选择策略对模型卷积块进行层迁移实验。

实验中面向低语料资源的蒙古语CNN-CTC层迁移声学模型的卷积块数目为5,表3为采用自下向上的迁移层选择策略的实验结果。

表3 采用自下向上选择策略的不同模型WER

当实验采取自上向下的选择策略时,采用自上向下的迁移层选择策略进行迁移的面向低语料资源的蒙古语CNN-CTC层迁移声学模型的实验结果如表4所示。

表4 采用自上向下选择策略的不同模型WER

当实验采取间隔抽取的选择策略时,基于CNN-CTC的蒙古语层迁移语音识别模型的卷积块数目为5,采用间隔抽取的迁移层选择策略将基于CNN-CTC的英语声学模型中部分卷积块,迁移至面向低语料资源的蒙古语CNN-CTC层迁移声学模型的实验结果如表5所示。

表5 采用间隔抽取选择策略的不同模型WER

对采用不同迁移层选择策略的模型,在训练集和测试集上的WER随迁移卷积块数目的变化进行对比。

可以看出,在迁移过程中,当采取自下向上的迁移层选择策略时,且选取的迁移卷积块集合为1~3时取得最低WER。而且当使用自下向上的方法选取卷积块时,在选取的迁移卷积块集合中依次加入1、2、3时WER逐渐下降,当继续依次加入4和5时WER开始上升。当使用自上向下的策略选取卷积块时,开始时WER高于自下向上的选择策略。随着卷积块数目的增多,WER呈现逐渐下降的态势。当使用间隔抽取的策略时,迁移卷积块集合为1和3时模型的WER,低于在集合中继续加入5后的WER,且迁移卷积块集合为2和4时模型的WER,低于集合为3和5的WER。

这说明在层迁移过程中所迁移的卷积块接近输入层时,其迁移后对基于CNN-CTC的蒙古语层迁移语音识别模型的性能提升相对较大。相反,所迁移的卷积块越接近输出层,其迁移后对层迁移声学模型的性能提升较小,甚至有可能产生负面影响。

5.4 高资源模型训练数据量对层迁移模型的影响实验

图7为使用不同高资源模型训练数据量得到的层迁移模型在训练集和测试集上的WER变化折线图。

图7 数据量对层迁移模型的影响实验结果

由图7可知,WER随着高资源模型训练语料的增加逐渐下降,说明在一定的数据量下,随着高资源模型所使用的训练语料的增加,层迁移模型的性能会逐渐提高,最终的模型识别WER会逐渐降低。

6 结论

本文为了使基于CNN-CTC的蒙古语声学模型可以在低资源的限制下达到更高的识别准确率,提出了基于CNN-CTC的蒙古语层迁移语音识别模型,并对层迁移模型进行了实验探究。实验确定了合适的学习率α和β,并表明层迁移模型可以在一定程度上加速基于CNN-CTC的蒙古语声学模型的训练速度,有效降低模型的WER。当采用自下向上的迁移层选择策略时,可以获得最佳的层迁移模型。当层迁移过程中所迁移的源模型卷积块接近输入层时,对目标模型的性能提升相对较大。

猜你喜欢

蒙古语声学语料
基于端到端的蒙古语异形同音词声学建模方法
基于归一化点向互信息的低资源平行语料过滤方法*
爱的就是这股Hi-Fi味 Davis Acoustics(戴维斯声学)Balthus 70
提高翻译水平对年轻一代蒙古语广播工作者的重要性
Acoustical Treatment Primer:Diffusion谈谈声学处理中的“扩散”
Acoustical Treatment Primer:Absorption谈谈声学处理中的“吸声”(二)
Acoustical Treatment Primer:Absorption 谈谈声学处理中的“吸声”
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法
英语教学中真实语料的运用