APP下载

基于SOFMNN模型的新疆方言语音识别研究∗

2018-07-31房锐林邓美娟赵文文

计算机与数字工程 2018年7期
关键词:特征参数计算公式神经元

刘 彪 房锐林 邓美娟 赵文文

(1.解放军69230部队 乌苏 833000)(2.兰州大学 兰州 730000)

1 引言

1.1 新疆方言的作用

新疆从古至今是多民族共处、多文化汇集、多语言交流的地区。方言作为一个地方文化认同的独特标志,已经演变成同乡人互相认同的最直接、最重要的人文现象。本文研究的新疆方言识别,指的是汉语方言的识别,对于增进新疆的民族团结和文化凝聚力,有着特殊而现实的意义。

1.2 新疆方言的特点

新疆方言经过长期的吸收和发展,展现出继承古代汉语发音和多民族语言交叉融合等特点。

继承古代汉语发音。新疆方言中还在使用的古代汉语词中以名词和动词最多,其次是形容词,最少的是虚词,覆盖了社会活动的各个方面。新疆方言的发音具体区别如下:

名词:在新疆方言中最为普遍。目前还有“工夫”(时间)、“话靶”(谈论的目标)、“胰子”(香皂)、“想头”(念头)、“跟前”(眼前)、“记性”(记忆力)、“吃食”(饭菜)等名词在使用。

动词:有“抠搜”(吝啬),“拌嘴”(争吵)等词在使用。

形容词:包括“老到”(厉害)、“攒劲”(利索)等词在使用。

副词:诸如“约莫”(似乎),“囫囵”(完整)、“管保”(确定)等词在使用。

介词、代词、连词、助词:如“打”(跟随)、“但”(假如)、“连”(与)、“几时”(何时)词在使用。

多民族语言交叉融合。由于维吾尔族人口占新疆总人口的45.8%左右,所以新疆方言中多从维吾尔语借用,然后随着历史发展而逐渐交叉融合,主要分为三种:以读音相近的字翻译形成的音译词,如“海拿”(风仙花)、“皮牙子”(洋葱)等;把意义移植过来的意译词,如,“肚子胀”(不愉快)、“眼睛小”(小气)等;维吾尔语与汉语交叉的融合词,如“甩阿娃子”(撒谎)、“做乃玛子”(伊斯兰教徒做礼拜)等由汉语词+维吾尔语词音译构成的短语[1]。

1.3 当前研究方言的优缺点

当前很多学者在方言的识别上做了大量的研究。文献[2]采用了基于DTW算法的HMM模型,识别大词汇量效果不理想。文献[3]构建深度模型平台,出错率较低,但需要时间和运算资源较多。文献[4]建立高斯混合模型,提取差分特征参数后,识别精度尚可,但依赖于统计的样本数。在本文的研究中,从新疆方言的发音特征着手,采集了部分新疆方言语料库,建立和训练SOFMNN模型,实现新疆方言至普通话的语音识别。仿真实验数据表明,运用SOFMNN模型进行新疆方言的识别,有较好的准确率和鲁棒性。

2 特征参数的提取

2.1 声学模型

声学特征的提取与选择,是将采集到的声音数据通过一定的算法转换为计算机能够识别和处理的特征序列。梅尔频倒普系统(Mel Frequency Cepstrum Coefficient,MFCC),将得到的特征序列进行语音信号增强和非语音信号抑制,在语音识别中被广泛使用。图1展示了线性频率与梅尔频率的关系,图2展示了语音信号转换为MFCC特征参数的步骤和过程[5]。梅尔频率计算公式:

其中f为原始语音频率。

图1 线性频率与梅尔频率的关系

图2 转换MFCC特征参数的步骤和过程

2.2 转换和计算过程

预加重。为在低频到高频整个范围内,采用指定的信噪比计算频谱,需要把声音信号通过滤波器,调高高频部分,使信号频谱变得平整。最后,使用过滤突出高频的共振峰,补偿语音信号受抑制部分。其过滤公式为

其中μ为滤波参数。

分帧加窗。先将语音信号采样点量化成一个观测单位,再乘以汉明窗,以增加帧的左右端连续性。为防止相邻帧变动过大,让邻帧之间有一段堆叠区域,此堆叠区域包含N个取样点,通常N的值约为采样点个数的1/3或1/2。若语音信号的采样频率为16KHz,帧长度为256个采样点,则对应的时间长度是256/16000×1000=16ms。分帧加窗的计算公式为

其中S(n)为分帧后的信号,W(n)为

其中a为经验参数,其值通常取0.46,N为帧大小。

快速傅里叶变换。为得到语音信号的功率谱,需要对帧信号对频谱取模平方然后采用快速傅里叶变换。语音输入信号x(n)为的计算公式为

三角带通滤波器。采用梅尔尺度的三角形滤波器组实现对频谱进行平整化,突显原有的共振峰[6]。

频率响应Hm(k)的计算公式为

计算输出能量对数:

进行DCT(离散余弦变换)得到MFCC系数:

将s(m)代入C(n),得到L阶的梅尔特征参数[7~8]。

对数能量。表示帧的能量,计算公式如下:

动态差分参数的提取。为提高系统的识别性能,需要计算语音信号的动态特性和静态特征的差分谱,计算公式为

其中,K为时间差,Dt为第t个一阶差分,Ct为第t个倒谱系数,Q为倒谱系数的阶数[9~10]。

3 学习和训练模型

3.1 自组织特征映射神经网络的结构

自组织特征映射神经网络(Self-Organizing Feature Mapping Neural Network,SOFMNN)根据学习获得的知识经验对复杂问题进行合理的判断决策,通过使用无监督学习方法,输入层直接量化输入数据,竞争层对输入层数据按二维形式排列优化加权计算,这两层的神经元相互连接,输出层数据要依据具体问题来确定,特征映射可以看成是信息从n维的输入模式空间向二维输出特征平面的非线性投影。在SOFMNN模型中,每次与获胜神经元对应的权值和阈值得到调整,其邻近范围内的其他神经元也有机会进行权值和阈值调整,这在很大程度上改善了网络的学习能力和泛化能力[11]。其结构图如图3所示。

图3 SOFMNN网络结构图

3.2 学习和训练算法

网络初始化。如图3所示,输入层由R个神经元,竞争层由S1个神经元构成。对竞争层各神经元赋以较小的随机数作为初始值,(i=1,2,…,S1)表示第i个竞争层神经元与第j个输入层神经元的连接权值。同时设定学习领域为Nc,初始学习速率为η,迭代次数初始值为N=1,最大迭代次数为T[12]。

计算获胜神经元。随机抽取一个样本p,根据

权值更新。对获胜的神经元k及其学习领域Nc(t)内的所有神经元进行权值更新[13]。

学习速率及领域更新。在进入下一次迭代前,先对获胜的神经元在学习领域内权值进行更新完成,然后更新学习速率及领域,即

其中,符号表示向上取整。

迭代结束判断。如果训练数据没有学习完,则随机抽取一个训练数据,重新返回步骤(2)。若N<T,令N=N+1,执行上面的操作;否则,迭代结束[14~15]。

4 实验分析

为实现SOFMNN模型的建立及性能评价,分为以下几个步骤,如图4所示。

数据采集。为了验证刚才建立的SOFMNN模型具有较好的鲁棒性,面向15人(8男7女)采集了20组方言数据。其中10人作为训练数据集,5人作为测试数据集。

创建和训练SOFMNN模型。确定竞争层神经元的数据及拓扑结构。同时考虑邻近距离、距离函数及训练次数等参数对网络性能的影响。将训练数据集经过MFCC特征提取后作为参数输入SOFMNN模型进行训练。

图4 仿真实验步骤

创建和训练HMM模型。将训练数据集经过MFCC特征提取后作为参数输入HMM模型进行训练。

仿真测试。如表1所示,在SOFMNN和HMM模型学习训练之后,随机抽取10人共计200条数据作为训练数据集送入训练模型,余下的5人共计100条数据作为测试数据集,在模型输出对应的识别结果。

表1 训练数据集和测试数据集

性能评估。因为采取的是随机抽取学习训练数据,因此每次运结果都会有所不同。运行10次的识别结果对比如表2所示。通过对比,不难发现SOFMNN因其正确识别的概率比HMM模型的正确率要高。

表2 HMM模型与SOFMNN模型的正确率对比

5 结语

本文提出的基于SOFMNN模型构建新疆方言语音识别的方法,语音特征参数采用传统的MF⁃CC,仿真实验结果表明,该系统最高识别率可达97%。由于SOFMNN模型的竞争层中出现“死”神经元会对网络性能的造成一定影响,需要增加其阈值的调整幅度,可以使其逐渐成为获胜神经元,从而赢得公平竞争的机会。此外,本文比较了采用同样语音特征MFCC参数的情况下,使用传统的HMM模型对同批次数据的识别率均低于采用SOFMNN模型的识别过程。SOFMNN模型在识别语音时,需要预先设定网络的拓扑结构,在训练过程中其拓扑结构保持不变,这导致在训练结束之后才会发现采用不同的网络拓扑结构或许有更好的输出正确率。在很多具体的应用中,并没有足够的先验知识去设定出对应的SOFMNN模型的规模,这有待于下一步更深入的研究和实践。

猜你喜欢

特征参数计算公式神经元
电机温升计算公式的推导和应用
基于视频图像序列的船用雷达目标检测和目标特征参数提取
AI讲座:神经网络的空间对应
融合LPCC和MFCC的支持向量机OSAHS鼾声识别
仿生芯片可再现生物神经元行为
谈拟柱体的体积
这个神经元负责改变我们的习惯
说话人识别特征参数MFCC的提取与分析
研究人员精确定位控制饮酒的神经元
微分在近似计算中的应用