基于数据压缩与改进的概率神经网络的贵州方言辨识

2019-09-10艾虎李菲

现代信息科技 2019年6期

艾虎李菲

关键词：汉语方言辨识;梅尔频率倒谱系数;主成分分析;概率神经网络

中图分类号：TP391.4 文献标识码：A 文章编号：2096-4706（2019）06-0005-05

Abstract：In order to judge the location of the suspect’s dialect，it provides important clues for the detection of the case. In this study，600 phonetic samples of different ages and sexes were collected from 6 different regions of Guizhou and the Mel frequency cepstrum coefficient MFCC was extracted from the samples. The Principal Component Analysis （PCA） and the data compression method proposed in this study are used to reduce the dimensionality of the MFCC to get the data set used in the training of probabilistic neural network. Then the probabilistic neural network is improved，and then it is used to construct the identification model of Guizhou dialect. The simulation results show that the correlation coefficient R between the dialect model identification result and the actual result is 90%. This model can effectively identify the dialects in Guizhou.

Keywords：Chinese dialect identification;mel frequency cepstrum coefficients;principal component analysis;probabilistic neural network

0 引言

现代通讯工具在案件侦破中扮演着重要角色，对其中的语音信息进行方言辨识，可以判断犯罪嫌疑人的方言归属地，从而为案件侦破提供重要线索。由于方言的发音差异主要体现在频谱结构的时间变化上[1]，所以需要提取梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCC）。因为方言辨识模型的训练需要大量的语音样本，导致提取的MFCC的数据量巨大，所以有必要先对所提取的MFCC进行降维和压缩处理，然后构建分类模型进行方言辨识。

近年来，国内在汉语方言辨识方面采用的算法有流形学习与特征融合、联合多样性密度和深层与深度神经网络[2-5]等。本研究提出一种基于数据压缩和改进的概率神经网络的方言辨识模型，该模型采用了主成分分析与本研究所提出的数据压缩方法对MFCC进行降维处理，得到用于概率神经网络训练和仿真的数据集，并对概率神经网络进行了改进，该模型能有效地对贵州地区方言进行辨识。

1 MFCC的相关知识

MFCC是基于人耳听觉特性提出来的，先将频谱转化为基于Mel频标的非线性频谱，然后通过转换得到倒谱域，由于MFCC在没有任何前提假设的条件下，充分考虑了人的听觉特性，因此MFCC具有良好的辨识性能和抗噪性，广泛地应用在语音辨识领域[6]。

本研究收集和整理了贵阳市、安顺市、遵义市、凯里市、都匀市和六盘水市6个地区不同性别和不同年龄（年龄区间为8～60岁）的600份方言语音样本，收集到的语音样本时长5～20秒不等，把收集到的语音样本平分为两份，一份用来训练概率神经网络，另一份用来验证概率神经网络。

语音采样率为8000Hz;采样点数256;帧长设为32ms;帧移10ms;所提取的MFCC为24维，其全部组成为：12维MFCC系数和12维一阶差分参数。所以一个语音文件提取得到的MFCC是一个N×24的矩阵。

3 MFCC的降维处理

3.1 主成分分析

PCA最初由Pearsan[7]于1901年提出，常用于减少数据集的维数，保留数据中对方差贡献较大的特征向量。其方法主要是通过对协方差矩阵进行特征分解[8]，从而得到数据集的主要成分和相应的权重。本研究选取文件名为“贵阳-1”的语音样本进行MFCC提取，然后进行主成分分析，得到24个特征向量的方差贡献率，按方差贡献率从小到大进行排列并绘制直方图，如图1所示，然后取横坐标上的13到24，共12个特征向量组成数据集替代MFCC矩阵，这12个特征向量其方差贡献率的总和为0.8509。

通过主成分分析，“贵阳-1”语音样本的MFCC矩阵的列数由24降为12。其它语音样本也按照上面的主成分分析进行降维处理。

3.2 MFCC的数据压缩

为了更好地发挥概率神经网络的鲁棒性，需要采集大量语音样本作为概率神经网络的训练数据集，每个语音样本提取的MFCC经过主成分分析后只是减少了列数，大量语音样本的MFCC拼接在一起依然是行数巨大的矩阵，为了加快概率神经网络仿真时间，并确保仿真的准确率，以及让概率神经网络模型得到实际应用，需要对该矩阵的列向量进行数据压缩。

本研究提出一种压缩方法，首先对MFCC的数据矩阵的每一列向量按m个元素个数进行初步分段。初步分段结束后，初步分段的第一段向前扩展m/2个元素，得到第一段，如式（5）所示，初步分段的中间所有段分别向前后扩展m/2个元素得到中间的每段，如式（6）所示，初步分段的最后一段向后扩展m/2个元素得到最后一段，如式（7）所示。这样的分段方式让每一分段都和相邻的分段有重叠区域，然后计算每段数据的平均数与标准差的乘积，用该乘积替代该段数据。

4 改进的概率神经网络方言辨识模型

概率神经网络（Probabilistic Neural Network，PNN）适合用于模式分类，属于径向基神经网络的一种，是基于贝叶斯最小风险准则发展而来的一种并行算法，由美国加州Specht博士[9，10]在1988年提出。

4.1 概率神经网络PNN的改进

改进的概率神经网络模型如图2所示，该模型由六部分组成：输入层、样本层、求和层、竞争层、储存求和层和储存竞争层，虚线框为改进的部分，包括储存求和层和储存竞争层。

4.2 概率神经网络的训练

一个语音样本的MFCC经过PCA和压缩处理后得到一个数据矩阵，然后对该矩阵进行转置，按语音样本的输入顺序把不同样本的数据矩阵横向拼接，从而得到该概率神经网络模型的输入矩阵Pn。对上述位于贵州省的6个采样地区进行1～6编号，同一个地区的语音样本使用相同的编号，每一个语音样本中的每一个列向量对应该语音样本的编号，从而实现一个语音样本对应一个N维行向量ti，按语音样本的输入顺序，把不同样本的ti进行横向拼接，最后得到该模型的训练数据集的输出矩阵Tn。把输入向量矩阵Pn和输出向量Tn输入概率神经网络PNN中，向量矩阵Pn构成样本层，每一列向量对应一个结点，样本层结点的数目等于矩阵Pn列数。在求合层中，输出向量Tn中，值相同的元素构成同一结点，即求合层中结点数等于地区数，样本层中的结点连接与其所属地区相同的求合层结点。完成概率神经网络模型的输入矩阵Pn和输出矩阵Tn的输入，即完成概率神经网络方言辨识模型的训练。

平滑因子σ在概率神经网络模型中很重要，太大会导致每个神经元响应区域交叉过多，会带来精度问题，过小会导致过拟合[11]。为了方便确定平滑因子σ，采用Matlab的newpnn（）函数构建另一个概率神经网络，把上述的训练数据分成数量相等的两部分，一部分用于训练，另一部分用于仿真，通过反复训练与仿真确定平滑因子σ为0.1。该平滑因子σ=0.1同样适用于本研究所构建的概率神经网络方言辨识模型。

4.3 概率神经网络的仿真

首先，每次仿真只选择一个方言语音样本，然后对该语音样本进行MFCC的提取，按上述的方法进行PCA降维和数据压缩得到输入矩阵Px，然后把输入矩阵Px中的列向量依次输入训练好的概率神经网络模型中，列向量中的每一个元素对应输入层一个结点，通过计算得到输入向量与训练样本矩阵Pn中各个向量的接近程度值yik，yik为样本层的输出值，其值的大小为这两个向量之间的距离，如式（8）所示。

测试使用电脑的配置：戴尔OptiPlex 9020 Mini To-wer;英特尔酷睿i7-4790 @ 3.60GHz 四核;显卡AMD Radeon R5 240（1GB/戴尔）;内存8GB（三星DDR3 1600MHz）。

把收集到的600份语音样本平分为两份，一份用来训练概率神经网络，别一份用来仿真验证概率神经网络。在进行数据压缩时，为了选择合适的分段大小，本研究对不同的分段大小进行测试和比较，测试和比较的结果如表1所示，相关系数R为方言模型辨识结果与实际结果的相关系数。通过测试结果的比较得出分段大小取30最合适，分段大小取30时，仿真结果与实际结果的散点图如图3所示，相关系数R为90.903%。

本研究采用概率神经网络对贵州方言进行辨识，由于概率神经网络的鲁棒性建立在大量训练样本的基础之上，所以需要采集大量的方言语音样本，由于每一个语音樣本所提取MFCC是一个矩阵，从而导致训练样本巨大，庞大的训练数据集会让概率神经网络仿真时间变长，失去实用价值。为了让概率神经网络贵州方言辨识模型可用于处理实际事务，本研究首先采用PCA对MFCC进行降维处理，然后再对其列向量进行分段和压缩，并通过优化与比较确定分段大小取30最合适。经过降维与压缩处理后的训练数据集能有效缩短概率神经网络的仿真时间，并且模型仿真结果与实际结果的相关系数R达到0.90903，如表1所示。

由于每一个语音样本所提取MFCC经过PCA降维和数据压缩后仍然是一个矩阵，输入概率神经网络后矩阵的每一列向量分别有一个输出，所以需要在原有的基础上对概率神经网络进行改进，把每一列向量的输出进行储存，然后对同一个语音样本的所有输出进行求和比较，最后得出该语音样本的辨识结果。

7 结论

本文采用PCA和本研究所提出的数据压缩方法对贵州方言样本的MFCC进行降维处理，得到用于概率神经网络训练的数据集，然后对概率神经网络进行改进，并构建贵州方言辨识模型，训练完成的模型能有效对贵州方言进行辨识。

参考文献：

[1] BAKER W，EDDINGTON D，NAY L. Dialect identi-fication：The effects of region of origin and amount of experience [J]. American Speech，2009，84（1）：48-71.

[2] 賈晶晶，顾明亮，朱恂，等.基于流形学习与特征融合的汉语方言辨识 [J].计算机工程与应用，2015，51（7）：233-237.

[3] 顾明亮，张世形，张浩，等.基于联合多样性密度的汉语方言辨识 [J].计算机工程与应用，2016，52（10）：161-166.

[4] 景亚鹏，郑骏，胡文心.基于深层神经网络（DNN）的汉语方言种属语音识别 [J].华东师范大学学报（自然科学版），2014（1）：60-67.

[5] 崔瑞莲，宋彦，蒋兵，等.基于深度神经网络的语种识别 [J].模式识别与人工智能，2015，28（12）：1093-1099.

[6] 张毅，黎小松，罗元，等.基于人耳听觉特性的语音识别预处理研究 [J].计算机仿真，2015，32（12）：322-326.

[7] Pearson K. On lines and planes of closest fit to systems of points in space [J]. The London，Edinburgh，and Dublin Philosophical Magazine and Journal of Science，1901，2（6）：559-572.

[8] Abdi H，Williams LJ. Principal component analysis [J]. Wiley Interdisciplinary Reviews Computational Statistics，2010，2（4）：433-459.

[9] SPECHT DF. Probabilistic neural networks for classification，mapping，or associative memory [C]// Neural Networks，1988.，IEEE International Conference on. S.l.：s.n.，1988：525-532.

[10] Specht DF. Probabilistic neural networks [J]. Neural Networks，1990，3（3）：109-118.

[11] 董长虹.Matlab神经网络与应用（第2版） [M].北京：国防工业出版社，2007.

通讯作者：艾虎（1974-），男，汉族，江西弋阳人，博士，副教授，研究方向：声音与图像。