基于MATLAB语音信号处理一体化方法分析构建

2017-09-25王永飞

陕西学前师范学院学报 2017年9期

关键词：浊音清音信号处理

王永飞

(铜陵职业技术学院，安徽铜陵 244000)

■哲学·政治·法学研究

基于MATLAB语音信号处理一体化方法分析构建

王永飞

(铜陵职业技术学院，安徽铜陵 244000)

随着语音信息应用重要性突显，语音信息的分析方法是当前计算机应用的一个热点。通过随机采集的语音数据，分析语音数据信息，可以寻求一种“一体化”语音数据分析方法，对清音和浊音进行实验论证，与其它语音数据方法比较，能更好分析语音数据。

“一体化”分析法;激励;线性预测分析

MATLAB是一种用于数据可视化和数据分析等方面的标准计算软件。语音信息是人类重要的信息交换形式。语音信号处理是将数字信号处理技术与语音学和心理学等多学科相结合的新兴交叉学科，也是目前信息学研究领域的前沿。本研究通过对随机采样的语音信息从产生机理和信息特征两方面进行探索，提出了“一体化”研究语音方法，并识别清音、浊音，期望能为语音在线识别研究提供一定的依据。

1 语音信号理论基础

语音是声门气流通过声道时产生振动而形成的，并与发音时的嘴型有关，按其激励方式可分为清音和浊音。设定每次声带开闭时长为一个基音周期，基音的频率范围一般在80-450HZ左右，声道改变形状时，通过声道管的共振峰(声道管谐振频率)可识别浊音。

经验表明，声道面积在10-20ms内，语音音效可认为是稳态的，准周期脉冲发浊音，随机噪声发清音，语音形成过程可仿真为一个渐变的线性模型。

语音信号自1940年Dudley声码器语音信号起，出现了数字滤波器、傅立叶变换、隐马尔可夫模型和人工神经网络等语音信号处理技术；1990年后，鲁棒语音识别结合隐马尔可夫模型处理技术语音处理技术的热点[1]，提出了一种平行子状态隐马尔可夫模型用作噪声鲁棒语音识别的声学模型。本文提出的“一体化”分析方法是基于语音产生机理分析，目前，还未见到这种分析方法介绍，是一种探索语音信号处理技术的新途径。

2 语音“一体化”分析方法模型

本研究从产生语音的声门、声道振动和发音时嘴型变化出发，整合声门、声振和发音时嘴型变化等特征，建立相应的模拟函数，形成语音“一体化”分析方法，其工作原理如图1所示。

图1 “一体化”分析方法工作原理

3 实验与分析

根据Nyquist定理，语音取样率须是信号带宽的2倍以上，保证取样过程中不丢失信息[2]。对输入的语音信号先滤波，截样频率由语音实际带宽确定，语音波形动态范围一般为55dB。本研究采用量化位数为10位以上，以保证实验效果。语音信号数字分析前，需要高频提升和分帧处理等预处理。分帧时每帧时长约为10-20ms。将此段语音信号进行取样，获取以时间为基础的离散数字信号。我们随机选取一段采样率为44100HZ，16位量化，时长5s的语音，内容为“我是中国人，我来自安徽”的音频作为实验数据。

3.1 实验数据“一体化”法有效性分析

本研究随机采集的语音波形如图2所示。为进一步验证“一体化”法有效性，实验中再随机选取一段采样率为44100HZ，16位量化，时长5s的白噪声，波型如图3所示。实验采集的语音加入白噪声及滤波后如图4所示。

图2 采集的语音波形

图3 白噪音波形

图4 加白噪音及滤波后波形

通过“一体化”分析方法，对上述两部分语音数据段进行16K、8K和4K抽样和恢复比较，实验结果如图5。

图5 16K、8K和4K抽样和恢复比较

实验表明，原始数据信息与含有白噪音语音段在不同频率段中的波型相似度较高，恢复比较实验中不同频率的频谱信息高度相似。表明“一体化”方法处理后对语音数据处理的有效性。

3.2 “一体化”法语音清、浊音识别

清音和浊音是语音信息中最重要的组成部分，语谱图直接反映语音能量分布[3]。我们先对合成语音数据绘制语谱图，窗长分别为512和128，如图6所示。

图6 合成语音数据语谱图

通过图示的语音信号能量分布比，浊音因其准周期性，显示为条纹图形，清音部分的图形显示为细密，由图6可初步识别清、浊音分布情况。为了更进一步验证“一体化”在识别清音和浊音上的有效性，我们从以下几个方面进行深入探讨。

3.2.1 从过零角度分析

计算过零率如图7。

图7 过零率

由图7可知，不同的窗口长度，过零率接近相同。虽然浊音能量相对清音能量高，浊音过零率较清音过零率低，但清音和浊音能量有部分相互交叠，仅仅依据过零率高低来准确判别清音和浊音很不合理。为准确识别清音和浊音，我们考虑从其它角度分析语音特征。

3.2.2 从能量和幅度角度分析

图8 语音能量

图9 语音幅度

实验表明，因语音基音周期值时变性，从语音能量和语音幅度两个角度入手，对语音数据进行分帧处理，对语音数据一体化处理后，清、浊音由图9可更直接识别。

3.2.3 从发音机理角度分析

我们对实验数据利用上述的矩形窗函数结合自修正函数对第5帧(清音帧)和第10帧(浊音帧)信息分帧分析如图10所示。

图10 语音信息分帧分析

实验表明，从语音能量和幅度识别第5帧是清音帧、第10帧是浊音帧。我们从发音机理角度对识别的清音帧和浊音帧进行相关性验证，实验结果证明了“一体化”分析语音的有效性。

3.3 “一体化”法与线性预测分析(LPC)比较

线性预测分析是目前研究语音信息的一种重要方式。线性预测分析经常采用的模型有3类，分别是AR(全极点模型)、MA(全零点模型)和ARMA(既有零点又有极点的模型)[4]。线性预测分析是在假定语音短时平稳基础上进行的，实践表明LPC参数是反映语音信号特征的良好参数。

线性预测分析采用AR模型对本研究数据处理如图11所示，在语音能量大的区域(谱峰)LPC谱和信号谱匹配较好；而在能量低(谷底)的区域谱匹配不理想。另外，对于浊音谱在谐波成分处比谐波间匹配程度好。与图9和图10比对后，经“一体化”法处理后的数据，更能直接和准确的反映语音基本特征。

图11 线性预测分析

本研究通过对随机采样的语音信息进行研究，构建了语音“一体化”分析方法，通过“一体化”分析方法对语音进行合成、抽样和恢复分析；结合不同的窗函数对清音和浊音从不同的角度进行判别；与线性预测分析进行比对，验证了“一体化”分析方法的更优性。

[1] 王艳芬，刘卫东．信号处理课程群专业课“语音信号处理”的改革实践[J]．中国电力教育，2013(7):75-76．

[2] 王玉静．语音信号的盲源分离算法研究[D]．无锡:江南大学，2012．

[3] 赵力.语音信号处理[M].2版.北京：机械工业出版社，2010.

[4] 陶华伟，査诚，梁瑞宇，张昕然，赵力，王青云.面向语音情感识别的语谱图特征提取算法[J].东南大学学报(自然科学版)，2015，05:817-821.

[责任编辑朱毅然]

AStudyontheMethodsoftheSpeechSoundsSignalProcessingConstructionBasedonMATLAB

WANGYong-fei

(TonglingVocationalTechnologyCollege,Tongling244000,China)

As it is more and more important of speech sounds application, the analysis methods of speech sounds is a hot topics today. This paper analyzed the data information of speech sounds, proposed the countermeasure methods, did the practical demonstration, compared with other data analyzing methods by deeply researching the randomly collecting data information.

unified analyzing methods; encouragement; linear prediction analysis

2017-03-15;

：2017-04-11

安徽省教育厅人文重点课题(SK2016A0941)

王永飞，男，安徽池州人，铜陵职业技术学院副教授，主要研究方向：智能信息处理。

TP391

： A

： 2095-770X(2017)09-0135-05

http://sxxqsfxy.ijournal.cn/ch/index.aspxdoi： 10.11995/j.issn.2095-770X.2017.09.030