APP下载

深度学习神经网络在语音识别中的应用探讨

2021-04-11德州职业技术学院

电子世界 2021年6期
关键词:特征提取语音神经网络

德州职业技术学院 张 丹

在大数据时代下,传统的机器学习算法下所展开的语音数据处理模式下的计算活动已经不能够满足人们对于语音数据的需求。因此展开对语音识别模型的研究探索,成为当前计算机平台的研究热点之一。本文主要研究如何将深度学习神经网络应用于语音识别中,探索基于深度学习神经网络的语音识别系统的网络整体结构以及结构运行流程,最终呈现出一种更加优良的语音识别模型。

1 语音识别的基本原理

1.1 语音识别的原理

语音识别顾名思义就是利用语音机器来展开对自然语音的处理。根据现有的计算机平台语音识别机器的运行流程可知,语音识别需要经过完成以下的基本流程,如图1所示。

图1 语音识别流程

但是自然语音数据的收集过程中,存在语音信号可变性的特点。如,声学变量中相同音素在不同文本中的不同发音,导致语音机器所接收到的语音音素变量差距较大。也有噪声现象影响语音信号的声学模型的,改变语音信源信息。因此做好语音识别必须能够做好语音信号的特征精准提取,完成语音信号数字化采样和数字化的声学信号分析。

1.2 语音识别主要流程

上述提到语音识别的基本流程特点,同时也强调了在整个流程中会对语音识别效率和结果带来影响的若干因素,对于这些影响因素的分析,归根究底是因为语音信号的预处理以及其特征提取的过程没有做好。

语音信号的预处理。语音信号在产生的时候,计算机平台中的语音机器要能够对这些信号进行采样和量化,将语音信号以数字形式预加重处理,而后根据语音信号的数字形式中的高中低频幅度相当的特点,进行分帧加窗,完成语音帧序列特征提取,形成特征向量序列,便于语音机器模型的识别和测试。以语音信号预加重处理为例,一般情况下是采用硬件或是软件两种方式实现预加重处理,通过选择一个特性的高通滤波器进行预加重处理,完成滤波器传递函数“H(z)=de1-aZ-1”其中,a为0.9375,为该语音识别模型的预加重系数。

语音信号的特征提取。语音信号中拥有多种特征参数,正是这些特征参数让语音信号能够被语音机器所识别和处理。常用的特征参数又有线性预测倒谱系数和美尔频率倒谱系数。本文以线性预测系数为例展开对语音信号的特征提取分析。一般的语音信号是通过激励不同形状的声道模型而产生的,语音识别模型可以对声道的形状或模型估测出参数得到语音信号的特征,完成语音识别。线性预测系数模式就是通过一过去若干个运用语音采样的线性组合来逼近一个语音信号,并且利用实际语音采样和线性预测采样之间的误差值平方和的最小值来表达这一参数值lpc。另外还有线性预测倒谱系数,该系数是通过线性预测系数的倒谱域所表示出来的,整体运算过程较为繁琐,具体如图2所示。

图2 线性预测倒谱系数流程图

2 深度学习神经网络模型

人工神经网络能够基于大规模历史数据训练、聚类,完成对海量的数据的处理、分布存储,更能够完成对各种非确定性和非线性对象的综合处理。语音识别正是借助人工神经网络,从人脑的组织架构和活动基理入手,借助数学和物理方法进行抽象建立起来的对语音信息的处理的类似生物神经网络的简化模型。传统语音识别所采用的神经网络模型为反向传播网络结构。该神经网络模型主要是根据系统所提供的原始数据,通过训练和学习的方式,表达语音输入和输出之间的内在联系,进而解得答案。反向传播网络模型在语音识别中的应用需要注意利用函数逼近与分类的区别,完成对子模型结构的选择,确定语音输入层和输出层节点数、网络隐含层数目以及每层隐含层神经元数目;展开对语音样本的预处理,进行激励函数形式的选择等。在反响传播网络模型下的语音识别领域能够展开并行分布处理工作,具有较高的容错性、自学习和自适应性。但是同时,反响传播网络模型在也语音识别中所需要消耗的学习时间较长,遇到部分问题时,甚至需要运行更久,直接影响语音识别的及时性和精确性。因此导入一个全新的神经网络模型具有现实意义。

3 深度学习神经网络模型在语音识别中的应用

3.1 深度学习神经网络模型的仿真与实验

深度学习神经网络是一个新兴的神经网络模型,其发展速度较快,能够完成对各种特殊的孤立词的人语音识别。当前在应用神经网络模型进行语音识别时,需要根据人语音的特殊性,进行语音样本库建立,完成对深度学习神经网络模型的性能改进,最后构建起限制玻尔兹曼机模型,应用相应的分类器,完成语音识别整个流程。

语音样本库的建立。语音样本库的建立需要满足语音样本的完整清晰性,可以人耳清晰辨别人工所说的数字,完成常规语音数据采集。之后完成语音信号的预加重处理,预加重滤除相应的低频干扰,增加语音的高频分辨率,得到语音输入时域波形图。之后对语音端点进行检测,包括语音段、静音段和背景噪音的处理。对语音端点的检测和特征处理彩英时域端点侦测方式,将语音的帧长、帧移、短时平均能量的低门限、短时平均能量的高门限等参数进行设置,最终得到语音端点检测仿真波形图。

深度学习神经网络模型处理。在搭建起语音样本库之后,由于所识别的语音是汉语,因此在需要细致分析汉语语音的特殊性,进行整个神经网络模型的改进。当前可以采用输入矢量归一化探索,将输入数据同系统权系数修正值呈现出正相关关系,如此有效避免汉语语音特征进入到激励函数饱和区,影响识别的准确性。也可以采用网络链接矩阵初始值的浮点数的随机选取,让网络更加平稳的收敛,对各种语音特征输入输出处理更加稳定。

深度学习神经网络模型在语音识别中的实验应用。完成前期准备之后,开始发挥深度神经网络模型在语音识别中的实验应用。首先,实验主要是采用美尔倒谱系数与美尔倒谱系数一阶差分的混合参数作为语音信号的提取特征,将其以48×2输入矩阵横向展开,转化为96维的向量,让输入的数据大小都归集为[0,1]的闭合区间内。其次,构建限制玻尔兹曼机模型,展开参数的重新设置,可以采用小批量处理方式,将数据分别设置为包含1到10的是个样本,由此降低抽样误差。进行学习率设置,不能够设置过大,一般是控制在权值的0.003倍左右,本实验中设置为0.001。另外还有参数初始值、隐含层单元个数设置等等。最后,快速学习算法设计。

3.2 深度学习神经网络模型在语音识别中的应用效果

经过上述的仿真实验分析,深度学习神经网络模型在语音识别中其学习速率得到较大程度的提升,在线学习时的迭代次数为1000次,具有更高的学习效果。

结束语:综上所述,在新时代下语音识别技术在各行业中都得到广泛应用,但是语音信号的可变性为语音有效识别带来技术难题。如何有效地提高语音信号源信息的处理效率,提高语音信号的传输分析成为当务之急。按照语音识别的基本流程可知,语音信号的预处理和语音信号的特征提取直接影响着最终的识别效率和质量。当前借助深度学习神经网络模型完成语音识别工作。首先是要进行深度学习神经网络模型的架构,之后借助这一模型完成语音识别仿真实验,由此提出深度学习神经网络在语音识别中的具体应用成效。

猜你喜欢

特征提取语音神经网络
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定