神经网络在语音识别中的应用

2019-04-28冀瑞国

电子技术与软件工程 2019年3期

文/冀瑞国

现阶段智能终端与用户之间的人机交互方式仍然是触屏、键盘或鼠标，传统操作式的人机交互已经无法满足信息时代对信息快速交互的需求，创新式语音交互技术不仅提高了人机交互效率，而且属于人类所习惯的交互方式。语音交互的核心技术为语音识别技术，语音识别技术优劣直接决定了语音交互方式是否可用。截止目前，关于语音识别技术的研究已有数十载，基于英语的语音识别技术的准确率已接近98%，而基于汉语的语音识别技术的准确率却相对较低，主要是由于汉语的复杂度相对应用更广，同音字较多且发音较短致使语音识别精度降低。神经网络凭借其神经网络拓扑结构在识别方面具有更好的识别效果，基于此，本文对神经网络在语音识别的应用展开了研究。

1 语音识别系统研究

语音识别系统是通过对语音信号进行分析，与词汇语音进行匹配处理，使得计算机能理解语音信号所传递的信息。经典的语音识别系统结构主要包括信号预处理、特征提取、数据训练、匹配计算、识别判决。

通过对语音识别系统的结构进行分析可知，可将其划分为三个模块，信号预处理模块、语音特征提取模块、训练与识别模块。

（1）信号预处理处于系统的前端，语音信号的预处理将便于语音的特征提取，主要包括采样滤波、预加权、信号分帧、端点检测。其中本文的采样滤波的频率为8KHz，并选择预加权方式对高频阶段的语音进行加权处理，从而有效地提高其信噪比。在信号分帧方面，本文所采纳的时间段为20ms，并通过端点检测方法实现词汇信号与噪声信号的分割，从而完成语音信号的预处理。

（2）语音特征提取模块主要是为语音数据训练与识别提供分析数据，所以语音特征的合理选择不仅能提升识别模型的训练效率，而且能有效提高模型的识别精度。本文基于特征独立性、信号有效表征和精简计算的原则选择的语音特征主要包括线性预测系数（LPC）、线性预测倒谱系数（LPCC）、美儿频率倒谱系数（MFCC）、改进的混合MFCC。

（3）训练与识别模块作为语音识别系统的核心，主要是对特征进行分析得到信号归属词汇。目前常用的识别模型主要有神经网络、支持向量机、深度学习和人工智能，支持向量机的识别精度相对较低，深度学习与人工智能需要大量的训练样本且实时性较差。由于语音识别对识别精度和实时性要求较高，因此本文选择神经网络作为语音识别模型。

2 神经网络应用于语音识别

神经网络由输入层、隐层和输出层构成，网络基本单元为神经元，输入层的神经元为所提取的语音信号特征，隐层的神经元通过样本训练构建，输出层的神经元为语音识别词汇。通过对神经网络的结构分析可知，神经网络具有很强的非线性映射能力、泛化能力和容错能力。

神经网络进行语音识别之前需要对模型进行科学的训练，神经网络的训练流程如图1所示，首先需要准备大量词汇的语音特征，对词汇进行编号，然后将准备的语音特征作为模型训练的输入，将特征对应的词汇编号作为参考数据，最后检查模型训练的输出数据与参考数据之间的误差，当两者之间的数据误差低于所设置的阈值时停止训练，保存隐层神经元的阈值，以及各个神经元之间的链接权值，从而实现神经网络模型的建立。

图1：BP神经网络训练流程

语音识别系统首先对语音信号的进行采样滤波、预加权、信号分帧、端点检测操作；其次提取预处理数据的LPC、LPCC、MFCC、改进MFCC值；最后训练构建的神经网络模型根据语音信号特征识别语音所对应的词汇，至此实现语音信号的识别。

3 结论

本文先对语音识别系统展开了研究，语音识别系统由信号预处理、语音特征提取、模型训练与识别三个模块构成，并分析了神经网络相对于支持向量机、深度学习和人工智能的优势，基于此设计了一套基于神经网络的语音识别系统。识别系统首先借助大量词汇的语音特征完成识别模型的训练，再利用训练合格的语音识别模型对从预处理数据中提取的LPC、LPCC、MFCC、改进MFCC的语音信号特征进行语音识别。