APP下载

基于GRU-CTC 混合模型的语音识别方法研究

2019-10-31董家仁刘广聪

现代计算机 2019年26期
关键词:正确率时刻神经网络

董家仁,刘广聪

(广东工业大学计算机学院,广州510006)

0 引言

语音识别技术在各领域中的作用与日俱增,例如智能音箱、语音助手等应用,都是通过识别人们口头表达的语音来执行操作。因为语音的采集不仅受环境噪声的影响,还受每个语音表达者的语速、语言种类、口音等的影响,这就对模型的鲁棒性和识别度要求比较高,这都是语音识别技术需要克服的一些问题。

过去,在语音识别领域应用较为广泛的是混合高斯-隐马尔科夫模型(GMM-HMM),这种模型发展得比较成熟,具有较为良好的处理时间序列的能力,实现起来也方便,但随着数据量的增大,处理效率越来越无法满足人们需求,而神经网络在并行处理和分类的问题上表现出了极大的优势。神经网络具有较强的自适应性、容错性,将隐马尔科夫模型和神经网络结合能将两者的优缺点互补。对于时间序列来说,上下文的关联性是提高识别效率的关键,因此循环神经网络RNN 作为一种时序处理能力非常好的网络,非常适用于语音识别领域,而LSTM(Long Short-Term Memory)网络是RNN 比较常见的一种变形结构,通过输入门、遗忘门、输出门这三个门单元来更好地处理上下文的关联性,而GRU 是LSTM 的一种变形结构,把三个门单元合成了两个门单元,结构变得更加简单,处理效率也更高,是一种不错的变形结构,将它与CTC 结合,正确率和效率能取得不小的提升。

1 基于门控循环单元的神经网络

1.1 长短期记忆网络LSTM

循环神经网络的特点在于其输入不仅仅只有当前的语音数据的特征信息,还包括单元之间内部状态的反馈和前馈,也就是将过去已经被处理过的时间序列中的信息进行编码,在当前时刻再对其进行判断处理,这样就可以学习和处理一定时间范围内序列间的相关性,也就是具有了一定的记忆能力。

传统的循环神经网络的记忆能力已经无法满足更复杂、更大量的输入,在处理许多不同类别的输入序列时无法更充分有效地利用历史信息,并且BPTT 算法会带来梯度消失的问题。而由Hochreiter 等人[1]在1997提出的长短期记忆网络LSTM 的引入,能在一定程度上弥补传统循环神经网络的不足,在循环神经网络中引入了时序的反馈机制,并用CEC(Constant Error Carrousel)单元解决BPTT 的梯度消失问题。

LSTM 网络相较于传统的循环神经网络,在结构中增加了三个门控制单元(输入门、遗忘门、输出门),输入门负责决定当前时刻的输入保留多少用于当前时刻的学习;遗忘门负责决定上一时刻学习到的信息保留多少到当前时刻;输出门负责决定输出多少当前时刻学习到的信息。这三种门能提高取舍上下文有效信息的效率。LSTM 在t 时刻的计算原理如下:

1.2 门控循环单元GRU

GRU(Gate Recurrent Unit)是Cho 等人在2014 年提出的一种基于LSTM 网络的变形结构[3]。传统的RNN 随着神经网络层数的增加,容易陷入局部极小值,梯度逐渐趋近于0,发生梯度消失的问题,GRU 将LSTM 的三个门结构整合为两个门结构,不仅和LSTM一样,解决了梯度消失的问题,并在原有的基础上,提升了模型的性能,简化了LSTM 的结构,同时提升了速度。GRU 在LSTM 原有的记忆功能基础上,结构变得更加简单,将输入门、遗忘门、输出门变为两个门:更新门和重置门。更新门的作用是控制前一处理时刻的状态信息与当前处理状态的关联程度,更新门的值越大说明前一处理时刻的状态信息与当前的关联程度越大。重置门的作用是控制遗忘前一处理时刻的状态信息的程度,重置门的值越小说明遗忘得越多。一个GRU 单元结构如图1。

图1 GRU单元结构

通过t-1 时刻传输下来的状态ht-1和当前单元在t时刻的输入xt来得到更新门和重置门的状态信息,两个门的状态信息获取计算过程如下,其中zt为更新门,rt为更新门,σ 为Sigmoid 函数,W 为权重:

获得两个门的状态信息后,先使用重置门rt来得到重置后的ht-1*rt,再与输入xt连接,通过tanh 激活函数得到,然后选择性地把它添加到当前的状态中,这一过程就是记忆和遗忘的过程,更新门zt的值域为0~1,值越接近于1,表示记忆下来的信息越多,值越接近于0,表示遗忘的信息越多,最后得出当前单元的状态信息ht:

GRU 的优势就体现在一个门运算过程里同时进行了记忆和遗忘的过程,而LSTM 需要多个门运算过程来完成,因此GRU 在结构的简化程度和效率上相较于LSTM,都有不小的提升。

2 基于GRU-CTC的混合模型

2.1 连接时序分类CTC

连接时序分类CTC(Connectionist Temporal Classification)是由Graves 等人2006 年提出来的一种时序分类算法[5]。与一些传统模型常用的交叉熵损失函数(Cross Entropy Loss)方法不同,交叉熵损失函数要求在处理语音序列数据之前训练数据的标签做到帧级别上的对齐,对齐操作需要耗费一定的工作量,而且模型需要知道每一帧对应的标签才能进行训练,因此降低了工作效率,而CTC 不需要标签在帧级别对齐就可以进行训练,对输入数据的任意时刻做出的预测不关心,而是重点关注整体上的输出是否与标签一致。CTC 可以让模型自己去学习对齐操作,从而节省时间,提高效率,CTC 可以根据一个输入序列和输出序列就进行训练,并且直接输出预测序列的概率。

CTC 最为突出的特点就在于引入了一个blank 节点,主要是为了对静音、停顿等没有有效信息的部分进行建模,来表示网络对不确定信息预测时的输出状态,CTC 中还有一个F 变换,若网络的一个输出序列能通过F 变换映射到正确标注序列,那么该输出序列就为一条CTC 路径,F 变换的过程为:先去除序列中相邻的blank 节点之间重复的标注,然后去除blank 节点,例如如下变化方式,其中⊗为blank 节点:

F(⊗XY ⊗⊗YY ⊗ZZ)=XYYZ

2.2 预处理

首先,需要对语音信号进行预处理,这是为了消除语音信号中噪声的干扰,得到更好的样本,提高识别率。然后,将语音信号的模拟信号数字化,转化成数字信号。根据人发声的特征,语音信号在经过嘴唇发出来后,高频信号会不断减弱,而往往高频信号的信息量比较大,所以还需要对语音信号预加重,通过传递函数为H(z)=1-αz-1的高通数字滤波器来实现预加重,其中α 为预加重系数。接下来,要对语音信号分帧加窗,窗函数中比较常用的有矩形窗和汉明窗,本文采用汉明窗作为窗函数,因为汉明窗的时域波形图呈钟型,能更好地表现语音信号的时域特征,汉明窗的表达式为:

其中N 表示窗的宽度。然后,要对语音信号进行起点和终点的判断,去除无用的声音部分,因此还需要对信号进行端点检测,本文采用的是双门限法。

预处理结束后,要对语音信号进行特征提取,提取出能有效区分信号的特征,由于语音信号在时域上变化非常快,所以常常将信号从时域转换到频域上来分析,这就可以用到Mel 频率倒谱。常用的语音特征系数有基音频率、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel 频率倒谱系数(MFCC),本文选用Mel频率倒谱系数(MFCC)。MFCC 是一种比较贴合真实的人耳听觉特征提出来的参数,能更好地模拟出人对声音信息的反应。获取Mel 频率倒谱系数的过程为:对每一帧信号进行快速傅里叶变换,得到频域值和功率谱,将功率谱通过Mel 滤波器,得到Mel 频谱,对Mel频谱进行倒谱运算,得到MFCC,计算过程为:

z 表示该训练语音对应的音素信息,x 为每一小段做MFCC 后得到的结果。

3 实验及结果分析

本节将在Linux 操作系统下使用Kaldi 来进行数据集测试的实验,Kaldi 是一个开源的基于C++编写的用于语音识别的工具箱,整合了HTK 的基本功能,是深度学习语音识别领域一款非常实用的开发平台。

测试数据集选择TIMIT 语音数据集,是由麻省理工大学建立的一组语音样本集,包含6000 多个词汇,由630 人每人念10 句话,共6300 条句子。本实验的对比组是将GRU-CTC、LSTM-CTC、GMM-HMM 进行对比,以此来测试GRU-CTC 这种结合模型在模型训练和解码部分与其他模型的优缺点和准确率。

提取MFCC 特征时,语音信号的预加重参数设置0.97,帧移设置为341,每一帧设置512 个采样点,窗函数使用汉明窗。提取13 阶MFCC 参数,并计算一阶差分和二阶差分,得到39 维。分别将GRU-CTC、LSTMCTC、GMM-HMM 声学模型进行训练,每个模型进行5次实验,取其平均值作为每个模型的结果。

图2 声音信号转化过程

图3 GRU-CTC、LSTM-CTC、GMM-HMM正确率迭代次数变化图

表1 实验模型的单词句子正确率实验结果

从表1 可以得出,与传统的混合高斯-隐马尔科夫模型GMM-HMM 相比,基于神经网络的两种声学建模方法显然效率更高,正确率更高。从单词的正确率可以看出,LSTM-CTC 比GMM-HMM 提升了8.1%,而LSTM 的变形结构GRU-CTC 模型比LSTM-CTC 又提升了8.8%。从句子的正确率看,LSTM-CTC 比GMMHMM 提升了7.7%,而GRU-CTC 模型比LSTM-CTC又提升了6.9%。

4 结语

本文通过对比三种不同的模型性能分析,采用神经网络和CTC 结合的模型效率和正确率比传统的GMM-HMM 模型有了明显的提高,而通过对比GRUCTC 和LSTM-CTC 两种结构的性能,可以得出,GRU作为LSTM 的一种改进变形结构,在性能上确实有了不小的提升。

猜你喜欢

正确率时刻神经网络
基于神经网络的船舶电力系统故障诊断方法
个性化护理干预对提高住院患者留取痰标本正确率的影响
MIV-PSO-BP神经网络用户热负荷预测
冬“傲”时刻
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
课程设置对大学生近视认知的影响
捕猎时刻
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
生意
生意