APP下载

基于At-LSTM模型的音/视频双流语音识别算法仿真

2023-03-11张添添

计算机仿真 2023年1期
关键词:数据信号双流注意力

张添添,王 婧

(1. 上海师范大学天华学院,上海 201815;2. 武汉大学国际软件学院,湖北 武汉 430072)

1 引言

语音识别[1]作为交叉学科,近年来已成为计算机技术中人机接口的关键环节。语音识别技术就是通过机器将语音转换成文本,有效帮助人们开展相关工作,缩减劳动成本。因此,在人体伤害较大的地下、深水辐射等复杂环境中被广泛使用。由于微电子技术[2]的发展,将电子设备逐渐微型化,导致原有的语音识别方法无法有效地完成相关识别任务,因此,提出更加高效的语音识别方法就成为该领域目前急需解决的问题。

文献[3]提出一种多尺度前向注意力模型的语音识别方法。该方法首先通过注意力模型获取数据注意力得分;基于获取的异常得分添加相关约束因子对模型实施优化;最后基于建立的模型确定语音级别,完成目标融合,实现语音的精确识别。文献[4]提出基于卷积神经网络的大容量汉语孤立字语音识别方法。该方法首先使用录音设备对常用语音采集处理,建立非特定的语音样本数据库;再抽取语音的识别特征,构建语音识别模型;最后依据深度学习方法对模型展开训练,依据训练结果实现语音的精准识别。文献[5]提出基于DL-T及迁移学习的语音识别方法。该方法首先依据采集的语音数据提取语音高维数据特征;基于RNN-T声学原理以及LSTM网络建立语音的声学模型;最后通过DL-T方法对模型优化处理,提升模型的语音识别效果;最后依据模型的优化结果完成语音的识别。

上述方法中由于未能在语音识别前对语音数据去噪处理,导致上述方法在语音识别时,存在识别时间短、精准度不高的问题,并且语音中存在大量的噪声点。为解决上述音/视频双流语音数据识别过程中存在的问题,提出基于注意力LSTM的音/视频双流语音识别算法。

2 语音数据预处理

在开展音/视频双流语音识别的[6]过程中,数据中存在的大量噪声会影响语音的识别效果,因此,在语音识别前需要对音/视频双流语音数据实施去噪处理。

2.1 语音数据去噪

使用小波阈值去噪方法[7]在音/视频双流语音数据信号尺度上建立一个合理的阈值δ,辨识音/视频双流语音数据信号中的信号成分,实现音/视频双流语音数据信号的去噪处理,具体流程如下:

1)选取相应的小波函数以及信号分解层数,对数据信号分解处理,对分解后的含噪声信号实施正交小波变换,获取数据信号对应的尺度分解系数αj.l。

3)对信号分解后的低频系数与高频系数实施小波逆变换,获取数据的去噪信号。

在上述数据信号的去噪过程中,阈值选取较为重要。由于现有的阈值函数去噪效果较差,因此,需要依据sqtwolog规则对阈值函数实施改进,实现音/视频双流语音数据信号的有效去噪。

设定音/视频双流语音数据信号的输入信号序列为M,小波分解尺度为j,以此获取信号的去噪阈值,结果如下式所示

(1)

式中,语音数据信号的噪声标准差用ε表述,获取的信号去噪阈值为δj,对数函数为In。

基于上述获取的去噪阈值,建立语音数据信号的阈值去噪函数,硬阈值函数获取过程如下式所示

(2)

由于硬阈值函数[8]在信号去噪时会影响到信号中的正常信息,导致重构后的语音信号出现振动噪声,降低信号去噪效果,因此,需要在硬阈值基础上,基于信号的光滑性理论建立信号的软阈值函数,结果如下式所示

(3)

式中,符号函数为sgn(αj,l)。

(4)

基于上述建立的阈值函数完成语音数据信号的去噪。

2.2 数据矢量量化

语音数据噪声去除[9]后,对语音数据矢量量化处理,在信息损伤较小的情况下完成语音数据的压缩处理。

设定语音数据有n个维度,运用欧几里德原理将语音数据集Rn划分成m个不相交的子空间,过程中需要满足如下条件

(5)

式中,数据划分子空间数量为Rm,i为常数。

基于上述获取的数据子空间,设定空间内数据的代表矢量为Xm,M个代表矢量组成的矢量集合标记X形式,当数据存在β个n维特征向量Y={Y1,Y2,…,Yn},数据的矢量量化过程就是Xm代表Yn的过程,结果如下式所示

XM=P(Xi),1≤M≤m,1≤i≤N

(6)

式中,i、j皆为常数,量化器函数为P(Xi)。

依据上述计算结果,完成音/视频双流语音数据的矢量量化处理[10]。

3 语音识别算法设计

3.1 语义关系抽取模型

基于上述语音数据的矢量量化处理结果,建立音/视频双流语音数据的语义关系抽取模型,通过模型的求解结果实现语音数据分类,完成音/视频双流语音数据的语音识别。具体模型结构如图1所示。

根据图1可知,该模型首先依据数据的矢量量化结果对数据语义实施分词处理,提取数据的相关实体特征,并将其转换成词向量,完成语音局部特征的抽取。再将获取的特征输入到LSTM模型[11]中,通过注意力机制对语音数据的注意力概率展开计算,获取模型输入、输出的相关性分析结果,输出特征;最后通过特征的融合结果进行语音分类分类,最终实现语音识别。

图1 语义关系抽取模型结构图

3.2 模型求解

3.2.1 生成语音词向量

基于语音数据的矢量量化结果,设定语音数据的词向量矩阵为Cword,语音数据的one-hot形式为χω,以此获取语音中各个数据的文本特征词向量,过程如下式所示

(7)

3.2.2 建立At-LSTM模型

At-LSTM模型建立的主要流程包括建立LSTM模型和引入注意力机制[12]两部分。

1)构建LSTM模型

LSTM模型是由若干LSTM单元组成的,而LSTM单元又是由输入门λ、输出门γ以及遗忘门h、记忆单元d组成。基于上述获取的语音数据的局部特征值,激活模型记忆单元,获取数据在LSTM单元的状态特征,过程如下式所示

(8)

式中,模型激活函数为g,偏置项用p标记,sigmoid函数用ε表述,模型LSTM单元的状态特征标记为it、ht、dt、ut、ft,模型状态为t,正切函数为tan 。

2)引入注意力机制

获取模型状态特征后,在模型中引入注意力机制,计算语音数据的注意力概率[13],过程如下式所示

(9)

式中,注意力机制权值矩阵为Ya、Yb、Yc,注意力机制偏置项为pa,指数函数为exp ,模型输出特征为fMi,语音数据中样本数据fi的注意力概率为aMi。根据上述计算结果,获取语音数据的模型输出特征,建立模型的输出特征集ηt。

3.2.3 语音识别

对模型的输出特征实施统计计算,依据最大池化法对语音数据的对应输出特征实施池化处理[14],过程如下式所示

k=max(ηt)

(10)

式中,语音数据的整体特征为k,最大池化特征为max(ηt)。语音数据池化完成后,即可解决语音数据长度不一的问题。

语音数据整体特征提取完成后,需要将获取的数据局部特征与数据整体特征实施融合处理,获取新的音/视频双流语音数据特征,完成语音数据的特征分类,实现音/视频双流语音数据的精准识别,过程如下式所示

(11)

式中,数据特征的融合结果为η,局部特征为s,数据的分类结果为v(x),向量拼接符号用⊗表示,分类器偏置为pv,分类权值为Mv,分类器二值向量系数为Cv,分类器选取系数为ϑ。

最后依据音/视频双流语音数据的分类结果,完成语音数据的精确识别[15]。

4 实验

为了验证基于注意力LSTM的音/视频双流语音识别算法的整体有效性,进行实验分析。分别采用基于注意力LSTM的音/视频双流语音识别算法(所提方法)、一种多尺度前向注意力模型的语音识别方法(文献[3]方法)、基于卷积神经网络的大容量汉语孤立字语音识别方法(文献[4]方法)进行测试。

4.1 实验环境与参数

在CHIME数据集中音/视频双流语音片段作为实验对象,该数据集包含真实、仿真等不同类型的录音。其中,真实录音由4个扬声器在4个嘈杂位置的近9000个录音组成。实验中将音/视频双流语音输入至MATLAB软件中,输出界面如图2所示。

图2 仿真输出界面

4.2 实验结果与分析

为测试音/视频双流语音识别方法的识别有效性,选取语音识别准确率、识别时间以及抗噪性能3个测试指标,测试所提方法、文献[3]方法以及文献[4]方法的音/视频双流语音识别性能。

1)识别准确率

在实验数据集中选取10个音/视频双流语音片段,采用所提方法、文献[3]方法以及文献[4]方法开展音/视频双流语音识别,测试3种方法的识别准确率,测试结果如图3所示。

在开展音/视频双流语音识别的过程中,识别的准确率越高,说明识别的效果越好,准确率越低,说明识别的效果越差。分析图3中的实验结果可知,所提方法在语音识别时,识别准确率是三种方法中最高的,这主要是因为所提方法在语音识别前,对语音数据实施了去噪处理,所以该方法在语音识别时的识别准确率更高。

图3 不同方法的语音识别准确率测试结果

2)识别时间

采用所提方法、文献[3]方法以及文献[4]方法开展音/视频双流语音识别时,识别时间的长短同样是检测识别性能的关键,因此,还要对上述3种方法的识别时间进行测试,测试结果如表1所示。

表1 不同识别方法的识别时间测试结果

语音识别过程中,识别时间越长,说明识别方法的识别效果越差,反之则越好。分析表1的实验数据可知,随着语音片段数量的增加,3种方法的识别时间呈现不同程度的增长趋势。其中,所提方法的检测结果是3种方法中最低的,说明该方法在语音识别时具备高效性。

3)去噪性能

采用所提方法、文献[3]方法以及文献[4]方法开展音/视频双流语音识别时,在数据集选取一个语音片段,其原始波形图如图4所示。采用3种方法对语音片段实施去噪处理测试结果如图5所示。

图4 原始波形图

分析图5可知,经过所提方法去噪后,语音的波形更加平滑,且波形较为稳定,没有明显的波动。而文献[3]方法和文献[4]方法虽然也在一定程度上达到了去噪的效果,但是波形仍然存在一定的波动,不够稳定,说明所提方法的去噪效果更好。

图5 去噪后的波形图

综上所述,所提方法的识别准确率与识别时间均优于其它方法,且能够有效去除语音判断中的噪声,证明所提方法在语音识别时的抗噪性能好。

5 结束语

随着计算机技术的不断发展,音视频双流语音的精准识别,能够有效降低人工成本。针对传统语音识别方法中存在的问题,提出基于注意力LSTM的音/视频双流语音识别算法。该方法依据数据的去噪结果,对语音数据实施矢量量化处理;再通过量化处理结果构建建立At-LSTM模型,通过模型求解完成数据分类,实现音视频双流语音的精准识别。

猜你喜欢

数据信号双流注意力
四川省成都市双流区东升迎春小学
让注意力“飞”回来
基于多源数据融合的传感器数据智能分析系统
双流板坯侧面鼓肚与边角挂钢原因与对策
双流机场一次低能见度天气过程分析
四川省成都双流中学实验学校
同位控制猝发总线设计与实现
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
基于HDMI标准的视频数据编解码器设计