基于At-LSTM模型的音/视频双流语音识别算法仿真

2023-03-11张添添

计算机仿真 2023年1期

张添添，王婧

(1. 上海师范大学天华学院，上海 201815；2. 武汉大学国际软件学院，湖北武汉 430072)

1 引言

语音识别[1]作为交叉学科，近年来已成为计算机技术中人机接口的关键环节。语音识别技术就是通过机器将语音转换成文本，有效帮助人们开展相关工作，缩减劳动成本。因此，在人体伤害较大的地下、深水辐射等复杂环境中被广泛使用。由于微电子技术[2]的发展，将电子设备逐渐微型化，导致原有的语音识别方法无法有效地完成相关识别任务，因此，提出更加高效的语音识别方法就成为该领域目前急需解决的问题。

文献[3]提出一种多尺度前向注意力模型的语音识别方法。该方法首先通过注意力模型获取数据注意力得分；基于获取的异常得分添加相关约束因子对模型实施优化；最后基于建立的模型确定语音级别，完成目标融合，实现语音的精确识别。文献[4]提出基于卷积神经网络的大容量汉语孤立字语音识别方法。该方法首先使用录音设备对常用语音采集处理，建立非特定的语音样本数据库；再抽取语音的识别特征，构建语音识别模型；最后依据深度学习方法对模型展开训练，依据训练结果实现语音的精准识别。文献[5]提出基于DL-T及迁移学习的语音识别方法。该方法首先依据采集的语音数据提取语音高维数据特征；基于RNN-T声学原理以及LSTM网络建立语音的声学模型；最后通过DL-T方法对模型优化处理，提升模型的语音识别效果；最后依据模型的优化结果完成语音的识别。

上述方法中由于未能在语音识别前对语音数据去噪处理，导致上述方法在语音识别时，存在识别时间短、精准度不高的问题，并且语音中存在大量的噪声点。为解决上述音/视频双流语音数据识别过程中存在的问题，提出基于注意力LSTM的音/视频双流语音识别算法。

2 语音数据预处理

在开展音/视频双流语音识别的[6]过程中，数据中存在的大量噪声会影响语音的识别效果，因此，在语音识别前需要对音/视频双流语音数据实施去噪处理。

2.1 语音数据去噪

使用小波阈值去噪方法[7]在音/视频双流语音数据信号尺度上建立一个合理的阈值δ，辨识音/视频双流语音数据信号中的信号成分，实现音/视频双流语音数据信号的去噪处理，具体流程如下：

1)选取相应的小波函数以及信号分解层数，对数据信号分解处理，对分解后的含噪声信号实施正交小波变换，获取数据信号对应的尺度分解系数αj.l。

3)对信号分解后的低频系数与高频系数实施小波逆变换，获取数据的去噪信号。

在上述数据信号的去噪过程中，阈值选取较为重要。由于现有的阈值函数去噪效果较差，因此，需要依据sqtwolog规则对阈值函数实施改进，实现音/视频双流语音数据信号的有效去噪。

设定音/视频双流语音数据信号的输入信号序列为M，小波分解尺度为j，以此获取信号的去噪阈值，结果如下式所示

(1)

式中，语音数据信号的噪声标准差用ε表述，获取的信号去噪阈值为δj，对数函数为In。

基于上述获取的去噪阈值，建立语音数据信号的阈值去噪函数，硬阈值函数获取过程如下式所示

(2)

由于硬阈值函数[8]在信号去噪时会影响到信号中的正常信息，导致重构后的语音信号出现振动噪声，降低信号去噪效果，因此，需要在硬阈值基础上，基于信号的光滑性理论建立信号的软阈值函数，结果如下式所示

(3)

式中，符号函数为sgn(αj，l)。

(4)

基于上述建立的阈值函数完成语音数据信号的去噪。

2.2 数据矢量量化

语音数据噪声去除[9]后，对语音数据矢量量化处理，在信息损伤较小的情况下完成语音数据的压缩处理。

设定语音数据有n个维度，运用欧几里德原理将语音数据集Rn划分成m个不相交的子空间，过程中需要满足如下条件

(5)

式中，数据划分子空间数量为Rm，i为常数。

基于上述获取的数据子空间，设定空间内数据的代表矢量为Xm，M个代表矢量组成的矢量集合标记X形式，当数据存在β个n维特征向量Y={Y1，Y2，…，Yn}，数据的矢量量化过程就是Xm代表Yn的过程，结果如下式所示

XM=P(Xi)，1≤M≤m，1≤i≤N

(6)

式中，i、j皆为常数，量化器函数为P(Xi)。

依据上述计算结果，完成音/视频双流语音数据的矢量量化处理[10]。

3 语音识别算法设计

3.1 语义关系抽取模型

基于上述语音数据的矢量量化处理结果，建立音/视频双流语音数据的语义关系抽取模型，通过模型的求解结果实现语音数据分类，完成音/视频双流语音数据的语音识别。具体模型结构如图1所示。

根据图1可知，该模型首先依据数据的矢量量化结果对数据语义实施分词处理，提取数据的相关实体特征，并将其转换成词向量，完成语音局部特征的抽取。再将获取的特征输入到LSTM模型[11]中，通过注意力机制对语音数据的注意力概率展开计算，获取模型输入、输出的相关性分析结果，输出特征；最后通过特征的融合结果进行语音分类分类，最终实现语音识别。

图1 语义关系抽取模型结构图

3.2 模型求解

3.2.1 生成语音词向量

基于语音数据的矢量量化结果，设定语音数据的词向量矩阵为Cword，语音数据的one-hot形式为χω，以此获取语音中各个数据的文本特征词向量，过程如下式所示

(7)

3.2.2 建立At-LSTM模型

At-LSTM模型建立的主要流程包括建立LSTM模型和引入注意力机制[12]两部分。

1)构建LSTM模型

LSTM模型是由若干LSTM单元组成的，而LSTM单元又是由输入门λ、输出门γ以及遗忘门h、记忆单元d组成。基于上述获取的语音数据的局部特征值，激活模型记忆单元，获取数据在LSTM单元的状态特征，过程如下式所示

(8)

式中，模型激活函数为g，偏置项用p标记，sigmoid函数用ε表述，模型LSTM单元的状态特征标记为it、ht、dt、ut、ft，模型状态为t，正切函数为tan 。

2)引入注意力机制

获取模型状态特征后，在模型中引入注意力机制，计算语音数据的注意力概率[13]，过程如下式所示

(9)

式中，注意力机制权值矩阵为Ya、Yb、Yc，注意力机制偏置项为pa，指数函数为exp ，模型输出特征为fMi，语音数据中样本数据fi的注意力概率为aMi。根据上述计算结果，获取语音数据的模型输出特征，建立模型的输出特征集ηt。

3.2.3 语音识别

对模型的输出特征实施统计计算，依据最大池化法对语音数据的对应输出特征实施池化处理[14]，过程如下式所示

k=max(ηt)

(10)

式中，语音数据的整体特征为k，最大池化特征为max(ηt)。语音数据池化完成后，即可解决语音数据长度不一的问题。

语音数据整体特征提取完成后，需要将获取的数据局部特征与数据整体特征实施融合处理，获取新的音/视频双流语音数据特征，完成语音数据的特征分类，实现音/视频双流语音数据的精准识别，过程如下式所示

(11)

式中，数据特征的融合结果为η，局部特征为s，数据的分类结果为v(x)，向量拼接符号用⊗表示，分类器偏置为pv，分类权值为Mv，分类器二值向量系数为Cv，分类器选取系数为ϑ。

最后依据音/视频双流语音数据的分类结果，完成语音数据的精确识别[15]。

4 实验

为了验证基于注意力LSTM的音/视频双流语音识别算法的整体有效性，进行实验分析。分别采用基于注意力LSTM的音/视频双流语音识别算法(所提方法)、一种多尺度前向注意力模型的语音识别方法(文献[3]方法)、基于卷积神经网络的大容量汉语孤立字语音识别方法(文献[4]方法)进行测试。

4.1 实验环境与参数

在CHIME数据集中音/视频双流语音片段作为实验对象，该数据集包含真实、仿真等不同类型的录音。其中，真实录音由4个扬声器在4个嘈杂位置的近9000个录音组成。实验中将音/视频双流语音输入至MATLAB软件中，输出界面如图2所示。

图2 仿真输出界面

4.2 实验结果与分析

为测试音/视频双流语音识别方法的识别有效性，选取语音识别准确率、识别时间以及抗噪性能3个测试指标，测试所提方法、文献[3]方法以及文献[4]方法的音/视频双流语音识别性能。

1)识别准确率

在实验数据集中选取10个音/视频双流语音片段，采用所提方法、文献[3]方法以及文献[4]方法开展音/视频双流语音识别，测试3种方法的识别准确率，测试结果如图3所示。

在开展音/视频双流语音识别的过程中，识别的准确率越高，说明识别的效果越好，准确率越低，说明识别的效果越差。分析图3中的实验结果可知，所提方法在语音识别时，识别准确率是三种方法中最高的，这主要是因为所提方法在语音识别前，对语音数据实施了去噪处理，所以该方法在语音识别时的识别准确率更高。

图3 不同方法的语音识别准确率测试结果

2)识别时间

采用所提方法、文献[3]方法以及文献[4]方法开展音/视频双流语音识别时，识别时间的长短同样是检测识别性能的关键，因此，还要对上述3种方法的识别时间进行测试，测试结果如表1所示。

表1 不同识别方法的识别时间测试结果

语音识别过程中，识别时间越长，说明识别方法的识别效果越差，反之则越好。分析表1的实验数据可知，随着语音片段数量的增加，3种方法的识别时间呈现不同程度的增长趋势。其中，所提方法的检测结果是3种方法中最低的，说明该方法在语音识别时具备高效性。

3)去噪性能

采用所提方法、文献[3]方法以及文献[4]方法开展音/视频双流语音识别时，在数据集选取一个语音片段，其原始波形图如图4所示。采用3种方法对语音片段实施去噪处理测试结果如图5所示。

图4 原始波形图

分析图5可知，经过所提方法去噪后，语音的波形更加平滑，且波形较为稳定，没有明显的波动。而文献[3]方法和文献[4]方法虽然也在一定程度上达到了去噪的效果，但是波形仍然存在一定的波动，不够稳定，说明所提方法的去噪效果更好。

图5 去噪后的波形图

综上所述，所提方法的识别准确率与识别时间均优于其它方法，且能够有效去除语音判断中的噪声，证明所提方法在语音识别时的抗噪性能好。

5 结束语

随着计算机技术的不断发展，音视频双流语音的精准识别，能够有效降低人工成本。针对传统语音识别方法中存在的问题，提出基于注意力LSTM的音/视频双流语音识别算法。该方法依据数据的去噪结果，对语音数据实施矢量量化处理；再通过量化处理结果构建建立At-LSTM模型，通过模型求解完成数据分类，实现音视频双流语音的精准识别。