APP下载

基于均值特征和改进深度神经网络的说话人识别算法

2021-09-09罗春梅张风雷

声学技术 2021年4期
关键词:背景噪声高斯语音

罗春梅,张风雷

(辽东学院化工与机械学院,辽宁丹东 118000)

0 引 言

说话人识别是通过分析语音的个性特征实现说话人辨识的技术,已经在安全领域、司法鉴定等应用中广泛使用[1]。但由于实际环境中各种干扰的存在,实际环境中说话人识别系统失配而性能下降,因此,如何提高系统对不同背景噪声的适应性,成为近年来该领域的研究热点[2-3]。

为减小识别系统的环境失配,噪声信息被融入到纯净语音模型中。牛晓可等[4]借鉴神经元时空滤波机制对听觉尺度-速率图进行二次提取,并与梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)相结合,提高特征对环境噪声的容忍性能;仲伟峰等[5]通过融合深、浅层级特征以实现不同层次特征表达信息的互补,从而提高特征的鲁棒性;Zhang等[6]受到干净帧的启发,用高斯通用模型推导出基于总变化矩阵的通用加权背景模型,并进行了联合估计规则更新,有效提升了算法对背景噪声的适应性。

随着深度学习技术的成熟,深度神经网络(Deep Neural Network, DNN)在说话人识别系统中逐渐展开研究,并取得较好的鲁棒性[7]。陈湟康等[8]以深度学习的长短期记忆(Long and Short Term Memory, LSTM)网络为基础构建多模态模型,并以深度门对各层单元进行上下连接,以提高层特征联系的紧密性和分类性能;Abdelmajid等[9]对多模态LSTM网络在决策层进行分类融合,提高了模型识别性能,但模型相关性约束需加强;李煦等[10]将深度神经网络与非负矩阵分解相结合来估计权值分配,结合特征字典实现说话人语音增强和识别。

已有DNN算法难以描述语音段的深度信息[11],为此在已有研究基础上,提出基于自适应高斯均值矩阵特征和改进深度卷积神经网络的说话人识别算法,通过均值矩阵增强信号的帧间关联和特征,通过帧间信息对准提高特征对背景噪声环境的适应性,实验结果验证了该算法的有效性。

1 改进模型说话人识别

说话人语音识别即为采用一定的方法提取带有背景噪声的语音的分类特征,然后根据分类特征进行说话人特征匹配,从而确定说话人身份,文中基于改进DNN网络的说话人识别过程如图1所示,算法结合了传统特征提取方法和DNN网络的优点,主要包括特征提取、高斯均值矩阵计算和DNN网络三部分。

图1 基于改进深度神经网络的说话人识别过程Fig.1 Speaker recognition based on improved deep neural network

1.1 特征提取

MFCC特征基于人耳听觉感知特性,其不需要做出前提假设,且其与说话人所说的语音内容不相关,能够较好地反应语音信号特征。

设原始含噪信号为s(n),对其进行时域分帧,对帧信号x(n)进行离散余弦变换(Discrete Cosine Transform, DCT)变换,得到频谱X(k),提取其能量谱P(k)为[2]

式中:N为DCT变换点数。采用M阶Mel频率滤波器Hm(k)进行滤波处理,得到

式中:m为滤波器序号,0≤m≤M,对Pm(k)取对数并进行离散余弦变换,可得MFCC,即[2]:

1.2 高斯混合模型均值矩阵

高斯混合模型(Gaussian Mixture Model, GMM)通过概率密度函数描述说话人的语音特征,并通过最大期望算法(Expectation Maximization,EM)提取描述语音特征的模型参数。GMM通过M个单高斯分布来拟合信号的不同分量特征,并通过线性组合拟合语音的特征分布,即[7]:

在计算高斯模型后,文中采用基于高斯模型的均值矩阵作为识别特征,其将GMM模型的特征向量分别送入通用背景模型(Universal Background Model, UBM)中,然后经过MPA(Message Passing Algorithm)自适应后,计算输出特征的均值矩阵。

1.3 特征补偿

由于特征分量对最终的语音识别率的影响不同且对背景噪声的抗噪性能也不同,文中补偿算法采用半升正弦函数(Half Raised-Sine Function,HRSF)对特征进行非线性提升,对特征的不同分量分配不同的权重,以削弱抗噪性能较差的低阶分量对识别率的贡献度[8],其补偿过程为:

(1) 对噪声及纯净语音信号的模型参数进行频谱域变换,得到对数谱域参数和线性频谱,即:

式中:C为DCT变换矩阵、L为提升矩阵,其计算式为L(i) =1+ sin (π (i-1) /N)/2,参数ux,m和Σx,m为GMM模型的第m个高斯单元均值矩阵和协方差矩阵,下标x表示纯净语音信号,上标ln和lin分别对数谱域和线性频谱域。

(2) 将语音信号与噪声的参数进行非线性合并,得到含噪信号的GMM模型参数,即:

式中:G为模型的补偿增益因子,下标n和y表示噪声及含噪语音信号。

(3) 将式(9)得到的含噪GMM模型参数变换到对数谱域和倒谱域,并优化协方差矩阵,去除非对角元素,提高运算效率,即:

1.4 DRNN网络结构设计

采用基于多层非线性变换的深度神经网络模型有助于描述语音特征的结构信息与层次信号,为此,文中设计了基于改进深度卷积神经网络(Deep CNN, DCNN)的说话人语音识别算法,其网络结构如图2所示。

图2 改进的DCNN网络结构Fig.2 Improved DCNN network structure

网络结构改进主要体现在最后的全连接层中用直接目标向量计算替代Softmax层的设计上。尽管结构加深、节点增多或滤波器增多能有效提高网络模型的识别性能,但同时也带来网络模型的高复杂度和训练的不稳定性。结合文中语音识别特点和数据规模,改进模型结构设计为3个卷积层的2个1024节点的全连接层,网络输入层为上文提取的特征矩阵,第一层卷积层包含64个尺寸为7×7的滤波器,第二层和第三层卷积层包含128个尺寸为3×3的滤波器,滤波器的步长统一设置为1×1;激活函数层后面为3个滤波器尺寸3×3、步长2×2的池化层;输出层为一个129点全连接层。

深度的增加也带来梯度弱化,反而不利于提高识别率,深度残差网络以网络残差获得更稳健的特征表达,通过在网络层间增加残差连接避免梯度消失问题,从而提高网络的识别准确率,其网络函数设计为理想映射H(x) =F(x) +x的形式,如图3所示,其中,F(x)为残差映射,对H(x)求偏导可得:

由图3和式(11)可以看出,增加残差连接后,解决了梯度随网络深度消失的问题。

图3 残差网络模块Fig.3 Residual network module

2 实验验证与分析

为验证文中基于改进DCNN网络的说话人识别模型的识别性能,实验从TIMIT数据库[12]随机选取180人共3 600条语音,以Noisex92噪声库作为实验用背景噪声,所有数据采样率调整为8 kHz,分帧长度为64 ms(512点),帧移为32 ms,将每一条语音数据的前80%作为训练数据,而后20%作为测试数据,采用39维MFCC频谱系数作为识别特征,GMM混合度设置为32[13],特征补偿因子初始值为G=0.5,当背景噪声较小或无噪声时,补偿算法会调整增益因子G。

将NoiseX-92数据库中的Factory、Babble及混合Mixed噪声与纯净训练数据按一定的分段信噪比进行混合,作为实验数据,以文献中已有的身份认证向量(identity vector, i-vector)识别框架[14]加MFCC和Gammatone频谱倒谱系数(Gammatone Frequency Cepstrum Coefficients, GFCC)特征(分别记为IPMFCC和IPGFCC)、GMM-UBM框架[15]加MFCC和补偿MFCC特征(分别记为GUMFCC和GUGFCC)及文中改进的DCNN识别网络加MFCC和补偿MFCC特征(分别记为IDMFCC和IDCMFCC),共6种说话人识别算法进行实验比较,各算法的说话人识别正确率实验结果如图4所示,图中所示为多次实验结果的平均值[11]。

从图4中的实验结果可以看出,随着信噪比的提高,各算法的识别准确率都大幅提高,但在低信噪比情况下,各个算法的识别率均不高,但文中模型在各个信噪比时均取得较优的识别准确率,尤其在低信噪比时,优势更加明显,这主要因为识别网络的改进,在考虑了语音信号特征基础上,兼顾了网络性能和训练难度,并通过残差网络增强了层间梯度,而识别特征的补偿,增强了特征对强背景噪声的抗干扰能力,从而使算法整体上具有较好的抗背景噪声干扰性能。

图4 不同背景噪声下各算法的识别率Fig.4 Recognition rate of each algorithm under different background noises

如图5所示为三种识别框架在不同训练阶段的均方误差(Mean Squared Error, MSE)。从图5可以看出,文中改进DCNN网络的均方误差最小,进一步说明该网络的优势。

图5 各算法训练阶段的均方误差Fig.5 The mean square error in training stage of each algorithm

3 结 论

传统MFCC等声学特征大多基于语音信号的短时谱信息,缺乏语音段深度信息,而深度神经网络缺乏直观的物理声学特征描述。为此,在已有研究基础上,提出基于高斯增值矩阵特征和改进DCNN网络的说话人识别算法。算法通过自适应高斯均值矩阵增强语音信号的帧间关联和说话人特征信息,采用改进的DCNN网络进一步提高说话人识别的特征学习和背景噪声环境的适应性。实验结果表明,相比于i-vector和GMM-UBM等识别框架及传统MFCC特征,文中算法取得最优的识别准确率和识别均方误差。

猜你喜欢

背景噪声高斯语音
环境背景噪声对飞机噪声监测结果的影响
利用背景噪声研究福建金钟库区地壳介质波速变化
数学王子高斯
魔力语音
基于MATLAB的语音信号处理
天才数学家——高斯
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
应用背景噪声成像研究祁连山地区地壳S波速度结构
从自卑到自信 瑞恩·高斯林