APP下载

基于深度学习的语音增强方法研究

2019-12-05刘鹏

智能计算机与应用 2019年5期
关键词:深度学习

刘鹏

摘 要:针对基于深度学习的语音增强方法展开研究,系统阐述了基于深度学习的语音增强方法提出的背景、模型原理和实施过程。在TensorFlow平台上搭建了基于DNN的深度学习语音增强模型进行了实验,验证了基于DNN的语音增强方法,提高了增强语音的可懂度。

关键词: 深度学习;语音增强;DNN;语音可懂度

【Abstract】 The background, model principle and implementation process of speech enhancement based on deep learning are systematically expounded. A DNN-based deep learning speech enhancement model is built on the TensorFlow platform to conduct experiments, and it is verified that the speech enhancement method based on DNN improves the intelligibility of enhanced speech.

【Key words】  deep learning; speech enhancement; DNN; speech intelligibility

0 引 言

语音是人与人之间沟通交流的主要媒介,然而在现实生活中语音不可避免地会受到外界噪声的干扰,影响人们对语音的正确理解,特别是对于那些基于语音技术的实际应用领域。比如,自动语音识别技术(Automatic Speech Recognition ,ASR)和人工耳蜗技术(Cochlear Implant,CI)等,噪声干扰严重制约了相关技术的发展。因此,研究如何从带噪语音中估计出纯净语音即显得尤为必要。

迄今为止,学者们提出了很多噪声去除和语音增强的方法,比如维纳滤波法(Wiener Filtering)、谱减法(Spectral Subtraction Method)、信号子空间方法(Signal Subspace Approach)和最小均方误差方法(Minimum Mean Square Error ,MMSE)。然而,这些方法主要集中在研究语音与噪声的统计特性差异上,需要保证语音和噪声信号不存在相关关系,而且在降噪过程中会出现“音乐噪音”(music noise),导致语音失真[1]。此外,对于在语音增强中遇到的快速变化的噪声(如机关枪)和负谱估计等问题,传统的语音增强方法处理效果不佳[2]。

Rumelhart等3位学者在1988年发表的创新著作“Learning representations by back-propagating errors”中提出了多层神经网络,不仅可以用相对简单的方法进行有效的训练,而且隐藏层可以用来克服感知器在学习复杂模式时的弱点[3]。Hinton等学者[4]在2006年发表了一篇题为“A Fast Learning Algorithm for Deep Belief Nets”的突破性论文,使得深度学习技术得以兴起。这篇论文不仅首次提出了深度学习的概念,还展示了采用无监督方法进行逐层训练的有效性,并在此基础上进行了监督微调(fine-tuning),实现了MNIST字符识别数据集的最新结果。此后,Bengio等学者[5]随即发表了另一篇开创性的论文,即:Greedy Layer-wise Training of Deep Networks,揭示了为什么多层深度学习网络能够分层学习特性,而浅神经网络或支持向量机(SVM)则不能。该论文解释说明了使用DBNs、RBMs和自动编码器(AutoEncoder)的无监督方法进行预训练(pre-training)不仅可以初始化权值以获得最优解,而且提供了良好的可被学习的数据表示形式。Bengio等人在其论文“Scaling Algorithms Towards AI”中通过CNN、RBM、DBN等架构以及无监督的预训练和微调等技术重申了进行深度学习的优势,并引发了新一轮深度学习的研发热潮[6]。

近年来,随着基于深度学习的语音处理技术的逐步成功,不断有学者提出了基于深度学习的语音增强框架,期望从带噪语音噪声特征中预测出纯净语音特征来实现语音的降噪处理[7-11]。

1 语音增强和深度学习的概述

1.1 语音增强的过程和目标

语音增强是利用各种算法(包括传统的音频信号处理技术和现如今的深度学习技术)来提高退化语音信号(degraded speech signal)的质量(语音的聽觉舒适度)或可懂度(语音的可理解性)[1]。其中,降噪语音增强是语音增强领域中最重要的研究方向,被广泛应用于手机、VoIP、电话会议系统、语音识别、助听器等领域。

1.2 语音增强的方法概述

传统的语音增强降噪算法可分为3类:滤波技术(Filtering Techniques)、频谱恢复(Spectral Restoration)和基于语音模型(Speech-Model-Based)的方法[1]。其中,滤波技术主要包括有维纳滤波法(WF)、谱减法(SSM)和信号子空间方法(SSA)。频谱恢复技术主要有最小均方误差短时谱振幅估计器方法(Minimum Mean-Square-Error Short-Time Spectral Amplitude Estimator,MMSE-STSA)。

1.3 深度学习的基本概念

深度学习是机器学习研究的一种形式,将其引入是为了使机器学习更接近研究的最初目标之一:人工智能。深度学习使计算机能够从经验数据中学习,并根据概念的层次来理解世界。由于计算机从经验数据中收集知识,因此不需要人工指定计算机所需的所有知识。概念的层次结构允许计算机从简单的概念中通过构建复杂的概念来学习,这使得层次结构图可有许多层。深度学习允许由多个处理层组成的计算模型中学习具有多个抽象级别的数据表示。这些方法极大地提高了语音识别、视觉目标识别、目标检测以及药物发现和基因组学等许多领域的技术水平。深度学习通过使用反向传播算法(Back-propagation algorithm)来指出计算机应该如何改变其内部参数来发现大数据集中复杂的结构,而这些参数用于从上一层的表示中来计算网络层次中的每一层表示[12]。

2 基于深度學习的语音增强方法

3 基于深度学习的语音增强建模实验

本节基于深度神经网络(DNN)建立语音增强模型,并与传统的语音增强算法(子空间法)在语音增强的可懂度效果上进行了实验对比。对此部分可详述如下。

3.1 实验步骤

3.1.1 实验环境搭建及数据准备

在TensorFlow深度学习框架中搭建了基于DNN的语音增强模型。噪声信号选取为NOISEX-92标准库中的4种噪声,分别为babble、car、street和train,纯净语音句子来源于IEEE句子库,信噪比分别为-15 dB、-10 dB和-5 dB。信号的量化精度为16 bit,采样频率设置为8 kHz。

DNN模型的训练集由IEEE句子库中的前600个句子,依据4种类型噪声×3种信噪比、共计12种加噪条件产生的带噪语音和其所参考的清晰语音构成。因此,实验中由7 200个语音样本对组成DNN模型的训练数据集。

DNN模型的测试集由IEEE句子库中的后120个句子,依据4种类型噪声×3种信噪比、共计12种加噪条件产生的带噪语音组成。因此,由1 440个语音样本组成实验中DNN模型的测试数据集。

3.1.2 特征提取

在模型训练阶段,首先对训练数据集中的带噪语音和纯净语音信号样本对进行短时傅里叶分析,分别计算每个重叠窗口帧的离散傅里叶变换(DFT),然后分别计算其对数功率谱(LPS)来作为DNN模型训练的特征数据。在语音增强阶段,将测试数据集中的带噪语音进行短时傅里叶分析后计算每个重叠窗口帧的离散傅里叶变换(DFT),再将其对数功率谱(LPS)作为模型的输入数据。

3.1.3 DNN模型建立及参数配置

实验中DNN模型由1个输入层,3个隐藏层(每层500个神经元)和1个输出层构成。每层的预训练轮数(epoch)设置为20,预训练的学习速率设置为0.000 5。在参数微调时,前10轮(epoch)的学习速率设置为0.1,此后每轮学习速率都下降10%,总共进行50轮训练。采用小批量(mini-batch)随机梯度下降(stochastic gradient descent)算法进行调优处理,小批量(mini-batch)数据集大小设置为N=128。

3.2 实验结果及分析

本文的语音可懂度测试采用归一化协方差法(NCM)。研究表明,子空间法是传统的语音增强算法中语音可懂度增强效果较好的一种增强算法[14]。故而实验选用了子空间法和加噪未增强两种处理方式与本文的增强算法进行对比。实验中语音可懂度的NCM评价结果见表1~表3。

实验结果中的NCM数值越大,表示其可懂度越高,从表1~表3语音NCM测试值可以看出:对比其它2种对带噪语音的处理(加噪未增强,子空间法增强),基于DNN的语音增强方法提高了增强后带噪语音的可懂度。

由于噪声或信噪比估计误差会导致语音增强处理频谱中出现伪峰,几乎所有传统的语音增强方法都出现了音乐噪声。与之不同的是,基于深度学习的语音增强中没有发现音乐噪声。此外,深度学习模型可以恢复被噪声掩盖了的语音高频频谱[15]。因此,基于深度学习的语音增强方法较传统的语音增强能够表现出更好的语音可懂度增强效果。

4 结束语

本文针对基于深度学习的语音增强方法展开研究,系统阐述了基于深度学习的语音增强方法提出的背景、模型原理和实施过程。在TensorFlow平台上搭建了基于DNN的深度学习语音增强模型,并进行了实验,验证后可知基于DNN的语音增强方法提高了增强语音的可懂度。

值得注意的是,基于深度学习的语音增强方法需要用到规模较大的语音训练集样本对,特别是当所构建的模型规模较大而训练集的样本数量又极少时,模型极易出现过拟合现象,这将最终使得模型在语音增强阶段失效。

参考文献

[1]LOIZOU P C. Speech enhancement: Theory and practice[M].2nd ed. Boca Raton, FL, USA: CRC Press, 2013.

[2]XU Yong, DU Jun, DAI Lirong, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(1):7-19.

[3]RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation[M]∥ Neurocomputing: foundations of research.Cambridge, MA, USA: MIT Press, 1988: 696-699.

[4]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural Computation,2006,18(7):1527-1554.

[5]BENGIO Y, LAMBLIN P, POPOVICI D, et a1. Greedy layer-wise training of deep networks[C]∥  Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada:dblp,2006: 153-160.

[6]BOTTOU L, CHAPELLE O, DECOSTE D, et a1. Large-scale kernel machines[M]. Cambridge, MA, USA: MIT Press, 2007.

[7]KOLBK M, TAN Zhenghua, JENSEN J. Speech intelligibility potential of general and specialized deep neural network based speech enhancement systems [J]. IEEE/ACM Trans Audio, Speech and Language Processing, 2017, 25(1): 153-167.

[8]TU Y H, DU J, LEE C H. DNN training based on classic gain function for single-channel speech enhancement and recognition[C]∥ 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Bringhton:IEEE, 2019:910-914.

[9]ODELOWO B O, ANDERSON D V. A study of training targets for deep neural network-based speech enhancement using noise prediction[C]∥ 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary,AB,Canada:IEEE, 2018:5409-5413.

[10]LAI Y H, CHEN F, WANG S S, et al. A deep denoising autoencoder approach to improving the intelligibility of vocoded speech in cochlear implant simulation [J]. IEEE Transactions on Biomedical Engineering, 2017, 64(7): 1568-1578.

[11]LAI Y H, TSAO Y, LU X, et al. Deep learning based noise reduction approach to improve speech intelligibility for cochlear implant recipients [J]. Ear Hear, 2018, 39(4): 795-809.

[12]GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning [M]. Cambridge, MA, USA: MIT Press, 2016.

[13]LIU Ding, SMARAGDIS P, KIM M. Experiments on deep learning for speech denoising [C]∥15th Annual Conference of the International Speech Communication Association(INTERSPEECH-2014).Singapore:ISCA,2014: 2685-2689.

[14]HU Yi, LOIZOU P C. A comparative intelligibility study of single-microphone noise reduction algorithms[J].The Journal of the Acoustical Society of America,2007,122(3):1777-1786.

[15]XU Yong, DU Jun, DAI Lirong, et al. An experimental study on speech enhancement based on deep neural networks [J]. IEEE Signal Processing Letters, 2014, 21(1):65-68.

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究