APP下载

使用原始音频波形的超深层环境声音识别卷积网络

2019-05-23戴本尧

电脑知识与技术 2019年8期
关键词:深度学习人工智能

戴本尧

摘要:直接从音频的原始波形学习声学模型具有挑战性。当前基于音频的原始波形的模型一般使用很少的卷积层,可能不足以构建抽象的可区分性特征。在这项工作中,我们提出了一个非常深的卷积神经网络(VGCNN),这个网络模型直接使用时域波形作为输入。我们的VGCNN有多达34个卷积层,有效从音频原始序列中(例如,大小为32000的音频原始序列)提取了抽象的可区分性特征。我们的网络是全卷积网络,不使用全连接层和下采样层,以最大化的保留原始特征并且降低参数量。我们用一个在第一卷积层中的大的感受野来提取长时时序,随后的各层卷积中的卷积核是非常小的感受野以便控制模型大小。实验证明我们提出的具有18个卷积层的CNN,在环境声音识别任务绝对精度超过目前主流模型15%。

关键词:原始音频波形;人工智能;深度学习

中图分类号:TP37 文献标识码:A

文章编号:1009-3044(2019)09-0130-03

1 简介

声学建模传统上分为两部分:1)设计音频数据的特征表示;2)建立一个合适的预测模型。然而,往往需要大量的时间和经验来找到能够正确代表音频数据的合适特征。随着深度学习的发展,深度神经网络已经实现了在图像识别,图像分割领域中从原始图像中提取特征,从而不需要人工手动设计特征。比如文献[1]设计了一个人工神经网络应用于图像识别任务,该卷积神经网络直接从原始的图像中提取抽象的高级特征表示,通过实验结果验证卷积神经网络应用在手写数字识别和人脸识别问题上的可行性,并与现有的其他分类识别方法进行比较,发现卷积神经网络准确率较高。目前在图像识别中性能最好的为CNN模型,因为这些模型的基本构建块是卷积层提取的特征可以在空间上或像素或时域保持特征不变。在计算机视觉领域,CNN已经取得了很好的成绩,甚至超过了人类的表现,如物体识别和面部识别。最近的研究已將CNN应用于音频任务等作为环境声音识别和语音识别,并发现CNN仅在原始波形下表现良好。比如,CNN可以自动提取出像log-mel[2]这样的音频特征。这些研究中,大多数网络较浅,例如只有两个卷积层。在我们的工作中,我们提出研究非常深的卷积网络最多34个卷积层,直接使用时间序列波形作为输入。我们的深度网络高效优化了时间序列(例如,长度为32000的向量),这是处理原始音频波形所必需的。我们在卷积层中使用非常小的感受野以便控制模型的参数。但是,在第一层使用一个大的感受野开提取长时时序特征。我们的模型是全卷积网络,没有全连接层和池化层,以最大化的保留原始特征并且降低参数量,并且其可以应用于变化长度的音频。通过应用归一化,残差学习的策略,我们克服了训练非常深的模型中梯度消失的问题,同时保持很低的模型复杂度。在环境声音识别任务[3],我们的实验表明深层网络提高了网络的性能,我们提出的具有18个卷积层的CNN,绝对精度超过目前主流模型15%。

2 超深层环境声音识别卷积网络的结构

图1列出了我们提出的VGCNN [4]。我们的VGCNN结构以原始波形作为输入时间序列波形,表示为一个长的1D向量,而不是手动设计的频谱图。CNN结构的关键设计是深层架构。为了构建非常深的网络,除了第一个1D卷积层外,我们使用非常小的3*3卷积核。这减少了每个卷积核参数的数量,并控制模型大小和计算成本。此外,我们使用整流线性单元激活函数(ReLU)用于降低计算成本。大多数深卷积网络分类使用2个或更多全连接层用于提取可区分性的高维特征,导致非常多的参数。我们假设大部分特征提取都发生在卷积层面,并可以提取足够区分性的特征,从而不需要全连接层。因此,我们的网络采用全卷积设计。我们使用单个全局平均池化层而不是全连接层,其可减少每个高层特征图谱图的维度。通过删除全连接层,网络模型被强制执行学习卷积层中的良好的高级特征表示。批量标准化是我们采用称为批处理的辅助层归一化(BN)[5],减轻了消失梯度,深度学习中的常见问题是优化网络的深层架构。批量标准化使得可能的训练非常深的网络(M18,M34-res)我们每层卷积层的输出上加入ReLU非线性激活函数和归一化层。另外我们采取残差网络的方式设计卷积网络。残差网络[6]是最近的一个提出了深度学习框架,以便进行非常深层的网络训练。通常对于一个卷积层, x的映射为H(x)(x是输入)。在残差网络框架中,我们将映射改为F(x)= H(x)+x,这称为残差映射。通过跳过某些卷积层实现网络深度的减少。

图1 我们提出的CNN模型的架构

2.1 实验细节

我们使用包含10个环境的UrbanSound8k数据集,该数据集包含城市地区的声音,如钻孔,汽车喇叭,和孩子们玩耍。 数据集由8732个音频剪辑组成,每个剪辑4秒或更短,总计9.7小时。 我们使用官方的第10个数据文件夹作为我们的测试集,其余9个数据文件夹用于训练。对于输入音频波形,每个音频波形文件是下采样到8kHz并归一化为0均值和1方差。为了郑嘉训练样本,我们将训练数据进行了数据增强。

我们使用Adam[7]优化器训练VGCNN模型,Adam是随机梯度下降的一种变体,可以自适应地调整步长。运行模型100-400个和训练周期直到收敛。该模型中的权重从头开始初始化,没有采用任何预训练模型[8]。我们使用高斯分布初始化来避免梯度爆炸或梯度消失。所有权重参数都是采用系数0.0001的L2正则化。 我们的模型在Tensorflow[9]中训练,硬件设备为配备了Titan X GPU的机器。

其他模型:为了帮助分析,我们训练了一些变体模型,如表1中的模型。这些模型比原始模型参数更多。

2.2 实验结果和分析

表2显示了模型的测试精度和训练时间。与其他型号相比,我们首先注意到M3表现非常糟糕,表明2层CNN不足以从声音识别的原始波形中提取具有区分力的特征。M3-big为M3的变体,多50%的卷积核和2.5倍的卷积核参数,没有显著提高性能(表3b),表明浅层模型提取特征的能力有限,即使使用更大的模型,也能不能较好的捕获时间序列输入。

更深的网络(M5,M11,M18,M34-res)基本上提高性能,即测试精度提高了。表明增加M5,M11和M18的网络深度增强了模型提取特征的能力。我们最好的模型M18达到71.68%的准确率,M11为69.07%(1.8M参数)。通过使用非常深的卷积架构,M18的表现优于M3,高达15.56%绝对准确率,表明更深层的卷积模型使用波形显著改善声学建模。此外,通过在初始阶段使用积极的下采样层,非常深的网络可以高效的地训练,即当我们使用步幅1而不是4时。M11的第一个卷积层,我们观察到在10小时训练后测试精度较低(67.37%),而测试精度为68.42%,M18在2小时内到达。有趣的是,如果性能随着深度的提高而提高,M18测试精度为71.68%,而M34-res仅达到63.47%测试精度,这是由于过度拟合的原因。我们观察到了通过残差学习我们没有解决过拟合的问题,像M34-res和M34-res这样的网络训练准确率高达99.21%,而M18训练精度为96.72%。我们还观察到M11网络的剩余变体(此处未显示)达到更高的训练精度,但测试精度更低(比M11要低0.17%)。我们认为我们的数据集太小了,所以非常深的网络引起了过拟合问题[11]。训练M34-res没有进一步的提升。尽管如此,M34-res仍然优于M3和M5。

我们将全卷积网络与卷积网络进行比较,发现使用全连接层(FC)的常规网络用于分类。表4显示全连接层[10]增加参数数量导致增加训练时间。但是,全连接层不会提高测试精度。在M3-fc和M11-fc的情况下,额外的全连接层会导致较低的测试精度(即较差的泛化)。我们认为我们的网络设计缺乏全连接层,将高层特征学习推向卷积层,导致迫使卷积层学习对特征有利的信息。

3 结论

在这项工作中,我们提出了非常深的卷积神经网络可以直接对声波输入进行操作。我们的网络,最多34个卷积层,得益于批量归一化,残差的组合,我们的模型取得了较好的性能。我们的结果显示,一个深度网络有18个卷积层优于具有2个卷积层的网络,绝对准确率达到71.8%。

参考文献:

[1] 许可. 卷积神经网络在图像识别上的应用的研究[D]. 浙江大学, 2012.

[2] Lee Y K, O. W. Kwon. A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE,2011:413-414.

[3] 李勇. 新型MFCC和波动模型相结合的二层环境声音识别[J].计算机工程与应用 47.30(2011):132-135.

[4] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.

[5] 邱爽等.自归一化卷积神經网络的人脸识别方法[J].云南大学学报(自然科学版) ,2018(4).

[6] 曹川, 张红英.基于改进残差网络的人脸识别算法[J]." 传感器与微系统,2018(8).

[7] Kingma, Diederik P, J. Ba.Adam: A Method for Stochastic Optimization. Computer Science,2014.

[8] 曹大有, 胥帅.基于TensorFlow预训练模型快速、精准的图像分类器[J]." 汉江师范学院学报,2017,37(3).

[9] Abadi, Martin.Tensor Flow: learning functions at scale." Acm Sigplan Notices,2016,51(9):1.

[10] Senior, Andrew, I. Lopez-Moreno. "Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics, Speech and Signal Processing IEEE,2014:225-229.

[11] 李祚泳, 彭荔红.BP网络过拟合现象满足的不确定关系新的改进式[J].红外与毫米波学报,2002,21(4):293-296.

【通联编辑:唐一东】

猜你喜欢

深度学习人工智能
我校新增“人工智能”本科专业
人工智能与就业
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望