APP下载

音乐情感识别中的迁移学习方法研究

2018-04-24于超

现代计算机 2018年6期
关键词:音频卷积神经网络

于超

(四川大学计算机学院,成都 610065)

0 引言

近年来,随着移动智能设备硬件性能和产品设计水平的不断提高。人们可以随时随地享受诸多便捷的服务,而作为艺术一大领域的音乐,也成为人们生活不可或缺的一部分。得益于大数据和计算力的增长以及智能算法的研究,机器学习技术开始广泛应用到互联网产品中,使得用户可以获得更加个性化的体验。

基于机器学习的个性化音乐推荐系统也逐渐成为研究热点,而音乐的情感则是音乐内容本身非常重要的语义信息。本文主要研究了基于卷积神经网络的音乐情感识别迁移学习方法,并在公开音乐情感数据集上进行了实验及分析。

1 音乐情感识别现状

音乐情感识别的研究可以追溯到1988年[1],在随后的三十年里越来越受到相关研究者的重视。时至今日,音乐情感识别的研究仍然面临诸多困难和挑战。

首先,当前领域由于缺乏高质量和统一的研究数据集,不同研究员只能自建数据集进行研究,这样不利于研究者之间进行比较和判断,因而影响了研究的发展。现有的音乐识别方面的公开数据集,较多是曲风识别以及社交网络标签识别,少量的专注于音乐情感识别的数据集中,也存在数据量太少或类别严重不平衡的问题。自2007年起,音乐信息检索领域的知名竞赛MIREX[2](Music Information Retrieval Evaluation eX⁃change)开始加入了音乐情感分类的任务,并提供了一套建立情感分类数据集的方法,并构建了相应的数据集供参赛者进行评估和比较,MIREX每年一次的举办为该领域的研究发展起到了很好的作用,但其数据集仅仅开放给参赛者使用。Panda Renato和Rui Pedro Paiva在2012年采纳MIREX的数据集收集方法,构建了一套公开的音乐情感分类数据集,称为类MIREX数据集[3],从而为不同研究者在该领域进行研究提供了很好的助益,因此,本文也将在此数据集上开展实验。

此外,近年来大数据的发展让人们认识到,少量的采样会影响对真实世界的认知,对于机器智能算法来说也是一样,而相比于音乐曲风识别的公开数据集已经达到了十万首的数量级[4],目前的音乐情感数据集在曲目数量上仍较少,本文将研究基于卷积神经网络的迁移学习方法,在当前数据量较少的情况下改善系统的识别能力。

2 基于梅尔声谱图及迁移学习的音乐分类方法

2.1 音乐的梅尔声谱图表示

图1 一首音乐的原始波形(上)与对应的声谱图(下)

梅尔声谱图是一种常用的音频信号表示方法,图1展示了一首音乐的原始波形极其对应的声谱图。在数字信号领域中,将时间信号转换为时间-频率表示是一种有助于信号分析的方法,声谱图的生成原理也类似,即先将音频信号根据设置的时间窗口分成许多帧,对每一帧音频,通过短时傅立叶变换生成频谱图,同时考虑到梅尔频率更加符合人类的听觉特点,将频谱图映射到梅尔频率上,再把所有帧的频谱在时间轴上拼接成一张完整的声谱图。

将音乐信号表示为梅尔声谱图,有助于通过图像这个载体,进行后续的音乐情感识别。

2.2 卷积神经网络分类模型

自2012年基于卷积神经网络的AlexNet[5]在Ima⁃geNet图像识别竞赛上大放异彩起,深度学习技术在图像领域得到了快速发展,相较于传统人工设计的特征,卷积神经网络通过逐层卷积和反向传播算法,从数据当中自动学习出对于当前问题更合适的特征表示,已经在图像领域显示出强大的能力。一个典型的卷积神经网络分类器包含卷积层、激活函数、池化层、全连接层和Softmax分类器,同时还有一些防止网络过拟合的结构和措施。受Aaron和Sander Dieleman等人将图像卷积用于解决音乐推荐问题[6]的启发,本文将采用声谱图结合卷积神经网络的方式对音乐数据进行分析。

2.3 特征提取与迁移学习方法

卷积神经网络出色的表现一部分来源于其逐层提取特征的能力,也就是通过低层特征的不同组合形成高层特征。Zeiler,Matthew D.和Rob Fergus通过对训练完成的卷积神经网络进行了可视化[7],发现随着网络层次的加深,提取出来的特征在语义上也更高级。得益于ImageNet大规模图像数据集的发布和深度学习算法的研究,使得人们可以在数据量较小的情况下,通过迁移学习的方法更好更快地训练一个新的任务的模型。

基于深度学习的迁移学习技术,即在当前任务数据样本量较少的情况下,首先寻找拥有大量数据的相关问题,通过对相关问题的学习之后,再将网络学习到的知识(即特征表示)应用到当前要解决的任务上来。具体可以采用两种方式进行知识迁移。其一,将预训练好的网络作为特征提取器,后续增加的网络或者分类器在前序提取的特征基础上进行训练。其二,使用预训练好的网络参数初始化当前更改过结构的网络参数,整个网络与新增加的部分一同训练。

Google的声音理解小组在2017年初发布了大规模音频数据集AudioSet[8],其中包含了两百万个带有人工标签的视频音轨,并且在此数据集上预训练了一个音频事件检测网络[9],本文的迁移学习研究将在此基础上展开。

3 实验部分

3.1 实验数据及评测标准

本文采用公开的类MIREX(MIREX-like)音乐情感数据集进行相关实验。数据集包含903首30秒的音乐片段,如表1所示,每个片段属于一个特定的类别(聚簇),每个类别由语义上相似的情感词聚合而成。其中每个类别150首歌曲构成平衡训练集,剩下20%的曲目则构成测试集。

表1 M IREX-like音乐情感数据集类别构成

实验的评价指标采用分类正确率(Accuracy)衡量。正确率的定义为下式,其中I为指示函数,当括号内的等式为真时,该值为1。

3.2 数据预处理

为便于后续在AudioSet模型上进行迁移学习,首先将MIREX-like数据集中所有的音乐片段按1秒分割提取成96×64的梅尔声谱图,构成相应的切片训练样本和切片测试样本,同时将同属于一首测试歌曲的切片组合成完整的测试样本。

3.3 迁移学习模型

实验中所采用的卷积神经网络架构如表2所示。由于迁移学习的方式,该网络的输入层直至第三全连接层(FC3)的结构与AudioSet模型结构相同,包含了6个卷积层、4个池化层及3个全连接层,这部分的输出称为嵌入层(Embedding)。在AudioSet模型的基础上增加一个小型神经网络(FC4+FC5+Softmax)或直接增加Softmax分类器(FC5+Softmax),用于学习Embed⁃ding层的高层语义特征与音乐情感之间的映射关系。

3.4 实验结果与分析

本文首先进行了普通的学习方式与迁移学习方式的对比试验,其中迁移学习方式采用了前述的两种方法进行了实验。实验结果如表3所示:

表3 普通学习方式与迁移学习方式的对比

训练过程在30轮左右已经基本收敛,所以基于同样的训练轮数对结果进行观察。

一方面,使用迁移学习的方式最终获得的分类正确率均高于直接从少量数据中训练的结果,说明从音频大数据训练得到的特征表示在音乐情感识别的任务上也具有较好的能力。对于迁移学习方式2,由于要训练的网络容量比方式1大得多,所以在不改变网络架构的情况下,正确率会较低一些。

另一方面,在预训练网络结构之上增加更多的层次,只对正确率略有提升,也从另一角度说明迁移学习过来的特征表示已经具有较好的能力。

同时,本文也进行了实验,分析从AudioSet预训练网络迁移音频特征表示对音乐情感识别任务学习速度的影响,监测训练过程收敛所花费的训练轮次,实验结果如表4所示:

表4 普通学习方式与迁移学习方式的对比

实验显示,采用迁移学习方法对网络进行训练将收敛速度提升了一倍以上,与此同时,将预训练网络部分与新增网络部分协同训练会进一步提高收敛速度。

4 结语

本文基于梅尔声谱图、卷积神经网络及AudioSet模型研究了音乐情感识别的迁移学习方法。实验中着重对音频迁移学习带来的音乐情感识别能力提升和训练速度提升进行了考察。由于AudioSet音频事件检测任务同音乐情感识别任务存在语义上的相关性,应用迁移学习方式提高了原神经网络的分类性能,同时大幅提升了训练过程的收敛速度,证明了相关音频领域中的特征表示在音乐情感识别任务中具有较好效果。在未来工作中,我们仍需要进一步解决许多现存问题,第一,情感类别对于不同主体的歧义性导致训练数据的质量不稳定,产生的误差将会进一步影响后续的学习与识别。第二,研究基于不同的大规模数据的迁移学习对音乐情感识别效果的影响。

参考文献:

[1]Katayose,Haruhiro,M.Imai,and Seiji Inokuchi.Sentiment Extraction in Music.Pattern Recognition,1988.,9th International Conferenceon.IEEE,1988.

[2]http://www.music-ir.org/mirex/wiki/MIREX_HOME

[3]Panda,Renato,and RuiPedro Paiva.Music Emotion Classification:Dataset Acquisition and Comparative Analysis.15th International Conferenceon Digital Audio Effects(DAFx-12).2012.

[4]Defferrard,Michaël,et al.FMA:A Dataset For Music Analysis.arXiv Preprint arXiv:1612.01840(2016).

[5]Krizhevsky,Alex,Ilya Sutskever,Geoffrey E.Hinton.Imagenet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012.

[6]Aaron Van den Oord,Sander Dieleman,Benjamin Schrauwen.Deep Content-Based Music Recommendation.Advances in Neural Information processing systems.2013.

[7]Zeiler,Matthew D.,and Rob Fergus.Visualizing and Understanding Convolutional Networks.European Conferenceon Computer Vision.Springer,Cham,2014.

[8]Gemmeke,Jort F.,etal.Audio Set:An Ontology and Human-Labeled Dataset for Audio Events.IEEE ICASSP,2017.

[9]Hershey,Shawn,etal.CNN Architectures for Large-Scale Audio Classification.arXiv preprint arXiv:1609.09430(2016).

猜你喜欢

音频卷积神经网络
基于递归模糊神经网络的风电平滑控制策略
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
柏韵音频举办Pureaudio 2021新产品发布会
神经网络抑制无线通信干扰探究
开盘录音带音频资料的数字化
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
基于Q-Learning算法和神经网络的飞艇控制