APP下载

基于主观感知得分与客观音频特征的中国民族乐器音色相似性的研究

2020-06-28李子晋江益靓梁晓晶

复旦学报(自然科学版) 2020年3期
关键词:民族乐器相似性主观

李子晋,江益靓,梁晓晶

(1. 中国音乐学院 音乐学系,北京 100101; 2. 复旦大学 计算机科学技术学院,上海 201203)

1 研究背景

音色被定义为在音高、音强相同的情况下,区分出不同声音的声学感知.就乐器而言,音色是区分不同乐器最为重要的依据.最直观描述音色感知的方式是使用离散的主观描述词刻画音色.在西洋乐团和中国乐团的相关文献中,记载了许多形容乐器声音特点的描述词汇,例如“亮”、“尖”、“柔”、“暗”、“厚”与“嘶哑”等.研究人员常常通过主观或客观选择方法对音色描述词进行筛选.例如,主观选择方法有词语选择法、强制选择评价法等;客观选择方法有相关性分析、聚类分析、多维尺度分析等[1].使用单个描述词描述乐器音色的优点是直观、符合人们感知,缺点是没有描述词语的程度之分,以及忽略了描述词语之间的非独立关系.

音色通常被认为综合了多个方面的感知[2].因此音色可以在某一描述词维度上或相对描述词维度上进行细化的语义尺度打分,通常以连续分值的方式表示,这被称为语义细分法.例如,在明亮度、尖锐度、饱满度等维度上对音色打分,或在明亮-暗淡维度、单薄-浑厚维度上对音色打分[3].文献[4]通过主成分分析(Principal Component Analysis, PCA)的方式将其分为几个相互正交的维度.文献[5-6]计算出所有音频之间的主观得分距离矩阵,再将数据映射到低维空间,使得低维空间中的距离与高维空间中的距离一致.语义细分法的优点是对音色的描述有程度之分,缺点是仅能在给定的某个或1对描述词维度上按程度打分,限制了对音色的描述的全面性.

从19世纪70年代开始,学者们就在寻求鲁棒的客观特征来解释音色感知,即使用客观音频特征来表征音色.早期的音色感知相关的研究普遍认为谱质心是影响音色感知的重要维度之一[7].除此之外,谱偏差、谱密度、起音时间、起音质心时间、延音时间、幅度谱包络与谱通量都是常见的表征音色特征.

以往有关中国民族乐器的研究通常集中于定性方法,如文献[8]使用音色主观打分的方法验证笙的物理参数与音色的关系,其中音色的标签是由音色主观打分得到的.Wang等[9]进行了一系列关于中国民族乐器主观评价的研究.这些研究集中于声音感知的1个方面,并且通常以单个或1组中国民族乐器作为研究对象.关于中国民族乐器音色定量化的研究较少.文献[10]使用谱特征对笛子的音质进行了研究,通过音乐家或专业人士的主观音色感知,对笛子的音色在甜美、浑厚、通透与柔和4个方面进行打分.文献[11]对竹笛音色进行了声学分析,研究了频谱特征构成的音色空间与心理声学的联系.中国音乐学院于2018年发布了中国民族乐器多媒体数据库[12],为深入研究中国民族乐器提供了可能[13-14].

综合所有选择的描述词上的感知得分,本文引入了1种可视化的中国民族乐器音色的主观描述方式;另外,选取文献中常用来刻画音色的客观特征向量表征音色.本文使用这两种不同的方式来研究不同乐器的音色相似度,此外,还探索了了主观相似性与客观相似性之间的相关性.本研究可以为作曲家和音乐家提供详细的参考资料,且有助于音乐信息检索系统和音乐推荐系统的相关任务.

2 数据集

本实验使用文献[11]构建的民族乐器音色主观评价数据集.数据集包含37种民族乐器的样本数据,每种乐器包含1段3~4s的演奏片段.采样率为44.1kHz,采样位深为16bit.乐器按照类别可以分为弓弦乐器、管乐器、弹拨乐器和打击乐器.文献[11]从调查问卷和文献中查找到329个音色描述词,通过一系列词语选择、相关性分析、聚类分析等,得到16个乐器音色描述词: 纤细(Slim)、明亮(Bright)、暗淡(Dull)、尖锐(Sharp)、浑厚(Mellow)、单薄(Thin)、厚实(Thick)、清脆(Crisp)、干瘪(Dry)、嘶哑(Hoarse)、粗糙(Rough)、纯净(Pure)、协和(Harmonious)、丰满(Rich)、柔和(Gentle)、混浊(Muddy).这16个音色描述词可以较完整地表征整个音色感知.表1列出了研究的中国民族乐器及其分类.主观评价过程是由34位参与者整体感知每种乐器的3~4s音乐片段,并对16个听觉属性进行评分,评分范围为1~9分.参与者为有专业学习背景的音乐爱好者.

表1 中国民族乐器及其分类列表Tab.1 Chinese musical instruments and their categories

3 实 验

3.1 基于主观感知得分的民族乐器的可视化方法

区别于以往用单个描述词或者1对描述词来描述音色的方式,本项工作基于上节中主观感知的评价得分提出1种通过可视化的音色蜘蛛图来描述民族乐器的方法.综合各个乐器在16个音色描述词上的评分,绘制出蜘蛛图.音色蜘蛛图包含16个主观音色描述词,半径上由内至外对应的评分为1~9分.4种不类别的乐器的音色蜘蛛图如图1,图2,图3,图4所示.不同乐器具有不同的音色蜘蛛图“形状”,也可称之为其音色的“性格”.

图1 弓弦乐器组的音色蜘蛛图Fig.1 Timbre spider diagram of bowed string instruments

图2 管乐器组的音色蜘蛛图Fig.2 Timbre spider diagram of wind instruments

图3 弹拨乐器组的音色蜘蛛图Fig.3 Timbre spider diagram of plucked instruments

图4 打击乐器组的音色蜘蛛图Fig.4 Timbre spider diagram of percussion instrument

不同大类乐器的音色蜘蛛图有一定区别.例如弹拨类乐器多在协和维度有明显凸起.管乐器多在在清脆维度有明显凹陷.在同一大类乐器中,不同乐器的音色蜘蛛图也不尽相同.例如弓弦乐器中,中胡声音较为柔和,在各个描述词上平均得分区别不大,对应音色蜘蛛图形状圆润近似圆形;京胡在清脆明亮描述词上平均得分较高,在暗淡浑厚描述词上平均得分较低.因而音色蜘蛛图有明显的起伏变化.该方法克服了以往使用单个描述词来描述民族乐器较为单一的缺陷,对音色的描述形象、直观且较符合人们的感知.

3.2 基于主观感知得分的音色相似性的研究

对34位受试者的评分数据进行整理、异常值处理操作之后,取得分的平均值作为乐器最终的感知得分.

基于音色感知得分的描述方法,第i种乐器可根据平均得分结果表示为向量Vi16,通过计算数据中37种乐器之间的欧式距离,可以得到基于主观感知得分的差异性矩阵Dsub,维度为37×37,下标“sub”为subjective缩写,表明该矩阵是基于主观感知得分计算出的.为了表示为相似性,本文采取了归一化、与1作差的方式,得到相似性矩阵Ssub.Ssub的元素数值可近似为0~1,越接近于1表示两种乐器的音色得分越相似.图5为基于主观听觉感知的中国民族乐器音色的相似性矩阵,方格的颜色越深表示两种乐器音色的相似度越高.

图5 基于主观听觉感知的中国民族乐器音色相似性矩阵Fig.5 Timbre similarity matrix of Chinese musical instruments based on subjective auditory perception

图5中除左上斜向右下的对角线以外,颜色较深的区域对应的主观听觉感知实验中的两种乐器的相似度较高,如曲笛与新笛、京胡与板胡、古琴与古筝等.37种乐器按照4种类别排序,白色实线为不同类别的分界线.由图看出,在对角线周边的同一种类别的乐器很多具有较高的相似性.同种类乐器之间,音色相似的可能性更大,例如弓弦类乐器中,除革胡外,其余乐器有在对角线周边颜色区域较深的现象,革胡与其他拉弦类乐器明显不同,尤其是音色蜘蛛图在尖锐和单薄处较突出的京胡与板胡.而京胡与板胡对应的颜色逼近正红色,这两种乐器的音色蜘蛛图也非常相似,进一步证明了这两种乐器音色在主观感知上相似.

3.3 基于客观音频特征的音色相似性的研究

为了研究乐器的客观相似性,本文采用了文献中常用来刻画音色的客观特征向量来表征音色,共计21维音频特征,它们是时域特征(过零率)、频域特征(频谱质心、频谱平坦度、频谱带宽、复音特征、谱滚降、12维梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)(不包含第1个系数)、谱对比度、音调质心)以及谐波特征(谐噪比).使用44.1kHz的采样频率对音乐片段进行采样,每帧包含2048个采样点.对于每个音频,计算多帧里每个特征的平均值,然后采用多维标度法分析每种乐器的相似性.通过与3.1节相同的变换,可以获得基于客观音频特征的中国民族乐器音色的相似性矩阵Sob,下标“ob”为objective缩写,表明该矩阵是基于客观音频特征计算出的,如图6所示.

图6 基于客观音频特征的中国民族乐器音色相似性矩阵Fig.6 Timbre similarity matrix of Chinese musical instruments based on objective audio features

基于客观音频特征的中国民族乐器音色的相似性矩阵中,同类乐器音色的特征向量相似的特性更加明显.从图6中看出,同属弹拨乐器组的乐器音色整体最为相似.也有少量同类乐器的客观音色之间有区别,例如同为管乐器,中音笙、低音笙和箫与中管、低音管和倍低音管的颜色区域较浅,即音色相似度较小,而这些乐器在基于主观听觉感知的音色相似性矩阵中差异性表现得并不明显.后文对基于主观听觉感知的音色的相似性矩阵与基于客观音频特征的音色的相似性矩阵的相关性做进一步分析.

3.4 基于音色主观的相似性与客观相似性之间的相关性

本文进一步分析了每种乐器基于主观感知得分(Ssub)与基于客观音频特征计算出的音色相似性值(Sob)之间的皮尔逊相关系数,计算公式如下:

式中: cov(Ssub,Sob)表示两个相似性矩阵的协方差;σ(S)表示相似性矩阵的标准差.计算出的皮尔逊相关系数如图7所示.

图7 37种乐器的主观相似性与客观相似性之间的相关系数Fig.7 Correlation coefficient between subjective similarity and objective similarity of 37 musical instruments

实验结果表明: 在37种乐器中,有7种乐器(18.9%)的主观和客观相关性达到了0.60,具有较强的相关性;27种乐器(72.9%)的相关系数高于0.40,显示出中等相关性,这说明客观音频特征与主观音色感知有一定程度的相关性;其余10种乐器显示弱相关或不相关性.研究还显示较强相关的音频多在构造、演奏音域与技巧等方面与大多数同类别乐器相近.一方面可能由于提取的特征多为谱特征,和演奏音高技法相关性较大,而主观音色感知较复杂,在感知音色时会结合多方面因素;另一方面可能由于使用客观特征研究音色相似性时对所有特征研究的权重相同,而人在主观感受音色时,在客观特征对应的物理特性方面会有所偏重.未来工作中可以进一步地研究探究各个特征与主观音色感知的联系,还可以纳入更多的音频特征,计算每个音频特征时应该指定合适的权重.

4 结 语

本文研究了37种中国民族乐器的主观听觉特征,通过乐器的主观感知得分,提出1种通过可视化的音色蜘蛛图来描述民族乐器的方法,并计算音色感知向量之间的差异性得到主观音色的相似性矩阵,然后提取出表征音色的客观音频特征,并计算特征之间的差异性得到客观音色特征的相似性矩阵,最后通过相似性矩阵对比乐器音色的相似性.此外,使用皮尔逊相关系数比较了音色的主观相似性和客观相似性之间的相关性,有72.9%的乐器的皮尔逊相关系数高于0.40.实验结果表明客观音频特征与主观音色感知有一定程度的相关性.

在未来工作中,我们将进一步扩大数据集,根据上文得到的结论,使用神经网络训练模型学习出客观音频特征与主观感知得分的对应关系,建立音色感知计算模型.此外,可以进一步研究跨组相似性的原因,以测试播放顺序是否对这些乐器的声音相似性有影响,还可以分别进行低、中、高音区和极限音域的主观实验,计算同种乐器不同音区的主观感知和客观特征的相似性,从而可以获得不同音区下每种乐器的主观特性及其对应的客观特性.这将为中国民族乐器的音乐信息系统提供更详细的参数.

猜你喜欢

民族乐器相似性主观
隐喻相似性问题的探讨
初探中国民族乐器发展之路
以二胡为例简析中国民族器乐的创新与发展
加一点儿主观感受的调料
后印象
挣多少钱,才可以买到快乐
12个毫无违和感的奇妙动物组合
基于隐喻相似性研究[血]的惯用句
对立与存在
如何培养孩子对民族乐器的兴趣