APP下载

计算机MIDI 音序编辑技术在民族音乐开发中的应用

2022-06-29丁洁

电子设计工程 2022年12期
关键词:资料库音高民族音乐

丁洁

(商洛学院艺术学院,陕西商洛 726000)

民族音乐是与当地的原始文化密切相关的音乐形式,例如以江南丝竹为代表的南音、以西安鼓乐为代表的吹打乐,民族音乐是民族文化的珍宝,在当今全球化的意象中,民族音乐是重要的文化输出手段[1]。民族音乐的多样性和独特性能够体现中国的历史文化,民族音乐的传承和开发是非常重要的研究。但是,在现今社会的音乐受众、音乐形式、音乐类型和媒体形式都发生巨大变化时,民族音乐的推广和传播却面临诸多问题[2]。

1 方 法

1.1 MIDI音序编辑技术中的音乐制作基本原理

随着多媒体科技的迅速发展,音乐创作形式和应用方式发生了巨大的改变。在数字音乐十分普及的时代,许多音乐制作人都会利用数字音乐的便利性来制作音乐,使用音乐数字接口(Musical Instrument Digital Interface,MIDI)的通信协议记录音乐所需的数字参数进行编曲,相较于依靠麦克风录制实体乐器演奏要方便许多[3]。在数字音乐的制作过程中,所有步骤都可以使用电脑来完成,MIDI 通信协议所记录的参数在音乐工作站(Digital Audio Workstation,DAW)中都可以搭载软件音源(Software Instrument),从而输出各种乐器的声音。这种制作的便利性和多元性使得数字音乐蓬勃发展[4]。

结合民族音乐的特性和数字音乐制作的优势,文中以机器学习(Machine Learning)中的监督式学习模型对MIDI 音序编辑器中所记录的数字参数进行训练,以达成具有民族音乐特色的音乐自动化生成、制作目标,促进民族音乐的数字化开发和应用,使得民族音乐焕发出新的生命活力。为了同时应对市场对于音乐类型的多元化需求和民族音乐的独特性,文中实验将训练多种不同民族音乐风格的MIDI 资料。通过训练完善的民族音乐自动化作曲模型,可以为音乐市场提供大量民族音乐风格的音乐,并节省时间、人力成本,创造出更多民族音乐的应用和开发方向。

音乐是一种由声音组成的艺术表现形式,音乐主要的构成元素有音高、节奏、音色。在不同的音乐风格中,会不同程度地强调不同的元素[5]。音高是民族音乐重要的特征,代表着声音频率的高低。对于民族音乐演奏中的弦乐器,改变音高的方式有3 种,分别为对弦的长度、张力、密度进行调整[6]。

1)弦长越长,音高越低;弦长越短,音高越高。震动频率与长度成反比:

2)对弦的张力越小,音高越低;张力越大,音高越高。震动频率与张力平方根成正比:

3)弦的密度越大,音高越低;密度越小,音高越高。震动频率与密度平方根成反比:

其中,f表示震动频率,l表示长度,T表示张力,ρ表示密度。

音色是民族音乐另一个重要的特征。造成音色差异的主要因素是声波震动产生的泛音组成有所不同。人类对声音感官的不同因素主要有波形、声压和频谱[7]。

波形是声波的形状,也是造成音色差异的最大要素。波形受到4 种参数控制,包括:

1)Attack(A):声音从无到峰值的时间;

2)Decay(D):声音从峰值到平稳状态的时间;

2)Sustain(S):声音在平稳状态的时间;

4)Release(R):声音从平稳状态衰减到无的时间。

音乐波形趋势图如图1 所示。

图1 音乐波形趋势图

声压是声波在介质中传播时,因震动产生的压力变量,符号为p,单位为Pa,常使用声压级SPL 来表示声压的大小。声波在介质中传输,介质粒子的密度随声波改变,每一点的瞬时声压也会有所不同[8]。因此以均方根prms作为其平均值来计算,声音所产生的正弦波峰值ppeak与均方根prms的关系如下:

在民族音乐作品中,声压大小对人类感官的刺激常常在于配合曲势的起伏。在音乐领域,声音频谱代表在时序下声音的频率表现,通常使用时频数据对声音频谱随着时序变化的特征进行描述[9]。

1.2 MIDI音序编辑技术中的音乐特征计算方式

MIDI 是用来连接音乐与电脑的媒介,但由于不同电脑产生的音源器有所差异,使得MIDI 技术存在不一致性,这个问题在1983 年由Midi Manufacture Association(MMA)制定出的同步标准中达到了统一。MIDI 应用在编曲软件中主要包含了音高、音长、强度和音量等音乐特征参数,与WAV 和MP3 所包含的音波及音色有所区别[10]。

MIDI 音乐档案中共有128 个音高,音高由频率转换而来,公式如下:

式(5)说明MIDI 能够将一段旋律中的组成音定义出来。

MIDI Toolbox 套件中的Notematrix 矩阵囊括了MIDI 所有的音乐信息,包括:

1)Onset:以节拍表示每一个音高的起始拍;

2)Duration:以节拍表示每一个音高的音长;

3)MIDI channel:音乐中的音色;

4)MIDI pitch:音乐中的音高;

5)Velocity:音乐的强度。

根据民族音乐的特性,先求出不同乐曲之下每个音符的起始位置,形成一个时间序列公式如下:

其中,n是每一首曲子里的音符数,ti是音符起始时间,dt代表小节分区,这里是将一个连续信号转换成为离散信号,是对求出的n取整数部分,ai为各种音乐特征的加权。

将时间序列中每一个数据与其前面数据的时间距离定义为lag 值,用相关系数的方式计算出来。如果求出的值较大,则代表这个序列在同距离的lag 有一定的周期性,这里将自相关系数写成自相关函数:

其中,m代表相隔几何距离的lag。

MIDI 的呈现方式与其他音乐格式相比,降低了音乐特性识别的复杂度,因此能够被广泛地运用在电脑或各种移动设备上。

1.3 民族音乐资料处理中的统计分析方法

文中主要对由网络收集到的30 首民族音乐组成的资料库进行分析和处理,通过MIDI Toolbox 转换后得到音符矩阵(Notematrix),取得MIDI 的音高、节拍、音量、音轨、起始音等音乐特性,通过建构自相关系数的方法来描述曲子的旋律特征。文中以机器学习中的监督式学习方法为基础,运用统计机器学习方法中的随机森林、支持向量机、线性判别分析方法等分类方法,训练民族音乐的各种参数,并以此为分类方法比较对民族音乐特征识别判断的准确率。

机器学习是利用计算机判别的过程,通过训练模型对不同的音乐资料类型进行区分,直到学习结束后,通过新的测试资料对学习成果进行测试判断,可以观察模型的训练误差和测试误差,并对模型分类的表现结果进行判别[11]。民族音乐资料处理中的统计资料存储与分类集合Dn的表示公式如下:

其中,yi是标签,xi是特征。具体来说,以MIDI音高为例,yi是每首曲子的调性,xi是第i首曲子的音高分配,n是资料库的曲子总数。

线性判别分析(Linear Discriminant Analysis,LDA)是分类学习领域中常被使用的统计方法[12],LDA 假设在多维度的正态分布之下,利用统计资料,对线性判别分析数值X|y=k进行计算,表示如下:

其中,fk(xi)为概率密度函数,μk和∑k分别来自各类的总体期望值与共变异数矩阵。通过贝氏定理得到πk,后验概率P(Y=k|X=x)表示如下:

概率密度函数和有单调性质的log 函数结合后,在给定的k下,概率密度函数取最大的δk(x),并归类为G(x):

需要被估计的参数包括:

其中,μk代表第k群的观测数目,在LDA 的情形下,为对角矩阵。

支持向量机(Support Vector Machine,SVM)属于监督式学习方式,通常用于解决分类和回归的问题,可以处理分类问题中的线性和非线性资料[13]。SVM方法中包含两个重要的目标:一个是标准化,另一个则是核心函数的选择[14]。

1.4 民族音乐生成的神经网络模型

准备好MIDI 资料后,需要将存储的资料建立为LSTM(Long Short-Term Memory)网络层所需的三维序列输入,并进行标准化[15]。文中使用Keras 快速建构神经网络,使用时只需调整神经元数据、激活函数与损失函数等关键模型参数就可以快速建立模型[16]。神经网络模型如图2 所示。

图2 神经网络模型

文中使用Softmax 激活函数,在模型中计算每一类别的概率,采用指数计算,使数值增长与概率值变化呈现正相关,增加了类型的区分程度,效率更高。Softmax 激活函数计算公式如下:

文中使用交叉熵方法来计算损失函数,在资料的预处理中,将目标资料进行多类别编码,将目标资料转化为向量资料,在任意维度中只有一个维度的数值为1,其余维度的数值皆为0,交叉熵损失函数的计算公式为:

其中,x为输入样本,n为待分类的类别数目,yi为第i类类别所对应的真实目标,fi(x)为对应的模型输出。神经网络模型预测的输出经过Music21 建立成MIDI档案后,将档案录入MIDI软件中进行编辑与生成。

1.5 民族音乐的MIDI程序参数训练实验

文中主要研究民族音乐MIDI 程序开发与制作中的关键问题,通过对30 首民族音乐进行机器学习方法的分析,找出曲子的相关系数,再以音乐特性加权求得相关系数,作为民族音乐制作的基本架构。该研究的实验包括参数训练实验和音乐生成实验两部分。参数训练实验的基本步骤包括:

1)通过MIDI Toolbox 将民族音乐资料库的音乐转化为音符矩阵,提炼出每个特性的信息,记作X。

2)将曲子的各类特征数据记作Y,并统计分析出Dn。

3)对Dn进行交叉验证,分为训练资料和测试资料,取多次模型训练结果的平均值。

4)对处理好的资料库数据以不同的机器学习统计方法进行分析。

该研究在LDA 方法下以R 软件中的MASS 套件执行LDA 计算,实验设备采用SVM 方法实验R 软件中的E1071 套件,RF 方法使用R 软件的random Forest 套件。

民族音乐生成实验操作步骤如图3 所示。

图3 民族音乐生成实验操作步骤

在实验中,将资料库中经过机器学习参数训练的民族音乐使用Music21 套件对其进行分析和存档,再将资料放入文中的训练网络中进行训练与预测,再使用Music21 套件将预测结果输出为MIDI 音频资料。

2 结果与讨论

2.1 民族音乐特征参数训练实验结果

文中运用统计机器学习方法中的线性判别分析、随机森林、支持向量机等分类方法,训练民族音乐的各种参数,并以此为分类方法比较对民族音乐特征识别的准确率。将资料库中的民族音乐分为3组进行训练,实验的结果如表1 所示。

由表1可以看出,SVM-linear 与SVM 同为线性分析方法,SVM-linear 方法的结果要优于LDA 方法,推测可能的原因是:LDA 方法下的多维度正态分布与音调分布不相符,所以产生共线性问题导致结果较差。而同样是SVM 方法,不同的核心函数选择虽然结果相差不大,但仍可以依据训练误差和测试误差的误差距离发现,在SVM 方法的结果下,SVMRBF 的核心函数选择结果要优于线性的核心函数结果。观察整体表格可以发现,在所有方法中,SVM 方法下的SVM-RBF 是最佳的民族音乐参数判断方法。

表1 机器学习统计方法分组训练误差结果

2.2 民族音乐计算机生成实验结果

文中的民族音乐计算机生成实验部分使用了民族音乐中具有代表性的古琴、古筝、琵琶、笛子、马头琴5 种乐器曲子作为训练资料,经过神经网络模型训练完成以后,每种乐器乐曲训练和生成的结果如表2 所示。

表2 5种乐器乐曲的神经网络模型生成结果

由实验结果得知,实验中通过计算机MIDI 程序对民族音乐资料库进行处理,并使用神经网络模型方法对结果进行自动生成,结果显示,模型的特征精确值都在95%以上。这说明文中方法自动生成的民族音乐能够在一定程度上拟合民族音乐的独特性,且旋律的制作具有规律性,神经网络模型能够根据训练资料的风格将乐曲的特征保持固定在一定的音阶上,该方法可以作为民族音乐数字化制作的有效方法。

以琵琶乐器的乐曲为例,图4 展现了全曲的拟合趋势变化。可以看出,研究方法对于乐曲力度趋势的预测与实际值较为贴近,甚至细节的变化都能够较为吻合。

图4 琵琶曲模型拟合趋势变化

3 结论

文中针对民族音乐在数字音乐时代所面临的瓶颈和问题,提出了利用计算机MIDI 音序编辑技术来进行民族音乐数字化的开发和应用。文中主要以机器学习中的随机森林、支持向量机、线性判别分析方法等分类方法训练民族音乐的各种参数,对由网络收集到的30 首民族音乐组成的资料库进行分析和处理,通过建构自相关系数的方法来描述曲子的旋律特征,作为民族音乐制作的基本架构。实验结果显示,在所有方法下,SVM 方法下的非线性核心函数RBF 是最佳的民族音乐参数判断方法。实验中通过计算机MIDI 程序对民族音乐资料库进行处理,并使用神经网络模型方法对结果进行自动生成,结果显示,模型的特征精确值都在95%以上。但总体来看,文中实验的资料库和民族音乐样本不够丰富,利用MIDI 技术和神经网络模型来建立民族音乐自动作曲的效果还十分有限,需要引进对民族音乐的特征进行更加细化的判断机制,从而开发出更具特色的数字化民族音乐。

猜你喜欢

资料库音高民族音乐
为何有人唱歌总是跑调
在高一年级音乐教学中深化民族音乐教学的实践
音高听觉的培养与视唱练耳教学中因材施教探究
民族音乐处在“低谷”
论高校音乐教育在传统文化传承中的地位与作用
民族音乐教育的传承与创新
实现科学教材中资料库的教育价值
走出教学盲区 填充智慧行囊
钢琴调律对钢琴音准稳定性的作用
大学生自建口译资料库初探