APP下载

音乐欣赏中脑对音乐属性变化加工规律的脑电研究

2018-07-26李洪伟李海峰薄洪健徐睿峰

复旦学报(自然科学版) 2018年3期
关键词:中央区前额脑电

李洪伟,李海峰,马 琳,薄洪健,徐睿峰

(1.哈尔滨工业大学 计算机科学与技术学院,哈尔滨 150001; 2.哈尔滨工业大学 深圳研究生院,深圳 518055)

脑是生物体内最复杂的系统,人脑的高级认知功能的高度发展,使得人类成为万物之首,具备了改造世界的能力,人类进行所有的生理心理活动都是要经过大脑,以脑为核心完成的[1].音乐是一种有效的情绪诱发手段,音乐在在情绪认知的心理和生理研究和实际应用中,都具有很好的应用前景[2].在医学领域,若能探究出人对音乐诱发情绪的认知规律,并据此编曲,用于临床上的音乐治疗,其应用价值是不言而喻的.目前,音乐治疗已广泛应用于各种心理治疗、辅助治疗[3].在脑机接口领域,由于音乐引发的脑反应在脑电活动上比较稳定,受个人因素影响较小,适用范围大,通过音乐脑电进行认知规律的挖掘是实现脑机接口的有效方法[4].

脑电信号(Electroencephalogram, EEG)的发现使人们开始了对脑的深入探索,而音乐通过作用于脑对人的生理心理产生影响,探究脑对音乐的认知规律是目前的热门话题.目前,研究者们在进行音乐脑电研究中常用的脑电特征主要分为3类: 时域特征、频域特征和时-频特征[5].脑电信号处理中常用的时域特征为事件相关电位(Event-Related Potentials, ERP)分析法.事件相关电位是指当外界对人的感觉系统或脑的某一部位给予刺激或撤销刺激时,在脑区引起的有规律的电位变化.这种脑电变化十分微弱,通常会被其他信号或者噪声信号所掩盖,但是通过计算机的迭加处理,可以提取出ERP成分[6].Poikonen等[7]采用ERP方法来分析人听完整的音乐时的脑反应.Poikonen等假设由音乐底层特征引发的刺激是相似的,可以用来进行迭加平均.然后重点提取了ERP的N100和P2成分作为特征,结合音乐的底层特征来探究脑反应.Li等用EEG信号的相位特征研究自然连续音乐与EEG信号间的关系[8].

频域特征是指将原始的时域脑电信号通过离散傅里叶变换得到频域脑电信号,再从频域信号中提取出相关特性作为脑电特征.神经科学和心理学将脑电信号划分为5种不同的节律[9].这5种脑电节律与人的各项生理及心理活动有着密切的关系.因此,在提取脑电频域特征时,大部分学者会先将脑电信号映射到这5个频段上,再分别提取出各个频段对应的频域特征.Kothe和Makeig[10]等利用离散傅里叶变换将原始脑电信号映射到上述5个频段上,将电极的功率谱密度和每个频段对应的能量作为脑电特征.

由于脑电信号是非平稳的随机信号,时间与频率之间的联系也是脑电信号的一个重要特征.因此,许多学者去探索和寻找能结合时域和频域的特征,这里称其为时-频特征.简单来说就是对脑电信号加窗,计算每个时间窗的频域特征,通过这样的手段将频域信号和时域信号结合起来.目前时-频特征的主要提取方法有短时傅里叶变换和小波变换等.Lin等[11]就是通过短时傅里叶变换将脑电信号映射到上述5个常用频段上,并计算每个时间窗每个频段的功率谱密度,得到时间-功率谱密度,并以此为基础进行后续的情绪识别.Banerjee等通过非线性分析来研究音乐与脑的关系,他们得出结论,前额区在音乐认知中比重很大,同时Hindustani风格的音乐对脑区激活更显著[12].

目前对音乐脑电特征提取的相关研究主要是脑对短时声音的反应.通过研究短时脑电信号的变化来探寻脑和音乐二者之间的关系.这样做尽管得到了许多成果,但是这种方法仍然有较大的局限性.首先,这些短时声音信号在一定意义上并不算是音乐信号,这些研究结果具有局限性;其次,这些短时声音信号都是单特征信号,事件相关电位中的事件其实是一种理想的状态,但是即使在实验室条件下,理想状态也不一定存在,因此在复杂环境下,如何研究相应的脑反应,这是目前的一大难题.针对这些问题,我们提出了音乐特征来进行ERP分析.其基本思路是将传统意义上的“静息-事件-静息”模式映射到音乐特征上,即将音乐特征视为信号,对音乐特征信号提取事件点,按照事件点进行ERP迭加处理.

首先,我们设计连续音乐的脑认知实验.目前已有的ERP实验范式都是通过短时声音刺激来完成的.对于连续音乐来说,没有相应的实验范式可以参照和利用.因此,我们自行设计了一种脑认知实验,通过让被试连续长时间欣赏音乐,同时让被试填写的量化表以确保被试音乐欣赏过程中的专注度.然后针对音乐的声学属性进行一系列研究,提取相应的声学特征,寻找声学特征上的事件点等.我们设计了一种双门阈值特征突变点自动搜索算法.对特征信号做差分,得到差分信号,再对差分信号做中值滤波和均值滤波,通过上下阈值筛选出突变点和平稳点.最后对EEG信号进行处理,得到纯净的EEG信号并提取其ERP特征,总结相应的认知规律.通过对不同脑区提取不同音乐特征的ERP,我们可以分析得出前额区和中央区在音乐诱发情绪中占有明显的比重,脑对音色和音高的感知比音高更明显.

1 实 验

1.1 被试详细信息与刺激材料

刺激材料是16首钢琴曲,每首曲子长30s,播放音量均在60dB以下,即人耳接听声音的舒适音量范围内.

参加实验的被试来源为15名哈尔滨工业大学的学生(8名男生,7名女生).所有被试均为右利手;所有被试母语均为汉语,第二外语均为英语;所有被试本人无神经系统疾病且家族无相应遗传病史;所有被试无专业音乐背景;所有被试听力正常,视力矫正后正常.

1.2 数据采集流程

脑电数据采集流程如下.

(1) 被试被告知实验目的,实验流程以及注意事项,被试填写个人信息表并保证属实,被试在同意实验书上签字;

(2) 为被试佩戴脑电信号采集设备,被试坐在隔音室中的舒适椅子上,两眼注视屏幕中心,眼睛距离电脑屏幕60~80cm;

(3) 15s静息脑电数据采集;

(4) 为被试播放一首音乐,采集其脑电数据,播放过程中屏幕中央显示符号“+”以帮助被试集中注意力;

(5) 15s静息脑电数据采集;

(6) 被试听完音乐后15s填写情绪量化表,确保被试专注度;

(7) 重复(4)~(7)步直到16首音乐播放完;

(8) 为被试取下脑电设备采集设备,为被试清洗头部,给予被试物质奖励.

1.3 实验设备

图1 电极分布图Fig.1 Diagram of electrode distribution

脑电数据采集设备: 实验采用Presentation软件播放系统,按照1.2节所述实验流程编写程序.所有实验均在本实验室配置的隔音暗室中进行,实验时始终控制光线条件一致.脑电信号通过NeuroScan脑电记录仪记录,采集通道为64导,电极排列位置根据国际10—20系统标准放置[17](电极分布如图1所示),以Scan4.5(NeuroScanInc.,Herndon,VA,USA)记录脑电信号,采用左右乳突参考避免左右半球不对称性,所有信号经过SynAmp2系统放大,传到主试电脑上被记录,采样频率为1000Hz,各电极头皮阻抗均小于5.0.采用Presentation15.0软件同步记录行为学数据.

2 数据处理

2.1 音乐要素提取

根据声音的三要素——音色、音高和音强,我们选择频谱质心、频谱通量、过零率和均方根作为特征,进行音乐的特征提取.

(1) 音色 我们通过频谱通量来描述音色变化.频谱通量是用来描述连续语音帧之间频谱变化的参数,体现了音乐信号频谱的局部变化,其本质是连续语音帧中频谱的差分.信号的短时频谱局部变化程度与频谱通量呈正相关[13],其计算公式为:

式中:Xr(j)表示第r帧的第j个频率下标的频谱幅值;Er为第r帧的能量.

(2) 音高 我们通过过零率来描述音乐的音高.过零率是指在一个音高帧内,信号波形穿过零的次数,即相邻两个采样点由正到负和由负到正的变化次数之和.信号的频率与过零率呈正相关[14],其计算公式为:

式中:x(n)是离散采样信号;N是一帧内包含的采样点个数;sgn()是符号函数,即

(3) 音强 可以用信号在每一帧上幅值的均方根来近似表示响度.音乐的音强与均方根呈正相关[15],其计算公式为:

2.2 事件点自动搜索算法

特征事件点的定义: 在某个音乐特征上,一段较长时间的平稳特征后出现短时幅值波动较大的点被称为事件点.一个事件点必须同时满足3个条件:

(1) 该点波动幅值要相对大,相对大并不是单纯在全局或局部进行比较,而是既要相较其附近几s内的特征,其幅值要大,又要满足该波动在全局较明显;

(2) 该点的波动时间应尽可能短,如果是一个平缓上升的抛物线,即一条渐变的曲线,这条曲线的顶点尽管幅值很大,但是并不能形成刺激,渐变过程中的波动不足以在被试脑中引发相应的刺激;

(3) 特征事件点前后无明显波动,这是ERP的要求,ERP的传统模式是“静息-刺激-静息”,我们采用ERP方法就要满足这个条件,特征事件点前后的平缓被认为是ERP中的静息状态.

图2为一个特征事件点的示例,图2(a)是音乐特征信号,图2(b)是斜率,该事件点满足上述3个条件.根据ERP要求,事件点的平稳时间应大于500ms.刺激点的幅值应大于参考值的120%,平稳点应低于参考值的80%.参考值动态生成,由刺激点附近40个点的均值决定.

图2 特征事件点示例Fig.2 The example of feature event point

本实验采用的是长时音乐,无法在实验过程中设置特征事件点,因此需要在实验后,人为寻找特征事件点,由于音乐片段的采样率较高和持续时间较长,通过人工寻找费时费力,且受人的反应能力与听觉疲惫的限制,无法保证准确性.因此,我们初步设计了一种基于动态阈值的双门限算法,通过该算法可以找到所有的近似事件点.

算法的基本思想是: 首先对得到的音乐特征做平滑处理,然后求其斜率并对斜率取绝对值.前文说过,刺激点要波动大,波动时间短.因此,我们用信号的斜率来表示波动时间,信号的幅值表示波动程度.针对待检测点,我们在其斜率信号和特征信号上取包含该点的共40个点的均值作为参考点,根据参考点分别取上下两个阈值.斜率和幅值同时大于两个上阈值的点被认为是刺激点,斜率或幅值低于下阈值的点被认为是平稳点.如果找到刺激点,则判断其之前是否有足够长的连续平稳点,如果有则认为是刺激点,如果没有,则舍弃该点.

2.3 脑电数据处理

EEG数据的预处理一般包含以下几步.

(1) 脑电预览 对脑电波形的预览,通过这一步去除原始EEG中电极漂移和接触不好的脑电波形.本实验数据剔除率约10%左右.

(2) 数据滤波 纯净的EEG波形包含频率0~50Hz的脑电节律,需要通过数字滤波去除采集过程中的干扰,得到纯净的EEG信号.

(3) 伪迹去除 采集到的EEG信号通常包含眼电、肌电等伪迹成分,需要通过一定的数学方法去除这些伪迹,得到干净的EEG成分,主要采用的方法是独立成分分析(Independent Component Analysis, ICA)分离信号,去除伪迹后再重新还原EEG信号[16].

ERP迭加[17]: 将事件点前后的EEG分段从连续的EEG中提取出来,然后按照时间锁定事件将这些EEG分段排列,再以点对点的方式进行简单迭加平均.

功率谱密度[18](Power Spectral Density, PSD)是衡量脑区活跃程度的一个重要指标,其计算公式为:

脑地形图是根据各个电极计算出相应的功率谱密度,以插值的方式映射到二维脑模型上形成的直观分析图[19].

3 结果与讨论

3.1 脑对音高的感知

通过音高得到的ERP波形图如图3所示.第一行依次是前额区(F1,Fz,F2这3个电极结果的平均),中央区(C1,Cz,C2这3个电极结果的平均),顶叶区(P1,Pz,P2这3个电极结果的平均)的ERP波形图,第二列依次是枕叶区(O1,Oz,O2这3个电极结果的平均),左颞叶区(T7,TP7这2个电极结果的平均),右颞叶区(T8,TP8这2个电极结果的平均)的ERP波形图.对于每一幅波形图,红线是根据事件点截取前500ms,后1000ms迭加的结果,蓝线是取随机点进行迭加的结果(后续的示意图均按此排列).

从脑地形图上我们可以看出,脑在对音高的认知上主要集中在前额区,其中高频的gamma波主要集中在右前额区,其他频段的脑电信号在前额区和中央区都有较为明显的变化.但是,我们同时也发现,在枕叶区,各个频段的波形也有轻微的变化,这种变化并不剧烈,但是真实存在的,而枕叶区是视觉处理脑区,并不涉及音乐处理,因此,我们将会在后续跟进这种现象.我们随机取相应活跃脑区的电极的功率谱密度与该脑区静息态时的功率谱密度做配对t检验,检验结果如表1所示.比较结果表明前额区,中央区和枕叶区明显比静息态时活跃,因此结论可靠.

表1 配对t检验结果

我们将得到的EEG片段进行叠加处理,得到相应的ERP,在多个电极上发现了相应的ERP成分.如,在前额区和中央区的大部分电极上均观察到明显的P2成分,P2是听觉认知实验中的重要成分,因此,我们有理由判断,通过音乐属性特征进行ERP处理是合理的.同时,在枕叶区电极上也发现有规律的波形,枕叶区多个电极均叠加出一个潜伏期200ms左右的负性波.

图3 音高变化对应的ERP和脑地形图

3.2 脑对音强的感知

通过音强得到的ERP波形图如图4所示.从脑地形图上,我们可以看出,脑在对音强的认知上同样主要集中在前额区,其中高频的gamma波主要集中在右前额区,其他频段的脑电信号在前额区和中央区都有较为明显的变化.这符合当前的研究,脑对音乐信号的处理主要发生在前额区和中央区.但是音强信号带来的脑区激活程度明显比音高变化更为剧烈,更为广泛,音高信号主要在前额区和中央区被激活,但是音强信号却激活了2/3的脑区,我们有理由认为,脑对音强的感知比音高更为敏感.同时枕区也发现不同程度的激活.同样我们取相应活跃脑区的电极的功率谱密度与该脑区静息态时的功率谱密度做配对t检验,检验结果如表1所示.比较结果表明前额区,中央区和枕叶区明显比静息态时活跃,因此结论可靠.

从ERP图像中,我们也可以观察到与音高特征类似的现象,并且音强信号引发的ERP中,P2的波幅更为剧烈.这也与相应的脑地形图相符.

图4 音强变化对应的ERP和脑地形图

3.3 脑对音色的感知

通过音色得到ERP波形图如图5所示.从脑地形图上我们可以看出,脑在对音色的认知上主要集中在前额区,其中高频的gamma波主要集中在右前额区,其他频段的脑电信号在前额区和中央区都有较为明显的变化.只是音色同音高一样,脑对音色的感知同样没有音强强烈.脑在感知音色时,只有相应的听觉脑区被激活.我们取每个脑区的关键电极的功率谱密度与该脑区静息态时的功率谱密度做配对t检验,检验结果如表1所示.比较结果表明前额区,中央区和枕叶区明显比静息态时活跃,因此结论可靠.

脑对音色的感知主要集中在中央区,从中央区电极的ERP波形图中发现明显的N1和P2成分,这两种成分都是传统ERP听觉实验中常出现的成分,中央区多个电极均检测到明显的N1和P2成分.

图5 音色变化对应的ERP和脑地形图

4 结论与展望

我们使用特征相关电位(ERP)的方法来探究音乐,情绪与脑的关系.

首先,我们设计并实施了基于长时音乐信号的脑认知实验.随后,根据音乐的声学属性,提取了音乐的频谱通量、均方根和过零率等特征.然后,设计了一种基于动态阈值的特征事件点自动搜索算法,通过该算法自动寻找特征事件点,并进行人工筛选.最后,根据特征事件点提取了音乐属性变化相关的ERP波形图.

我们通过脑地形图可以发现脑对音频和音高变化的主要响应脑区是前额区和中央区,这也与目前已有的结论相符,Alluriet等的结论也说明脑对音强的感知主要发生在前额区和中央区[20],Poikonen等发现脑的前额区在音高感知中占比重较大[7],Banerjee等发现前额区在音乐认知中比重很大[18].但是我们也发现了别人没有发现的现象: 在音高变化的脑地形图中,枕叶区是有明显变化的.但是根据已有研究,枕叶是视觉皮层脑区,我们认为这有可能是音乐引发的视觉联想引起该脑区活跃.关于该现象我们将会进一步探究.

通过特征事件点我们发现前额区与中央区的脑电ERP成分最为明显,能够得到理想的ERP波形图,而其他脑区无明显的ERP成分.这也与前面的发现相符,前额区和中央区是主要参与脑区,因此,会诱发出相应的ERP波形.这一发现说明脑对音乐的加工过程中,顶叶区前期不参与或者参与比重过低,而中央区和前额区有很高程度的参与.

最后,我们也分析了实验存在的不足与ERP的使用限制.当刺激材料提取不到事件点或事件点过少时,这种方法就不适用,需要别的手段辅助处理.我们也将在后续工作中加以改进这点,同时将情绪因素考虑进来,发掘更多的认知规律.

综上所述,我们所采用的ERP法具有很高的应用价值,可以广泛应用于相关心理学、认知科学等领域的研究.在实际应用中,可以通过该方法深入探究音乐认知规律,并据此开展音乐治疗等辅助医疗手段,也可以应用于脑机接口的实际应用,自动检测人的情绪状态并智能化调节,具有极高的发展潜力,可广泛用于商业、军事、医疗、教育等领域.同时我们也扩宽了ERP方法的局限性,使ERP可以用于更广阔的研究领域.

猜你喜欢

中央区前额脑电
简单搓搓可养生
甲状腺单侧乳头状癌超声特征联合BRAF V600E基因与对侧中央区淋巴结转移的相关性研究
甲状腺素和多奈哌齐对甲状腺功能减退症大鼠前额叶synaptotagmin-1表达的影响
双侧甲状腺乳头状癌中央区隐匿转移相关因素分析
现代实用脑电地形图学(续)
现代实用脑电地形图学(续)
现代实用脑电地形图学(续) 第五章 脑电地形图的临床中的应用
现代实用脑电地形图学(续) 第五章 脑电地形图在临床中的应用
甲状腺微小乳头状癌中央区淋巴结转移相关因素分析
喉癌中央区淋巴结转移:11年喉癌手术病例回顾性分析