APP下载

语音加工的功能性近红外脑成像研究进展

2015-05-04杨海波张雪健周菘刘颖白学军

心理与行为研究 2014年4期

杨海波 张雪健 周菘 刘颖 白学军

摘要 功能性近红外光谱技术(fNIRS)是近十多年兴起的一种用于研究脑功能成像的新手段。与其他研究手段相比,它具有便于移动、造价低、对运动伪迹不敏感等优势。本文首先简要介绍fNIRS技术的原理、算法类型、应用与特点,然后总结了fNIRS在语音加工领域的研究进展,其中包括音长、音位序列、音节结构、重音、语调等内容,最后基于已有成果与研究现状,对fNIRS在中文语音加工方面的应用提出了展望。

关键词 语音加工,脑机制,功能性近红外光谱技术。

分类号 B84

1.引言

功能性近红外光谱技术(functional near-infraredspectroscopy,fNIRS),也称为近红外脑功能成像技术,初现于20世纪70年代末(Jobsis,1977)。近20年来,该技术同脑电图、功能性核磁共振脑成像等技术一样,成为人类探索脑机制发生发展的有效工具。fNIRS是一种非侵入式的脑功能成像技术,它利用近红外光,穿过头皮及脑组织,直接监测神经活动引发的脑区血液动力学的变化状况。通过氧合血红蛋白浓度(HbO)、脱氧血红蛋白浓度(HbR)、总含氧量(HbT)等指标反映出来脑各区域的活跃情况(Rossi,Telkemeyer,Wartenburger,& Obrig,2012)。

目前,fNIRS在认知心理学、教育心理学、临床心理学等领域得到广泛应用(Gallagher,2013;Kahla-oui,et al.,2012;Yu,Pan,Ang,Guan,& Leamy,2012)。在国内的研究中也涉及到语义编码、脑机接口、阅读障碍儿童词加工、孤独症儿童抑制功能、神经痛调控等领域的研究(胡汉彬,祝晔,蒋田仔,2010;李鹏程等人,2000;苏艳丽等人,2010;吴汉荣,姚彬,2004;辛佳炜,王岩,敖强,左焕琮,2012)。

在语音加工研究方面,fNIRS有自己独特的优势。一方面,fNIRS可提供一个安静的实验环境,这样既能避免噪声对实验结果的污染,也能提高实验的生态效度;另一方面,fNIRS实现了相对较高的时间分辨率和空间分辨率,更有利于语音加工脑功能的定位研究。此外,fNIRS具有非侵入性和对头动的相对高容忍度特点,从而可以实现婴儿与儿童在觉醒状态下的实验;而且,fNIRS还适用于一些特殊的被试群体,如多动症患者儿童,精神分裂症等被试,这些被试通常在其他成像技术上很难进行实验,近红外技术可以帮助研究者更加全面地揭示语音加工的相关机制(Bortfeld,Wruck和Boas,2007;Diel-er,Tupak,& Fallgatter,2012;Lloyd-Fox,Blasi,& El-well,2010)。

2.语音加工脑机制的fNIRS研究

目前,fNIRS在语音加工方面的很多领域都取得了不错的进展,主要内容包括对音长、音位序列、音节结构、重音和语调的研究。

2.1 音长

音长就是声音的长短。在很多语言中,音长决定着单词的意义,也就是说音长不同,词汇的含义就不一样,尤其是元音的音长,如英语中的bark与buck,一个是长元音/a/,一个是短元音/∧/,尽管只是音长不同,单词的含义却大相径庭。因此音长识别的准确性对言语知觉起着非常重要的作用。有人(Minagawa-Kawai,Mori,Furuya,Hayashi,& Sato,2002)使用fNIRS研究了日语的长元音和短元音在听觉皮层区的表征情况。实验材料为4种不同条件的非词,刺激以从/mamo/到/mama:/连续音体上最后一个元音的不同延时作为区别,时长分别为151ms(刺激A)、184ms(刺激B)、217ms(刺激C)、250ms(刺激D)。实验程序是由Rokubunken软件(Imagawa & Kiritani,1989)写成的程序,所有非词都做了合成,保证第二个元音具有稳定的音高线和共振峰结构,并且第一个音节的音长为110ms,而中间的/m/音素为90ms。由于前人研究发现当日语长短元音的音素边界在B和C条件之间,所以实验选用四种刺激间毗邻的两个刺激作为一个周期进行分析,共三个周期,在AB周期中,刺激A在20s中,以1.25s出现一次的频率呈现,之后以伪随机的方式交替呈现刺激A和刺激B,时间为20s,出现频率同上,实验把前20s作为基线水平,而后20s作为目标分析,如此至少重复5次。BC与CD周期与AB周期一样。三个周期随机呈现给每个被试。刺激通过耳机以70dBSPL的水平依次呈现给被试。结果发现,当评估刺激间音位边界时,也就是BC周期中,对比的刺激可以引起左脑听觉区更大的变化。而对于那些相等时长且属于相同音位类别的刺激而言,也就是AB和CD周期中,听觉区却没有表现出显著变化。

同时,音素加工的大脑左侧化效应也得到证实。相关的MEG和ERP研究已发现,人们对母语的音素变体相比非母语的音素变体的脑功能反应不同(Alho,et al.,1998;Dehaene-Lambertz,1997;Koya-ma,et al.,2000),而且第二语言学习者在识别新语言的某些不同音素时出现了困难(如日本被试识别英语中的/r/和/l/时)(Miyawaki,et al.,1975),所以Minagawa-Kawai等人又研究了学习日语的韩国被试在日语的音位对比方面的血氧反应和行为表现(Mi-nagawa-Kawai,Mori,& Sato,2005;Minagawa-Kawai,Mori,Sato,& Koizumi,2004),研究中被试为7名日语熟练的韩国人,测试区域为双侧颞叶的听觉区,刺激材料同上述研究(Minagawa-Kawai,et al.,2002),程序也相同,不过该研究加了一个控制条件,即一对日语的合成词/itta/与/itte/,前者为基线,两者同时出现为目标。结果发现,日本被试的左脑听觉区存在音位特异性反应效应,而韩国被试则没有表现出对母语中相同时长的类别特异性反应,这说明他们的脑区加工模式同日语被试不同。但实验的行为数据表明在类别知觉方面韩语被试同日语被试没有差别。这说明第二语言的音位类别知觉仅仅通过行为数据来确定是还不够充分。也证明了近红外脑成像技术的使用价值。

随后,有人(Minagawa-Kawai,Mori,Naoi,& K0-jima,2007)把日语音位对比研究扩展到婴儿人群,相对婴儿还不太成熟的视觉系统,听觉系统已经表现的更好,他们已经可以识别出声音对比中一些非常细微的差异(Alho,Sainio,Sajaniemi,Reinikainen,& Nāātānen,1990;Huotilainen,et al.,2003),而且对很多语言的一些韵律特征的识别非常敏感,包括他们从未听过的语言(Jusczyk,2000)。但随着年龄的增长,约在1岁左右,他们逐渐对母语的识别能力提高,而对其它语言的识别变得不敏感(Werker &Tees,1984),这就是语言特异性变化。所以实验人员想通过长短元音对比任务,了解日语音素习得时语言特异性的神经机制变化,研究测量了5个年龄组的日本婴儿对不同时长元音的血氧变化,年龄组分别为3-4月组,6-7月组,10-11月组,13-14月组,25-28月组,使用跟成人研究同样的刺激(Minagawa-Kawai,et al.,2002)。结果发现,婴儿的血氧指标在长短元音间的转换方面比长元音或短元音内的转换反应更强。它最早出现在6-7月组,12月以上组就稳定出现。但是听觉区的音位特异反应的左脑偏侧化效应仅在13个月及其以上组中发现。因此,音位时长对比很可能首先被6-7个月时的一般听觉通路加工,在12月后转化才会转变为一个与成人类似的更加偏向语言的通路,这时,语言加工的左脑偏侧化效应也变得更加稳定。

2.2 音位序列

具体语言中,划分词的最小语音单位是音位。随意排列的音位不能组成有效词汇,它会受到音位序列的制约(Fromkin,Rodman,& Hyams,2009)。这就涉及到音位组合法。音位组合法是在给定语言中,音节或词汇中的音素的各种可能组合方式。大量研究表明,音位组合法是人们切分语音流的有效线索之一(McQueen,2007),它可以帮助听者加速完成词汇的识别,其余线索还包括如重音、音位变体规则等。有人(Rossi,et al.,2011)通过ERP和fNIRS结合,研究音位组合法的神经机制。ERP有很高的时间分辨率,fNIRS可以提供相对高的空间定位,更重要的是两种仪器之间的信号互不干扰,两种仪器的结合可以更好的完成研究目标。实验中,fNIRS测量区域覆盖了左右脑的额颞区名颞顶区和颞叶。实验有25、德国被试参加,刺激包含了216个单音节的非词,一种为符合德语的音位组合法规则非词,一种为不符合其规则的非词。非词均以两种不同的语音模式呈现,一种为成人导向语,一种为婴儿导向语,婴儿导向语音也就是我们所说的“妈妈语”,它通常带有更加夸张的音高,更长的音长,更高的清晰度等特征(Soderstrom,2007),这样就包含了更多的韵律特征,从而可产生不同于成人导向语的脑反应模式,加入这两种模式对比的目的是为了检验两种模式的语音是否会影响音位组合法的加工机制,从而影响脑的偏侧化效应。fNIRS的结果发现,无论在成人导向语还是在婴儿导向语的模式下,符合规则的非词比不符合音位组合法的非词对包括额颞区在内的左半球脑区有更强的激活。而两种模式间的激活量并不存在显著的差异。

有人(Abla & Okanoya,2008)通过变换序列顺序的方式使用近红外技术研究语音流词切分问题。很多研究发现不管是成人、儿童还是新生儿都会利用相邻音节间的过渡概率来切分语音流(Aslin,Saf-fran,& Newport,1998;Saffran,Newport,& Aslin,1996),研究人员通过变化刺激序列的出现概率来测量正常成人被试加工序列时的脑激活情况,测量位置为左右脑的颞叶区,刺激序列以随机顺序呈现。其中,控制出现概率的刺激序列包含6个语调音素,而随机组合排列的刺激序列包含11个语调音素,两种不同的序列会交替呈现。最终发现,在前者序列条件下左脑额下回血氧浓度大幅提高,而后者序列条件没有出现。这说明左脑额下回在基于概率切分的音调序列加工处理中扮演着重要角色。

2.3 音节结构

排列规则不仅约束着词中的音位序列,还约束着音节中和音节间的音位序列(Fromkin,et al.,2009),后者称之为音节结构。有人(Gervain,Mac-agno,Cogoi,Pena,& Mehler,2008)研究了新生儿对音节简单重复结构的知觉和学习能力。他们一共进行了两个实验。在第一个实验中,22名婴儿需要聆听一组包含重复音节序列的音素(如:‘mubaba,‘penana),而其中会间杂一些包含随机序列的音素(如:‘mubage‘penaku)。结果发现,在对重复序列的音素反应时,新生儿的双侧颞上回和左脑额下回的氧合血红蛋白浓度上升,说明新生儿大脑已可以分辨出两种不同的语音。而且在较靠前的几个试次中,重复序列组比随机序列组引发了更强的反应,说明被试婴儿的大脑中已存在识别重复序列音素的知觉机制。另外,在随后的试次里,重复序列激活量继续增加,但随机序列却不存在这种效应。在第二个实验中,实验人员对非临近重复组(如:‘bamuba,‘napena)和相同的随机控制组进行比较,结果没有发现差异。这些结果说明婴儿在听觉方面仅对某些输入参数敏感,这种知觉能力也许能促进随后的语言发展。JuditGervain等人(2012)的实验验证了该结论。并发现新生儿大脑可以有效地编码关系和序列信息,并可将其整合到一个共同的结构模型中。

2.4 重音

同汉语中的声调和英语中的重音不同,日语属于两者之间的语言,有自己独特的模式,日语在特定音节会出现重读,但日语的重音通常被看作是高调,所以日语被称为音高-重音语言。有人(Sato,Soga-be和Mazuka,2007)通过语音刺激任务研究了日语词的音调重音的加工机制。20名听觉功能正常、母语为日语、右利手被试参与了实验。研究人员测量了非音节词和纯音的音调变化模式下的血氧反应。测量位置为左右侧颞叶,刺激分为包括纯音与语音在内的四种类型。结果发现,左脑颞顶区对词内音调模式变化的反应比纯音的反应更强烈,同时词内音调模式变化知觉时激活了左脑额区,这说明左脑语言区加工了被试的词汇音调重音。Yutaka Sato等人(Sato,Sogabe,& Mazuka,2010)延续了之前的研究(Sato,et al.,2007),把人群扩展到婴儿,研究日语词汇音高重音模式变化,在第一个实验中,20名4个月大和20名10个月大的婴儿参与了实验,刺激为14个音高重音有所不同的双音节日语词对,再根据音高模式的不同从词库中随机选出4个词表,每个词表包含14个词,每个词呈现1s,共14s。实验范式为修订后的视觉适应范式(Stager & Werker,1997),结果发现4-10月大的婴儿对词汇嵌入非音节词的音高重音模式变化有敏感性。第二个实验中使用近红外光谱仪对左右半球的血氧变化进行监测,刺激是同样的词汇音调重音模式变化和相应的纯音。结果发现,在功能性单侧化效应方面,4月大与10月大的婴儿反应不同:对词中音调变化的左半球优势效应仅出现在10月大的婴儿上。这说明对日语词汇音调重音的知觉变化可能与功能单侧化优势转换(从双侧优势转向单侧优势)有关。

2.5 语调

句子中各个音节的高低、强弱、长短的变化叫做语调。包括节奏、声调等。有人(Kovelman,et al.,2012)使用近红外成像技术对初级阅读者(6-9岁)语言节奏的脑机制进行探究。15名儿童参与了实验,所以被试都要完成一系列语言任务,包括语音知觉节奏任务和言语短时记忆词汇搭配任务。fNIRS结果发现,右脑对慢节奏刺激有更强的反应,左脑相对其他较快或较慢频率的刺激有更大的激活。说明右脑可能对叫加工节奏有更好的敏感性,左右半球对特殊的慢节奏调制具有选择性。

有人(Wartenburger,et al.,2007)研究了4岁儿童对句子的韵律加工和知觉加工的脑机制。刺激分为两种,一种是包含语音、语义、句法和韵律信息的正常语句,一种是仅有韵律信息的语句。结果发现,无语境的韵律加工条件激活了右脑额颞区,但在全语境情况下,左脑脑区激活更大。这符合双路径模型假设(Friederici和Alter,2004),儿童语言特异性加工依赖于半脑内特异性,左脑加工音段,右脑主要加工超音段。

有人(Homae,Watanabe,Nakano,Asakawa,&Taga,2006)研究了3月大的婴儿句子语调加工的脑机制。他们测量了婴儿在睡眠状态下的反应。刺激分为正常和平调语音条件。通过对比发现,右脑颞顶区在正常语音条件下比平调条件下有更强烈的激活。说明3月大婴儿右脑参与了音高曲线的加工。随后的研究又测量10月大的婴儿(Homae,Watan-abe,Nakano,& Taga,2007),发现在两种语音条件下,右脑颞叶和颞顶区,双侧前额区对平调语音的反应比对正常语音的反应有更明显的激活。说明被试已经有至少一部分母语韵律结构的加工机制。综合3月大婴儿的研究结果,作者认为,婴儿大脑的言语加工从分析音高信息本身向整合输入语音信息发展,从而习得韵律结构。有人(Saito,et al.,2007)使用同样任务研究了新生儿的脑反应,结果发现正常语音在额区比平调语音激活了更大的血氧量。说明他们可以分辨语音中韵律模式的不同。

3.未来研究展望

近红外脑成像技术在语音加工方面的研究,未来可以从以下几个角度去开展研究工作。

从语音的特异性加工角度来看,汉语是典型的声调语言,在语音加工的韵律方面有不同于其它拼音文字的独特加工模式,此外汉语还是典型的表意文字,从文字加工的脑机制来看,这些语言间是存在差异,例如正字法的差异,语音结构的差异等(Lee& Pooh,2014),这可能也会映射到对语音的加工上,已有研究证明语音对词汇通达的作用等(彭聃龄,2005)。近年来还有学者对汉语加工特异性提出了自己的理论,如拼义理论(张学新,2011)。总之,语言加工存在共性,也同时存在特异性,目前很多其它语言的结论不一定适用于自己的母语(Dan,et al.,2013),因此可以从中文特有的加工模式以及语言间差异人手探讨脑机制的差异。

从语音的一般性加工角度来看,在目前的语音加工领域中,利用近红外光学脑成像优于其它仪器的优势,还可以继续深入探究(Quaresima,Bisconti,& Ferrari,2012)。从微观层面看,有关语音加工的研究包括语音学和音系学。从音系学角度看,包括的领域有音位、元音辅音音长、音位序列、声调、语调、词重音、短语重音、句重音、音韵规则等。目前的研究仅涉及其中一二,且多为被动接受语音刺激的任务。利用近红外脑成像的高生态效度特点(Pollo-nini,et al.,2014),可以更多研究与语音生成有关的内容。从宏观的层面看,语音加工涉及到语言学研究的各个方面。尤其在言语习得领域,fNIRS具有天然的优势。由于语音自身的特点,成为人类语言最先获得发展的方式。因此在研究语音习得的脑机制方面,对婴儿群体的研究必不可少,但传统的脑成像技术对婴儿来说是很难接受的,近红外技术的相对友好性可以有效的解决该问题,近年来,有人(Benavides-Varela,et al.,2011)就使用fNIRS研究了112个1-5天大的婴儿语音发展,结果发现新生儿对新奇双音节词的反应比对熟悉的双音节词的反应更强。因此,利用好近红外脑成像的优势是相关语音研究发展的关键。