APP下载

医学学术论文英文摘要词块及其结构和功能研究

2021-01-11陈菲娜

关键词:词块学术论文短语

齐 晖,陈菲娜

(福建医科大学 文理艺术学院,福建 福州 350122)

词块是语言的一个基本特征,它是若干共现词的固定组合,具有出现频率高和文本分布广的特点[1]。这些频繁共现的词语序列构建了句子层面的程式化框架[2-3]。语步是实现特定交际目的的语言单位,层级结构鲜明的语步可细分为若干语阶[4]。语步和语阶构建了语篇层面的程式化结构框架。近年来,不断有研究指出,体裁教学不仅仅要教授宏观层面的语步和语阶知识,还需教授微观层面的语言特征[5]。词块作为词汇语法编码是一个具有研究价值的语言特征。学术论文的体裁研究表明,与非本族语作者和初学者相比,英语本族语作者和资深研究人员在学术写作中使用的词块不仅数量和形式更多,也更精确[6-7]。国内外对学术写作中词块的研究方兴未艾,但未有学者分析论文摘要不同语步或语阶中词块的结构、功能和交际目的。鉴于此,笔者基于体裁分析法,探究医学摘要中词块的特点,为医学论文写作教学提供词汇和句法层面的指导,帮助学习者夯实词块基础,促进其提升学术写作水平。

一、词块和语步研究现状

(一)词块的结构和功能分类

词块的结构分类取决于核心词的词性。1999年,Biber等学者首次提出词块可以细分为12个类别,这一分类标准成为词块结构研究的基础[1]。5年后,Biber等学者将12类整合为3类,即含有动词短语的词块、独立从句成分的词块以及名词和介词短语的词块[8],使词块的分类更加明晰、科学。Cortes的研究指出,学术论文引言部分的词块也可以分为这3类[2]。还有一些学者进行了微调,将学术论文词块归纳为以名词、介词和动词为基础的3类词块[9-10]。

词块的功能分类取决于词块在篇章和语用层面的不同作用。Biber等学者认为词块的功能可分为立场表达、语篇组织和指代表达3种[8]。Hyland聚焦学术语篇,提出根据功能的不同,词块可分为以研究为导向、以文本为导向以及以立场为导向3种,为学术语篇的词块功能研究提供了可供借鉴的分类范式[11]。

(二)词块的交际目的及其与语步的关系

语步和词块均被视为文本的程式化结构框架,这一共性特征使学者将它们联系在一起开展研究。一些学者探讨了两者的内在关系,发现一些词块仅出现在特定的语步或语阶中,帮助语步实现其特定的交际目的。早在20世纪80年代,Swales就发现了学术论文引言中使用一些固定词块用于引出不同的语步[12]。Cortes基于自建的多学科论文引言语料库,以Swales的论文引言体裁范式[12]为标准,归纳了引言各语阶的常用语块,并探讨了4词以上长词块2种新的交际目的,即引出语步和补充说明[2]。可见,已有研究开始以体裁分析法为基础,探讨各语步、语阶中的高频词块这一语言特征。虽然相关研究数量并不多,但是语步和词块间的关系已引起专门用途英语领域研究者的关注。

随着词块研究向不同学科的纵深方向发展,有学者提出,学术文章的词块因学科差异而有所区别[13]。目前,尚无研究关注医学论文英文摘要不同语步和语阶中的词块特征。笔者基于自建的医学学术论文英文摘要语料库,对其中的词块特征进行分析,旨在回答以下问题:(1)医学学术论文英文摘要含有哪些常见的4词及以上词块;(2)这些词块的结构和功能如何分类;(3)这些词块是否具有特定的交际功能,它们与摘要各语阶之间是否存在联系。

二、研究设计

词块研究选用的语料库库容阙值一般为100万词[2]。研究团队自建了1 145 918词次医学学术论文英文摘要语料库,包含确定研究范围(M1)、描述研究过程(M2)、总结研究结果(M3)、归纳研究结论(M4)等4个子语料库。M1共计203 472词,M2共计348 610词,M3共计411 517词,M4共计182 379词。基于自建语料库,使用AntConc软件的词块(Clusters/N-Grams)功能分语步进行词块提取,借助AntConc的索引行(Concordance)和索引行图(Concordance Plot)等功能,一位团队成员人工确定词块所在语阶,另一位团队成员进行复核。

(一)词块提取

基于词块的多词汇共现、出现频率高和文本分布广这3个特征,使用语料库方法进行词块研究时必须在词块的长度、频率和文本数三方面设置测量标准,由于研究目的、文本体裁等差异,指标的设置也不尽相同。(1)词块长度。一般研究都聚焦于3词至6词的词块。Biber等学者提出大多数普通的3词词块是4词词块的一部分[1],此后的大多数研究均采用4词词块,这是因为其所呈现的功能和结构比3词词块更明晰、功能和结构的种类又比5词词块更丰富[11,14]。词块的长度与语域也相关,当分析词块的特殊交际功能时,则需要提取更长的词块[2,15]。词块的长度标准可根据研究需要选取,目前大多数关于词块结构和功能的研究倾向于使用4词词块,它们更具代表性,后期的人工识别分类也更具操作性。(2)词块频率。初期的研究使用10次/百万词的标准[1],之后的研究则大多使用更为保守的20~40次/百万词的标准[8,14]。为了更好地聚焦高频词块,确保词块的典型性,40次/百万词的标准已成为大多数研究的选择标准[9]。(3)文本分布。由于语料库文本数和文本语域的差异,目前针对文本数阙值一直未有一个较为统一的标准。Biber等学者确定了至少5篇文本的标准[1],Chen等学者则认为文本长度相对长的语料库应使用更低的标准,如3篇文本[10]。Hyland提出了至少覆盖10%文本量的标准化阙值[11,13]。总之,各种标准的目标一致,即确保提取词块的代表性。

结合前人研究方法,本研究提取词块标准如下:在长度方面,选用4词及以上长度的词块;在频率阙值方面,使用40次/百万词的标准,即4个子库分别为8次(M1)、14次(M2)、16次(M3)和7次(M4);在文本分布方面,由于摘要语料库具有文本篇幅短、篇章数多的特点,笔者认为Biber等学者提出的覆盖5篇文本的标准偏低,由此选择4倍标准即20篇,以确保词块的代表性。进行预实验,确认按上述标准提取的词块量具有可操作性。

词块按照以上3个标准分语步自动提取后,人工去除不符合研究需求的词块。首先,由于专业术语不属于词块的范畴,词块中包含3个及以上医学专业词汇的词块均被删除,例如,treatment related adverse events、functional magnetic resonance imaging等。其次,删除重叠的词块。许多4词词块包含于更长的词块中,如果都予以统计,则会出现词块的膨胀现象。大多数重叠词块在前人的研究中都被人工删除[15-16]。笔者根据Cortes的方法,只列出最长的词块以避免重复统计[2]。某个较短词块可能有一些包含于长词块中,另一些又不包含于长词块中,而是独立出现。在这种情况下,如果较短词块自身出现的文本数和频率符合析出标准,则需另外统计。

(二)语步分析

词块所在的语步和语阶范式是基于对该语料库中的语阶分析所得[17]。该范式基于交际目的,将医学论文摘要划分为4个语步17个语阶。语步1确定研究范围,可由4个语阶构成;语步2描述研究过程,可由7个语阶构成;语步3总结研究结果,可由2个语阶构成;语步4归纳研究结论,可由4个语阶构成。当然,并非每个语阶都含有固定的词块,笔者仅以此范式为结构框架,重点研究包含固定词块的语阶。

三、医学学术论文英文摘要词块结构和功能分类

(一)医学学术论文英文摘要词块(4~9词)

笔者提取了符合标准的词块183种(types),共计6 161(频)次(tokens),27 082词(words),占医学学术论文英文摘要语料库总库容11 545 918万词的2 %。提取的词块包含4~9词的词块,其中9词词块2种,8词2种,7词4种,6词11种,5词40种,4词词块124种。4词至7词词块的种类数增长具有一定的规律,长度每增加1词,种类数增长3倍左右。Biber等学者的研究结果表明,学术文本中最长的词块为6词词块,如from the point of view of[1],而Cortes在学术论文引言文本中首次提取了比6词更长的9词词块,如the rest of the paper is organized as follows[2]。本研究提取了2种9词的长词块,结果与Cortes关于词块长度的结果相同,表明论文引言或摘要中的词块长度比论文正文中的词块长度更长。

词块大多是结构或意义不完整的词汇语法单位[1]。本研究所提取的4词词块符合该特征。但是,6词及以上的长词块大多是相对较完整的意义结构,如the aim of this study was to evaluate the、there was no significant difference in,这个结果和Cortes对长词块的特征描述基本相同,即越长的词块往往语法和语义越完整[2]。

(二)医学学术论文英文摘要词块结构3个类别

从结构上看,医学学术论文英文摘要的词块可分为3类:名词短语为基础的词块、介词短语为基础的词块和动词短语为基础的词块(表1),此结果与Chen等学者对学术论文词块的结构分类一致[10]。从各类结构的占比看,动词词块在种类和频率上均占比最高。

表1 词块结构3个类别的种类数和频次数

名词短语为基础的词块有两种,一种含有后置修饰成分,如the results of this study,另一种不含后置修饰成分,如a retrospective cohort study。 介词短语为基础的词块指以介词开头的词块,如at the time of。动词短语为基础的词块指任何含有动词的词块,如were not significantly different,这类词块在种类和频率中都占绝大多数。以综合性学科的学术语篇为语料的研究中发现名词和介词短语为基础的词块占比更高[11]。以动词短语为基础的词块高占比揭示了摘要中医学与其他学科的差异。

(三)医学学术论文英文摘要词块功能3个类别

从整体功能上看,医学学术论文英文摘要的词块可分为3类:研究为导向的词块、文本为导向的词块和立场为导向的词块(表2)。从各类功能的占比看,研究为导向的词块在种类和频率上均占比最高。该结果与Pan等学者对学术论文词块的功能分类基本一致[9]。

表2 词块种类3个类别的种类数和频次数

研究为导向的词块描述研究活动和研究经历[11]。其中,位置和时间词块描述实验过程中涉及地点和时间,如at the time of;过程词块描述实验过程,特别是方法,如were randomized to receive;数量词块描述实验对象或结果等的数量,如was the proportion of patients。该类词块的种类数和频率均占比大,特别在语步1和语步2中,该类词块占语步词块种类总数和频次总数的绝大多数,可见基于研究进行论文撰写是医学论文的特征之一。

文本为导向的词块构建文本结构并传递文本意义[11]。其中,关系标记词块提供要素间的关系信号,主要包括因果关系,如these findings suggest that,对比关系,如no significant difference in,以及指代关系,如was found to be;结构标记词块构建文本结构、引导读者某些内容的具体方位,如little is known about;框架标记词块限制命题或论点的条件,如on the basis of。

立场为导向的词块表达的是作者的态度或对确定性的评估[11]。其中,认知情态词块表达可能性的程度,如were more likely to;义务情态词块表达义务的程度,如research is needed to。该类词块占比低,且大多出现在语步4中。可见,医学论文摘要是一种非常客观的文本体裁,作者只有在分析研究结果时才会适当表达其态度,评估确定性。

(四)医学学术论文英文摘要中词块的交际目的

除了词块的一般功能,还有必要进一步聚焦其交际目的,根据其所在的上下文,挖掘词块与语步、语阶之间的关系。

1.词块与语步或语阶存在对应关系。词块和语步存在对应的关系。大多数词块(178种,占词块种类总数的97%)仅在某一特定的语步中使用,只有5种词块(占词块种类总数的3%)出现在2个语步中,它们是were randomly assigned to receive、were included in the、at the time of、was associated with a和was not associated with。

词块除了与语步具有鲜明的对应关系外,与语阶也具有对应关系。4词以上的长词块与语阶的对应性强。除1种长词块(占长词块种类总数59种的2%)在2个语阶中共现外,其余词块都只在一个语阶中出现。这与Cortes发现的所有4词以上长词块只出现在一个语阶中的研究结果基本一致[2]。例如,5词长词块little is known about the仅出现在语步1的语阶2中,用来引出前人研究的局限性(例1)。

例(1)However,little is known about thecontextofsuchtestingoritsimpactontreatment.

4词词块和语阶也具有一定的对应性,但是对应性不如长词块明显。仅60%的4词词块(75种/4词词块种类总数124种)只在某一特定的语阶中使用,其余40%(49种/124种)的4词词块出现在同一语步的不同语阶中。例如,in the treatment of可同时出现在语步1的语阶1和语阶3中,分别用于阐述研究领域已确定的与研究内容相关的知识,或阐述研究目的(例2~3)。

例(2)Etoposideandirinotecanarekeydrugsin the treatment ofsmall-celllungcancer.

例(3)TheaimofourstudywastoevaluateefficacyandtolerabilityofECTin the treatment ofadvancedNMSCandMm.

总而言之,97%的词块只出现在一个特定的语步中,73%的词块(含98%的长词块和60%的4词词块)只出现于一个特定的语阶中。与其他体裁如综合性学科的引言文本相比[2],在医学论文摘要中,几个语阶共享的词块数量比例更少,词块与语阶一一对应的特征更明显。

2.长词块具有两种交际目的。Cortes发现了词块特别是4词以上的长词块在实现语阶的交际目的中起到两个典型的作用。(1)导入结构(trigger),用于引出语阶或构成引出语阶的句子的开始部分;(2)补充结构(complement),作为某个短语或句子的补充,大多用于语阶的非导入部分,补充结构词块的比例远小于导入结构[2]。本研究提取的长词块的交际目的与上述结果一致。在医学论文摘要中,91%(53.5种/59种)的长词块属于导入结构,9%(5.5种/59种)的长词块属于补充结构,导入结构的比例远高于补充结构,仅1种长词块兼具导入功能和补充功能。例如,语步4的语阶4由further research is needed to引出,这个词块作为导入结构,能让读者立刻明晰该语阶的交际目的是建议今后的研究方向,该词块属于导入结构(例4);词块at a median follow-up of在句子中做时间状语,补充说明没有患者出现癌扩散这个结果的跟踪观测时间段,该词块属于补充结构(例5)。

例(4)Further research is needed toassesstheclinicalimportanceofthesedifferencesandmeasurelonger-termassociations.

例(5)FollowinganEBP,noneofthepatientsexperiencednewcancerorcancerseedinginthecentralnervoussystemfollowinganepiduralbloodpatchat a median follow-up of3.74years.

3.词块和语阶在交际目的层面存在密切关系。大多数词块和语步、语阶的一一对应关系说明每一个修辞语步和语阶为了实现其不同的交际功能,倾向选用词块,尤其倾向选用长词块,构成基础结构框架。5种词块出现在2个语步中的原因是,不同语步的交际目的略有重叠。例如,词块were randomly assigned to receive既出现在语步2中,用于描述随机分组的方法(例6),又出现在语步3中,用于补充说明有效样本的信息,继而阐述主要的观察结果(例7)。

例(6)Patientswere randomly assigned to receiveevolocumab(either140mgevery2weeksor420mgmonthly)ormatchingplaceboassubcutaneousinjections.

例(7)BetweenMay15, 2014,andMarch25, 2015, 78patientswere randomly assigned to receivenivolumabevery2weeksplusipilimumabevery12weeks(n=38)ornivolumabevery2weeksplusipilimumabevery6weeks(n=40).

除了长词块以外,许多4词词块也起着引出语阶的作用。纵观17个语阶,除语步4的语阶1外,其余16个语阶中均发现不同的词块,特别是长词块,用于引出语阶,词块的使用与语阶交际目的的实现密切相关。起导入作用的词块明晰地搭建了描述特定语阶的结构框架,帮助语阶实现交际功能。

总之,在医学学术论文摘要中作者使用了大量程式化的语言,这些语言不仅包括语阶、语步以及摘要的整体修辞结构,而且包括与语步修辞功能密切相关的单词和词块。Flowerdew等学者认为在学术论文写作时,医学等领域存在直接摘抄已发表文章中相同短语的现象[18],这也解释了医学学术论文英文摘要中存在大量程式化语言现象的原因。

四、结 论

研究提取了医学学术论文英文摘要中常见的4~9词词块,并对词块的结构和整体功能进行分类。部分词块特别是长词块的结构比较完整,这与之前“结构不完整是词块的一个基本特征”的论述存在一定的差异[1]。此外,从结构看,本研究提取的词块可分为名词短语为基础的词块、介词短语为基础的词块和动词短语为基础的词块3类。从整体功能看,本研究提取的词块可分为研究为导向的词块、文本为导向的词块以及立场为导向的词块3类。整体结构与功能的归类与其他学科或综合学科的学术论文词块结构与功能的归类相同,但是在医学摘要中,动词短语为基础的词块和研究为导向的词块种类和频率的占比都相对较大,这体现了医学研究以实验为基础进行科学探索的学科特征。

聚焦词块在语步中实现的功能,发现词块与摘要的语步之间存在密切的联系,绝大多数词块(97%)仅出现在某一特定语步中,帮助语步实现其交际目的。此外,词块尤其是长词块和语阶之间存在密切的联系, 60%的4词词块和98%的4词以上长词块仅出现在某一特定语阶中。具体而言,大多数长词块具有引出语阶的功能,直接帮助语阶实现其交际目的。其余长词块的交际目的和功能则是补充说明。研究结果表明,在归纳摘要这个体裁的常用词块时需谨慎,应从体裁分析法的角度出发,注意其不同语步和语阶交际目的的特殊性,探讨实现不同交际目的所使用的不同词块。在医学学科中,除了论文摘要,还可以基于体裁分析法对论文引言、方法、结果和结论等部分进行词块与语步、语阶关系的探讨。

猜你喜欢

词块学术论文短语
本期主要学术论文英文题目及摘要
学术论文征集启示
学术论文征集启事
如何在高中英语词汇教学中运用词块理论
词块在英语写作教学中的应用
英语专业学生与本族语名人演讲中词块使用特点探究
高中英语词块教学现状调查研究及应用策略分析
《健民短语》一则
第9卷第1-6期学术论文总目次