APP下载

学术语篇中的研究导向序列研究

2016-08-10洁,

李 晶 洁, 胡 文 杰

(1.东华大学 外语学院, 上海 201620; 2.上海交通大学 外国语学院, 上海 200240)



学术语篇中的研究导向序列研究

李 晶 洁1,胡 文 杰2

(1.东华大学 外语学院, 上海 201620; 2.上海交通大学 外国语学院, 上海 200240)

摘要:研究导向功能用于表述研究的内容与发现,在Hyland的理论体系中位居三大学术话语功能之首。文章基于语料库证据,进一步细分与描述了三类极具学术语域特征的研究导向序列:实体/概念序列、属性序列、过程/行动序列,并考察各自典型的意义与功能。研究结果显示,属性序列在学术文本中的出现频数最高,而实体/概念序列的种类最多,形式最丰富。虽然每类研究导向序列显示出不同的短语学特征及其偏好的词语实现方式,但它们作为核心研究内容的承载者和推进者,是任何学术文本都不可或缺的信息和命题传递手段。

关键词:短语序列;研究导向功能;学术话语功能;共选

一、引言

关于短语学的研究最早可追溯到古希腊时代的斯多噶学派(stoics),该学派的一个重大发现便是词形与词义的非对应关系,进而提出词义在孤立语境中是不存在的,它随着周边搭配词语的不同而发生变化。几千年来,短语研究缓慢稳步地开展,如布拉格学派的Mathesius、伦敦学派的Malinowski和Firth等研究中都有涉及语境对词汇选择的限制作用。直到上世纪后期,计算机科学与语料库语言学的发展为短语研究提供了数据支持,因此基于真实数据的短语学研究迅速崛起。近年来,越来越多的学者开始探究英语使用中的短语趋向,其重要性也在语言学及英语教学领域逐渐得到认可。从广义角度讲,短语学重点研究词项和各种语言形式之间相互选择来实现意义的趋势和程度。例如,Sinclair的“成语原则”描述了语言使用的短语学倾向,认为词汇与词汇、词汇与语法的共选形成了具有短语学意义的多词序列[1],而具体序列的确定又直接制约下一个语言单位的选择趋向;Hyland认为,多词序列可被视为组合轴上的显著性词语共现,帮助语言使用者表达意义、构建和谐语境[2] (p4)。其他语料库语言学研究也表明,在语言交际中,意义实现的主要载体是词语序列,它们根植于真实的语言使用,密切相关于语言的规约性。目前,学术文本中短语序列的话语功能已经引起关注。很多研究显示,学术文本中存在大量的词语序列式的表达,这些高频序列是学术命题表述和信息传递的重要手段。Biber概括了学术口语和笔语中词束的功能,指称表达、立场表达和语篇组织语[3](p384)。Hyland概括了四词序列在学术文本中的三类主要话语功能:研究导向(research-oriented)、语篇导向(text-oriented)、参与者导向(participant-oriented)[4](p122-123)。现阶段的研究多是描述参与者导向序列或立场序列[5][6]、以及语篇导向序列或语篇组织序列[7][8],较少有研究系统地考察学术论文中的研究导向序列或指称表达。然而,在提取出的数据中,研究导向序列有703 260例(形符数),远远大于参与者导向序列(77 741例)和语篇导向序列(162 079例)。这说明学术语篇的核心还是研究内容的表述和命题信息的传递,而此类序列对学术文本的构筑作用不容忽视。基于此,本文将基于JDEST语料库数据,描述与概括研究导向序列的典型型式(pattern)、意义与功能。

二、语料库及研究步骤

本文使用第二代JDEST语料库作为研究导向序列研究的数据库。该库是上海交通大学语言文字工程研究所基于第一代JDEST语料库,于世纪之交建成的一个多子域学术英语语料库,涵盖40个话题领域,文类包括学术论文、专著、教材、评论、讲义等多种形式。语料的采集原则为:收录国际公开出版发行且具有一定影响力的学术英语文本;经典作品和影响因子高的纺织期刊优先选择;文本长度要求在1000形符及以上。详细的统计信息见表1。

数据的处理与分析主要按照如下4个步骤进行:(1)从多词序列的内部粘着力着手,使用新的方法从若干词语数据中删除大量的噪音序列,实现计算机自动识别和提取连续短语序列[9]。(2)基于概率信息对提取出的短语序列进行定量描述,包括短语序列的频数,分布密度等。(3)开发计算和检索软件,对语料库进行“词语索引”,建成“学术文本短语序列数据库”,并基于概率信息对提取出的短语序列进行定量描述。(4)基于前述词语索引和短语序列数据库,人工识别和确立短语序列的主要学术话语功能(研究导向、语篇导向、参与者导向),并重点探讨研究导向序列在学术英语写作中的突显短语型式与意义,以及此类序列在论文各章节中的关键作用,给出应用示例。

表1 JDEST语料库的总体统计信息

三、短语序列的研究导向功能

在Hyland的功能分类体系中,研究导向(research-oriented)被定义为“描述客观世界的活动和经验”[4](p122),位居三大学术话语功能之首。Hyland进一步将研究导向功能分为定位(如atthestartof,atthesametime)、过程(如theuseofthe,theroleofthe)、量化(如themagnitudeofthe,awiderangeof)、描述(如thestructureofthe,thesizeofthe)、以及话题(如intheHongKong,thecurrencyboardsystem)五个功能子类。研究导向功能对应于Halliday的语言元功能模型中概念元功能(ideational)下的经验功能(experiential)[10](p50),是短语序列在学术语篇中实现的基本微观功能之一。从广义角度讲,研究导向序列用于反映和组建说话者对于外部和内心世界的经验,以及描述周围所发生的事件或情形。具体来说,学术文本中的研究导向序列主要用来传递命题内容或信息、以及实现语篇的命题意义,包括谈及具体或抽象的实体、概念、事件、动作或过程,时间或空间、以及方式或境况、属性和质量、命名、量化描述等。

JDEST数据显示,研究导向序列在学术文本中出现频数最多(703 260例),占短语序列形符总数(1 283 368例)的54.80%。这些序列是信息传达的主要载体,体现了学术文本高信息密度的特点。它们通常不具备完整的分句结构而是充当一种或多种分句成分。语义上,我们参照Hyland的功能分类,发现研究导向序列主要用于实现三类命题意义:(1)指称实体、概念和活动;(2)表达属性意义;(3)表达过程和行动。虽然每类意义都显示出不同的短语学特征,但它们作为命题信息的承载者和推进者,是研究导向功能的核心构成。表2为研究导向序列的子功能分类。

表2 研究导向序列的子功能分类

1.指称实体、概念和活动

“指称实体、概念和活动”的短语序列用于描述或指代不同学科领域里的概念、实体、原理、研究对象等,我们简称为“实体/概念序列”。此类序列的类符数最多,远远高于其他研究导向序列,然其形符数却不是最高,如表2所示。这说明实体/概念序列的词汇重复率较低,虽然有25 646个不同序列,但是平均每个序列在JDEST中只出现了11例(即291 245/25 646),而其他类别的序列,如属性类序列的类符数虽然不是最多,但每词平均出现超过45例(324 573/6 976),因此总频数最高。产生此种现象是因为学术语篇具有高度名词化和高信息密度的特点。一方面,学术论文是对研究过程和结果的精华浓缩,因此对语言表达的清晰度、准确性和客观性的要求相对一般书面语要高,其严密性和简洁性促使了名词化结构的大量使用。尽管有学者提出名词化会使句子比较抽象,文章表意不清[11],但数据显示名词化表达仍然在学术语篇中高频出现,以名词短语为主体的实体/概念序列的大量复现(形符数高)也验证了这个事实;另一方面,学术写作要求用有限的篇幅传递大量的信息,即高密度信息。这样的语域特点决定了学术文本的词汇量较大,并在词汇密度、词汇增长率、词汇覆盖率等词汇多样性的指标上均高于普通英语文本,而作为学术知识和命题信息的核心承载,实体/概念序列也需要变化多样(即类符数高),以便准确、清晰地描述研究内容与结果。表3显示部分高频实体/概念序列及其频数。

表3 实体/概念序列

结构上,“实体/概念序列”以名词短语居多,尤其是多项同类语。多项同类语,由两个及以上同一词类的单词构成,通常由“and”或“or”连接。构成单词的语义相近或相对,是并置、平行的关系,不存在类似于修饰语和中心词的从属结构。在学术文本中,多项同类语主要以二项式形式出现:事实上,在从JDEST中提取的25 500余例多项同类语中,二项式结构占25 301例,典型序列有heorshe(137例),teachingandlearning(115例),researchanddevelopment(72例)等;三项式结构只有160例,包括management,accountingandmarketing(17例),German,ItalianandSpanish(17例),a,bandc(15例)等(不限于表3数据)。虽然理论上这些多项式结构是对称的、可逆的,但在实现具体意义时,部分序列却表现出一定的词序趋向。例如,在JDEST中,二项同类语teachingandlearning复现115次,而其对应的逆结构learningandteaching却只出现11次。再如,topandbottom的频数(18次)是bottomandtop(2次)的9倍之多,pastandpresent的频数(20次)是presentandpast(1次)的20倍,等等。此外,进一步观察语境发现,即便是出现频数接近的看似可逆结构,其具体用法和分布也存在差异。例如,spaceandtime在语料库中出现43次,timeandspace出现46次,两个二项同类语看似分布均匀,词序没有明显偏好,但其扩展语境显示,spaceandtime常被用于时空物理、天体物理等研究中,用来描述时空图标等专业概念,见示例[1:A];而timeandspace却更多地出现在对时间和空间的一般性描述中,尤其是当时间作为主要因素时,见示例[1:B]。

[1:A]DistributionofPhytoplanktoninSpaceandTimeGlobalmapssuchasthatofFig. 1.23areusefulinsummarizingbroadlatitudinalandregionaltrends…

[1:B]AmapofthediffusionofAIDSovertimeandspaceisanexampleofvisualizedchronologicalchange.

上述数据说明大量多项同类语虽然结构上是对称的,但在实现具体意义时,其构成词的顺序表现出一定的不可逆性。词序主要由具体的语义和语境因素决定,而词序的趋向性或方向性也从另一侧面反映了词汇之间的共选,即语言是由一系列的共选词项构成的组合链条,不仅每个单词的具体选择要经过组合轴上其他词的筛选,连其排列的顺序或位置也会同时受限。短语序列作为词汇共选的直接结果,是实现“指称实体、概念和活动”功能的不可或缺的手段,而单个词项作为独立自足的意义单位所实现的话语功能却相对边缘化。词汇与词汇的共选更体现了Sinclair“扩展意义单位”理论的首要共选元素——词语搭配。

2.表达属性意义

表达属性意义的短语序列多用于描述具体事物、事件、实体等的性质与关系,简称为“属性序列”。此类序列在学术文本中高频出现,是研究导向序列的最大功能子类。结构上,除了少数固定词组(如atleast、atmost)外,大多数的属性序列结构相对灵活,允许存在形式变体。表4显示部分高频属性序列及其频数。

表4 属性序列

语料库证据表明,许多属性序列都是特定学科领域偏好的规约性表达,其中一些序列更是因出现频数高而凝练成为相对固定的搭配框架。这些框架作为具体序列的语言学骨架(linguistic skeletons),通常是非连续的,由封闭词类的所有或个别单词构成,并留有空位与开放词类中的具体词项结合[12](p408),在实现特定功能时,表现为特定的短语型式(phraseological pattern),如anumberof,theamountof,thetopicof等序列具有“DET +(ADJ) + N + of”的搭配框架,而theanswerto,anintroductionto,theapproachto等满足“DET +(ADJ) + N + to”框架。词汇层面上,这些看似随意自由的单词组合遵循着语言使用的规约性,表现出一定的搭配趋势,如学术作者频繁地使用thetopicof,anintroductionto等序列,却很少选择语义相近的thetopicto,anintroductionof等形式。这说明单词在表达具体意义时,通常有其偏好的结构,而每类结构框架也倾向于选择有限范围内的词项来实现意义。再以搭配框架“DET +(ADJ) + N + of”为例,如anumberof,acoupleof,asmallportionof等。在序列的左右两个位置上是封闭词类的语法词:冠词DET(a,an,the)和介词of,中间空位由开放词类的实词填充,如number,couple,way和smallportion等。在该搭配框架中,语法词和实词共选,形成近乎规约化的序列表达,而所得序列的性质既是词汇的又是语法的,很多语言学家将其称为词汇-语法实体。这也证明意义的确立不仅受制于相邻词项之间的共现,还取决于词项与语法的协调、组合。

功能上,我们参照Biber的理论将属性序列分成三个主要类别[3](p387):有形框架属性语(tangible framing attributes)、无形框架属性语(intangible framing attributes)和量化描述语(quantity specification),如表5所示。

需要说明的是,有形框架属性、无形框架属性和量化描述是属性序列在学术文本中最常实现的功能,却不是其全部功能。有形框架序列用于描述可触摸的或由物质材料构成的属性,如theplaceof、thesizeof、thelengthof。无形框架序列则表示不可触摸的属性或抽象特征,如afeatureof、aframeworkfor、thenatureof。语料库数据显示,用于无形框架描述的短语序列无论是数量上还是种类上都远多于有形框架序列,这可能是因为受到研究对象和研究方法的影响。一般来说,学术研究的对象是比较抽象的,如提出新的概念、理论、观点、发现等,而针对抽象的研究对象所开展的研究行为和所采用的论证方法也具有一定的抽象性,如思辨、阐释、推论等。因此,表现在语言学层面上,相对于有形框架序列,学术作者难免会使用更多的抽象词语表达,如无形框架序列等。甚至对于某些看似典型的有形框架序列,在阅读其索引语境后我们发现,这些序列在学术文本中被用于表达相对抽象的概念。例如在“…clauserelationalanalysisseestheclauseasthedeviceoflexicalselection…”一句中,device原义为设备,表达清晰的有形概念,但在“thedeviceoflexicalselection”搭配中,device的意义被抽象化,表示人脑中的词汇选择机制。在该情况下,thedeviceof被赋予了一种无形特征。具体说来,无形框架序列在学术文本中主要表达四类意义:(1)描述与具体学科相关的专业领域特征,如cognitiveandbehavioural、structuralandfunctional;(2)描述非隶属于特定学科领域的普遍或非专业特征,如secondaryandtertiary、horizontalandvertical、spatialandtemporal;(3)描述事件、实体或行为的性质,如strikingfeatureof、systematicstudyof;(4)描述事件或实体间的关系范畴incloseproximityto、positivecorrelationbetween(示例不局限于表5中)。

表5 属性序列的功能分类

量化描述序列用于说明被描述实体的数量或数值。语义上,量化序列可分为三个主要子类,如表5所示:(1)指代一个集合的(近似)整体或全部数量,包括正值和反值,如allof,thewholeof,noneof;(2)指代非确定性的局部数量,包括较大数量(如alargequantityof、mostof)、较小数量(如afewof、acoupleof)、以及其他不确定性量值(如someof、moreorless);(3)指代精确、具体的局部量值,如amaximumof、halfof、thethresholdof。

3.表达过程和行动

在学术文本中,“表达过程和行动”的短语序列通常用于描述研究活动、过程和研究行为等,简称为“过程/行动序列”。此类序列在JDEST中共计出现了55 466次,虽然只占经验序列总数的小部分,但却极具语域特征,是学术命题表述不可或缺的基本要素。结构上,“过程/行动序列”主要由动词短语构成,通常充当小句的谓语和表语成分,用于提供新的述位信息,是信息推进的主要载体。表6显示部分高频“过程/行动序列”及其频数。

“过程/行动序列”以两词和三词序列为主,在表6中,三词序列有7例,四词序列2例,两词序列只有1例。此类序列的语义通常较明晰,即序列的整体意义可以通过其每个构成单词的意义合成得出,意义的明晰度在一定程度上反映了序列的语义合成性。由此可见,在学术语篇中,研究者更经常使用语义合成性较高的序列来确保意义表达得精确明晰,而较少使用语义模糊或不透明的俗语、谚语、习语等。

表6 高频“过程/行动序列”

具体说来,“过程/行动序列”有两大语义特征。首先,表6中除givecredenceto、giveriseto之外,其余多数序列都表达了与具体学科领域的研究行为相关的意义。研究行为序列的高频出现是因为受到学术研究的规范性和可复制性的影响。研究者在描述相近的研究行为时,倾向于使用近似表达。这些序列渐渐变成相关命题表述的常见手段,成为学术写作的惯例化表达,显示出学术语域的特征,如序列hasimportantimplications常用于介绍研究的应用价值和对后续研究的启示,序列foundnosignificantdifference则用于分析实验数据或描述研究结果。

其次,从概念功能角度来看,物质过程和心理过程是学术语篇的两类主要言语过程。物质过程表示做某件事的过程,涉及外部世界自身行为,包括“事件”(happening)和“行为”(doing)两方面内容;心理过程则表示内部的精神世界发生的过程,包括“认知”(如理解、知道等)和“感知”(如听到、看见等)。在表6数据中,7个序列描述物质过程(分别是第1, 2, 3, 4, 7,8, 10项),它们常用于报道研究数据或评述前人研究,例如(be)studiedextensively、constantlychange;3个序列涉及心理过程(第5, 6, 9项),主要用于评价或判断,如givecredenceto、hasimportantimplications。此外,通过观察心理过程类序列的扩展语境,发现与Halliday描述的心理过程总是牵涉至少一名人类参与者不同,学术文本中的很多心理过程都是由无生命的参与者(inanimate participant)实现,如例[2]中的holisticmodels。此种用无生命参与者做主语的方式能够让心理过程(如explicitlyconsider)失去部分的“主观性和心理性”(subjectivity and mentalness),从而使主观意见的表达看似更加客观,更像是对客观事实和外在环境的真实描述。详见例[2]:

[2]Moreholisticmodelsthatexplicitlyconsiderthemanytraitinteractionsgoverningfunctionallowustobetterexploretheconsequencesofthiscomplexityatthewhole-plantlevel.

四、结语

本文基于JDEST语料库证据,详细讨论了三类极具学术语域特征的研究导向序列:实体/概念序列、属性序列、过程/行动序列,并描述其各自的典型短语结构、意义与功能。

实体/概念序列的种类(即类符数)最多,远高于其他研究导向序列。形式上,此类序列以名词短语居多,尤其是多项同类语。研究发现,多项同类语的内部构成单词虽然在结构上是对称的,但在实现具体意义时,其词序往往表现出一定的趋向性,甚至是不可逆性。属性序列在学术文本中出现的总频数最高,是研究导向序列的最大功能子类。此类序列多是特定学科领域偏好的规约性表达,一些序列更是因为出现频繁而凝练成为相对固定的搭配框架,在实现特定功能时,表现为特定的短语结构。属性序列包括三个主要功能类别:有形框架属性语、无形框架属性语和量化描述语。研究发现,相对于有形框架序列,学术作者更多地使用无形框架序列来表达抽象的意义、或提出新的概念、理论、发现等。过程/行动序列是学术语篇命题表述和信息传递的核心要素,结构上,此类序列主要由动词短语构成,通常充当小句的谓语和表语成分。功能上,过程/行动序列具有两类特点:其一,多数序列显示出学术语域特征,表达与具体学科领域的研究行为相关的意义;其二,此类序列多用于实现物质和心理两类言语过程,且很多心理过程都是由无生命的参与者实现。

总体说来,研究导向功能在Hyland理论体系中位居三大学术话语功能之首,而本文对研究导向序列的进一步描述和划分可以帮助新手作者了解学术语篇的词语表达方式和文本构成特点。研究导向序列用于表述研究的核心内容与发现,是任何学术文本都不可缺失的信息和命题传递手段。

参考文献:

[1] SINCLAIR J. Corpus, Concordance and Collocation [M]. Oxford: Oxford University Press,1991.

[2] HYLAND K. As can be seen: lexical bundles and disciplinary variation [J]. English for Specific Purposes,2008,7(1):4-21.

[3] BIBER D. If you look at…: lexical bundles in university teaching and textbooks[J]. Applied Linguistics,2004,25(3):371-405.

[4] HYLAND K. Academic lexis and disciplinary practice: corpus evidence for specificity [J]. International Journal of English Studies,2009,9(2):111-129.

[5] BIBER D. Stance in spoken and written university registers [J]. Journal of English for Academic Purposes,2006,(5):97-116.

[6] HYLAND K. Stance and engagement: a model of interaction in academic discourse [J]. Discourse Studies,2005,7(2):173-192.

[7] 太清艳,吕明臣. 新闻报道语篇的词汇衔接[J]. 大连理工大学学报(社会科学版),2013,34(3):134-136.

[8] 李晶洁,卫乃兴. 学术文本中短语序列的语篇行为[J]. 外语教学与研究,2013,45(2):200-213.

[9] WEI N, LI J. A new computing method for extracting contiguous phraseological sequences from academic text corpora [J]. International Journal of Corpus Linguistics,2013,18(4):506-535.

[10] HALLIDAY M A K. An Introduction to Functional Grammar (2nd edition) [M]. Beijing: Foreign Language Teaching and Research Press & London: Edward Arnold (Publishers) Limited,2000.

[11] JERZ D G. http://jerz.setonhill.edu/writing/grammar-and- syntax/nomi nalization,2012-06-15.

[12] SINCLAIR J. The phrase, the whole phrase, and nothing but the phrase [A]. GRANGER S,MEUNIER F. Phraseology: An Interdisciplinary Perspective [C]. Amsterdam/ Philadelphia: John Benjamins Publishing Company,2008. 407-410.

收稿日期:2015-10-28;修回日期:2015-12-23

基金项目:国家社科基金项目:“短语学视域下的学术语篇行为研究”(14CYY049)

作者简介:李晶洁(1981-),女,满族,吉林通化人,副教授,博士,主要从事数据驱动的短语学研究,E-mail:lijingjie@dhu.edu.cn;胡文杰(1980-),男,上海人,讲师,主要从事语料库语言学与翻译研究。

中图分类号:H313

文献标识码:A

文章编号:1008-407X(2016)03-0101-06

Research-Oriented Sequences in English Academic Texts

LI Jingjie1,HU Wenjie2

( 1. College of Foreign Languages, Donghua University, Shanghai 201620, China;2. School of Foreign Languages, Shanghai Jiao Tong University, Shanghai 200240, China )

Abstract:The research-oriented function is used to describe research contents and findings, and thus it tops the three academic discourse functions in Hyland’s theoretical system. In light of the corpus evidence, this paper further subdivides the research-oriented sequences into three major categories that highly display the academic register characteristics: i.e. entity/notion sequence, attribute sequence, process/action sequence, with a view to characterizing their own prominent meanings and functions. The results indicate that attribute sequences are the most common in academic texts, while entity/notion sequences have the greatest variety of forms. Although each category shows different phraseological features and has its own preferred lexical realizations, research-oriented sequences as a whole, as the primary carrier and facilitator of the research content, are an indispensable means of expressing propositions and conveying research information in any academic text.

Key words:phraseological sequence; research-oriented function; academic discourse function; co-selection