APP下载

国内外基于语料库的历时语言研究文献综述

2020-02-22常芳玲

山东外语教学 2020年6期
关键词:历时语料语料库

常芳玲

(北京外国语大学 中国语言文学学院, 北京 100089)

1.0 引言

现代语言学之父索绪尔(1980)认为语言是一个纯粹的价值系统,语言研究与其他存在研究价值的科学一样,具有内在二重性,因此他将语言二分为语言和言语、内部语言学和外部语言学以及共时和历时等。其中,共时和历时分别从静态和动态的角度提供了语言研究的两种视角。共时语言研究关注语言在某一特定时期的特点,历时研究聚焦语言在不同时期的变化规律,但共时研究和历时研究又存在密切联系,共时差异通常源于历时演变,历时演变又有望对共时表现进行解释(左珊、李福印,2020:42)。同样地,基于语料库的研究也可以二分为共时语言研究和历时语言研究。不过,由于历时语料库通常建库难度大、周期长,再加上历时研究对研究者素质要求也较高,以往基于语料库的研究多以共时为主,历时研究数量较少。近年来由于历时语料的易得性,一批历时电子语料库相继建成,研究者逐渐注意到历时研究之于语言研究的重要性。在这样的时代背景下,基于语料库的历时语言研究日益增长为一个研究热点。

基于语料库开展历时研究的可切入角度十分广泛,共时语言研究关注的每个领域均可以被历时研究所采纳,如历史语言学、历时/历史语用学、认知语言学、社会语言学、语用学和构式语法等。借助语料库分析语言的历时演变可以真实、客观地反映语言在历史发展中的变化特点,探析其中规律与缘由,在促进语言本体研究进步的同时也为语言教学等相关领域提供参考。在具体的语料库历时研究中,不同学者所用语料不尽一致,所属研究领域、研究内容以及研究方法也各有差异。许家金(2020)虽对基于语料库的历时研究进行了述评,但该文更侧重对国外相关研究的总结与概括,未将国内外研究进行详细对比。鉴于此,本文从语料来源、研究领域、研究内容及研究方法四个视角出发,梳理了国内外基于语料库开展历时研究的相关文献,旨在了解国内外基于语料库历时研究的研究现状、剖析此类研究的研究动向。总的来说,国内外研究各有特色,但国内相关研究数量少于国外同类研究,研究语料涉及语种较为单一,新研究方法的应用范围仍有待进一步拓宽。

2.0 国内外基于语料库的历时语言研究现状

2.1 国外基于语料库的历时语言研究

在基于语料库的研究中,借助何种语料、研究什么和怎样研究是三个必须回答的问题。本文结合语料库历时研究的特点,以Web of Science数据库为数据源、“corpus & diachronic research”为关键词从语料来源、研究领域、研究内容和研究方法四个方面出发讨论国外基于语料库历时研究的现状及特点。

(1)在基于语料库的研究中,选择何种语料往往要与研究目的、研究对象等紧密结合在一起。从研究所用语料来看,国外基于语料库的历时语言研究对书面语关注度高于口语,所用语料或源于现有历时语料库或通过自建而成,两类研究分布趋于平衡。借助现有历时语料库的研究涉及多种语言,其中以英语为存储语言的代表性历时语料库数量较多,包括芬兰赫尔辛基大学创建的赫尔辛基英文语料库、兼具美国英语和英国英语的布朗家族语料库(包括Brown、LOB、Frown和FLOB等)、英国国家语料库BNC(the British National Corpus)、英语对话语料库CED(Corpus of English Dialogues)、美国当代英语语料库COCA(the Corpus of Contemporary American English)、美国近当代英语语料库COHA(the Corpus of Historical American English)、以多语域为特色的ARCHER(A Representative Corpus of Historical English Registers)语料库、以《时代周刊》为数据来源的语料库TIME Magazine Corpus、谷歌图书(Google Books)、多伦多英语语料库TEA(the Toronto English Archive)、南非英语语料库SAfE(South African English)、澳大利亚英语语料库Australian Diachronic Hansard Corpus以及口语历时语料库DCPSE(the Diachronic Corpus of Present-Day Spoken English)和OBC(Old Bailey Corpus)等。上述语料库涉及英语在不同国家和地区的变体形式,为不同国家和地区英语变体的比较和历时研究奠定了基础。除英语语料外,国外基于语料库的历时语言研究也考察其他语言的历时发展状况,如汉语(CHC,Corpus of Historical Chinese)、法语(MCVF Corpus、BFM Corpus和Penn Supplement Corpus)和德语(DTA Deutsches Textarchiv)等。以上语料库虽在语言、时间、语体和领域等方面有所区别,但它们并不是相互排斥的,在具体研究中可根据研究需要混合使用。另一方面,国外自建语料库的历时研究在成果数量上虽与借助现有历时语料库研究大抵相同,但自建语料研究所涉领域更为集中。进一步分析发现,国外自建语料库的历时研究通常关注学术期刊、新闻报道和演讲演说等领域,其中以学术期刊论文为数据来源自建语料库开展历时研究的文献显著度最为突出,这一特点可能得益于这些领域语料的相对易得性。

(2)研究领域指某类研究在研究过程中所涉及的领域。与具体化程度更高的研究内容相比,对研究领域的归纳和整理能够更好地从宏观层面上把握、预测研究重点和热点,从而推动研究的进一步发展。国外基于语料库的历时研究在研究领域方面呈现出以语言本体和学术写作研究为主、其他领域研究为辅并行发展的特点。

首先,语言本体研究是国外语料库历时研究的一个重要领域。此类研究多借助现有语料库,就特定语言现象在某种语言或多种语言中进行历时性的探讨,旨在发现所选语言对象在不同时代中的发展演变特征、规律及原因。如Maria & Belen(2012)依托布朗家族语料库、DCPSE和TEA三个语料库,选取1960s、1990s和2000s早期三个时间点为节点,以as though,as if和like为例考察了补语结构在英国英语、美国英语和加拿大英语中的历时变化特点;Millar(2009)和Leech(2011)分别讨论了英语情态动词在历史发展中的使用特点,但两者的研究结论不甚一致。Millar(2009)以Leech(2003)的研究为出发点,基于TIME Magazine Corpus语料库从发展的角度考察了情态动词在1920s-2000s期间使用特点的历时变化,研究发现尽管shall、must和 ought的使用频率有所递减,但总体上来讲整个情态动词的大类在语料中呈上升趋势。Leech(2011)认为Millar(2009)的研究语料极为单一,不能全面、精准地反映出情态动词在英语中的变化特点,因此他以布朗家族语料库的英国英语子库LOB和FLOB、另增BLOB语料库为基础考察情态动词在英国英语中的使用变化,以COCA和COHA为基础考察其在美国英语中的使用变化,两个研究均发现情态动词在具体的使用呈减少趋势。上述对语言本体的历时研究有助于总结语言在发展过程中的变化轨迹,为语言教学提供必要的参考。

其次,学术写作也是国外基于语料库历时研究的主要关注领域之一,此类研究主要考察某一学科或不同学科学术论文中语言特征的发展变化,对学术论文写作指导意义较大。Biber & Gray(2016)借助ARCHER语料库和部分自建语料,深入探讨了学术英语复杂度的历时演变。Hyland & Jiang(2016a;2016b;2018)的系列研究通过收集应用语言学、社会学、生物学和电子工程学四个学科在50年内的期刊语料研究了立场标记语、读者参与度等语言特征在不同学科、不同时期学术论文中的使用特点。

除语言本体研究和学术写作研究两个主要领域外,国外语料库历时语言研究还关注新闻、广播和演讲演说等领域(Boula et al.,2012;Gema & Jorge,2018)。这些研究为基于语料库的历时语言研究提供了不同的切入视角,拓宽了语料库历时研究的广度。

(3)研究内容是研究领域的细化和深化,对文献研究内容的梳理能够从微观层面揭示语言研究聚焦的主要现象。国外语料库历时研究关注的主要包括词汇短语、语法和话语语用特征的演变。

在词汇短语演变类研究中,研究者关注与词汇、短语相关语言特征的历史演变特点及规律,研究对象既有相同属性的某一类词或短语,如情态动词、立场标记语等,也有类似that这样以词汇化形式出现表示语法范畴的单个词。Rissanen(1991)对宾语从句引导词that从句及其零形式的研究、Millar(2009)和Leech(2011)对情态动词使用频率的探讨和Hyland & Jiang(2016a;2018)对不同类别立场标记语的历时研究等均属此类。

语法演变类研究通常是在语言本体的研究范围内,通过对比特定语法现象在不同时期的使用特征以此发现语言演变的特征与规律。此类研究主要关注语法化研究、构式语法研究以及一般的语法研究,其中语法化研究和构式语法研究的成果较多。语法化,也叫实词虚化,通常指语言在历史的发展中由表示实在意义的词转化为无实在意义、表语法功能成分的现象(沈家煊,1994)。国外学者对语法化的研究涉及多种语言,如Wu et al.(2016)借助COHA语料库用量化的方法验证了英语将来时be going to的语法化过程;Maria(2009)讨论了西班牙语“por cierto”语法化发展的两个方向;Dana(2011)自建语料库讨论了罗马尼亚语将来时的语法化过程。除语法化研究外,以某一构式为基础开展的构式语法历时分析也是基于语料库研究语法变化的重要内容。Shank et al.(2014)基于1560年至2010年的英语书面语和口语语料,借助多因素分析方法考察了I think和I think that构式在书面语和口语中的选择制约情况;Kim & Davis(2016)综合构式和历时的视角考察了英语中into致使结构的发展演变;Noel(2017)借助the Oxford English Dictionary和the Corpus of Late Modern English Texts讨论了be bound to构式作为非义务性标记的历时变化。一般语法研究在语法演变类研究中所占比重较小,主要涉及一些语法范畴或语法相关现象,如隐喻、转喻等的历时研究,Biber & Finegan(1989)、Ronel & Bertus(2012)、Glynn(2014)、Yao & Collins(2019)等研究均属此类。

话语语用特征的演变研究也是国外语料库历时研究的重要组成部分之一。Timmis(2009)认为人们在完整的口头表达末尾倾向于使用一些附加成分(该文定义为tail)补充说明前置成分,如例句They all want throwing out,thegovernment中的斜体表达the government。该文即以话语中类似the government的附加成分为研究对象,总结了这些成分的常用形式、频率和功能的变化,指出话语结尾部分在英语口语中具有系统性、高频度的特征。Moessner(2010)对比分析了直接言语行为在法律、宗教和科学话语三种语体中的历时变化特点。与语法演变类的历时研究不同,话语语用特征类演变研究涉及的领域较广。此类研究不仅可以在语言本体视角下开展,以学术写作、新闻报道和社会中一些特定概念、事件相关的话语语用特征为出发点的研究数量也颇多(Anna,2009;McEnery,2006;Jucker & Taavitsainen,2014;Hyland & Jiang,2019)。

(4)研究方法是研究中必不可少的一部分,是整个研究开展的基础。一个研究如果没有研究方法作为支撑,就会迷失前进的方向。基于语料库的历时语言研究涉及语言在不同时期的发展情况,因此对比分析的研究方法必然是此类研究的主要方法之一。不过,该方法在基于语料库的历时语言研究中不仅适用于不同时期语言现象的对比,也可以用于不同语言、学科和语域等的比较与分析。此外,多因素分析和可视化分析也是国外此类研究的主要借助方法。多因素分析是当下语言研究中较为流行的量化统计方法,可通过对应分析、分层聚类分析和混合效应逻辑回归建模等技术来实现,Christopher et al.(2012)、Yao & Collins(2019)等研究均运用了多因素分析的方法。可视化分析指运用可视化分析工具以图谱形式呈现语言对象在不同时期的特点,让读者更加清晰、直观地了解语言在历史中的发展轨迹,如Zhang et al.(2015)借助MDS(Multidimensional Scaling)分析以3D图的形式剖析了汉语中女性转喻型式的历时变化。

2.2 国内基于语料库的历时语言研究

本文有关国内基于语料库的历时研究文献来源于中国知网,研究对象综合了以“语料库&历时研究”为关键词和以“基于语料库的历时研究”为主题的文献。为更好地分析比较国内外语料库历时研究的异同点,本文在梳理国内语料库历时研究文献时,同样从语料来源、研究领域、研究内容及研究方法四个方面入手考察。

(1)在语料来源方面,国内研究与国外相同,所用语料或借用现有语料库或自建,同时受语料收集难度影响,书面语研究多于口语研究。不过,与国外研究不同的是,国内借助现有语料库的研究成果少于自建语料库的历时研究。具体来说,国内借助现有语料库的研究在语料选择上较为集中,以汉语和英语为主,鲜有其他语种。英语作为主要研究对象在国内研究中频繁出现,与当前全球化背景下该语言作为国际通用语的重要现实价值是密不可分的(张涛,2020:3)。通过进一步分析发现,国内研究借助的英语语料库主要是布朗家族语料库、COHA、COCA、赫尔辛基英文语料库、TIME Magazine Corpus、CED(A Corpus of English Dialogues)、PCEEC(Parsed Corpus of Early English Correspondence)、LCEMET(The Lampeter Corpus of Early Modern English Tracts)、CLMETEV(Corpus of Late Modern English Prose (extended version) 等;汉语语料库包括CCL、BCC、语料库在线和中国基本古籍库等。国内自建语料库的历时研究语料多源自文学作品或其译文、新闻报道、政治报告、学术论文和演讲演说等文本,其中以文学作品及其译本为语料来源的研究占比最大,是国内语料库历时研究的特色之一。

(2)在研究领域方面,国内基于语料库的历时语言研究以翻译和语言本体研究为主,辅之其他领域的研究。

基于语料库的翻译研究是语料库翻译学的核心研究内容,该学科是语料库语言学和描写性译学双重影响下发展起来的一个交叉性学科(刘国兵、常芳玲,2018:111)。国内隶属语料库翻译学的历时研究通常以文学作品译本或政府工作报告等政治文件译文为研究对象。赵秋荣、王克非(2013)通过自建汉语原创文学和翻译文学历时类比语料库,发现翻译普遍性假说并不适用所有的翻译现象,翻译汉语具有不固定性和阶段性。卢静(2014)借助《聊斋志异》1880年翟译本和2006年闵译本,关注历时视域下的译者风格,并从历史、文化和社会视角解读了译者风格产生的原因。庞双子(2019)基于历时类比语料库,从20世纪选取三个时期为数据点,通过比较翻译文本与原创文本的历时发展,进一步讨论了翻译文本语体显化特征及其对目标语的透过性问题。

国内语言本体的历时研究主要考察汉语或英语在不同时期的发展变化。何乐士(1984)在1984年就基于《左传》和《史记》两个不同时期的语料讨论了动补式的发展变化。刘丙丽、刘海涛(2011)从历时的角度研究了汉语动词句法配价的研究过程。章柏成、许家金(2013)基于布朗家族语料库考察了英语现在进行体在形式分布和意义演变中的历时变化。刘国辉(2015)以COCA和COHA的语料为基础,研究了英语表达“X-able”在不同时期、不同文体中的分布特点。文旭、姜灿中(2018)在历时构式语法的理论框架下讨论了“V破”动结式构式形式和意义的演变特点,同时从组合性、能产性和图示性三个维度动态解释了动结式构式层级网络的发展。

除翻译研究和语言本体研究外,国内基于语料库的历时语言研究还涉及新闻、社会、政治和学术等领域,如范蓓(2009)以词频、词汇搭配、典型句型特征和关键词对照等为着眼点开展历时研究,依据语言在不同时期的变化佐证了社会的发展与变迁;李叶等(2020)参照Biber et al.语料库性别词汇分析的研究方式,通过对比分析LOB和ICE-GB两个不同时期语料库中的性别词汇,从性别特指词汇参数、双重性别词汇参数和特殊性别词的文本分析三个方面研究了英国社会女性地位的变化;罗建平(2011)自建美国总统就职演说语料库,量化考察了美国总统就职演说的历时语言特征。不过,这些领域在基于语料库的历时研究中显著度不高,仍有较大的研究空间。

(3)在研究内容方面,本文发现国内基于语料库的历时语言研究以词汇、语法历时研究为主,对话语语用特征的演变关注较少。

国内词汇演变研究也是以一类词或单个词为研究对象探讨词汇的历时演变规律及原因,如林璐、王旭(2019)从牛津英语词典、COHA和MED语料库中提取993-2009年间英语副词again全部语料,采用近邻聚类法考察了again一词各个义项在不同时期内的分布情况,追溯了不同语义产生、渐变的规律和动因;陈香兰、禹杭(2018)借助历时语料库,分析了量词“套”在历史演变中的变化及转喻机制;邵斌等(2012)基于COCA语料库,从认知语言学的角度考察了carbon构成的碳族复合词意义的演变。

国内的语法演变研究同样涉及语法化、构式语法和一般的语法演变研究,但研究数量少于国外同类研究。语法化研究主要包括蔡燕(2013)对汉语补位词“一下”的语法化研究和王朝晖、余军(2019)关于“定语+人称代词”结构语法化的历时研究。国内对于构式的历时研究(房战峰, 2015;黄莹, 2016;杨旭, 2016;申小阳, 2018;文旭、姜灿中, 2018)略多于语法化研究,但研究热度不及国外同类研究。相比语法化和构式语法研究,国内语法演变研究对一般的语法研究关注度较高,研究数量也较多,如唐瑞梁(2008)、刘丙丽、刘海涛(2011)、章柏成、许家金(2013)和吉杰、梁茂成(2014)等。

(4)在研究方法方面,国内语料库历时研究所用方法较为单一,占主导地位的方法仍是对比分析,用于分析比较不同时期翻译、语言本体、新闻和演讲演说等领域语言的具体表现,探寻其中的发展规律及原因。近年来,国内一些学者也在积极引进国外的量化统计方法为语言研究服务,如林璐、王旭(2016)为促进基于历时语言学与语料库语言学角度研究的发展,较为系统地介绍了近邻聚类分析法的产生背景、统计原理、操作步骤及相关应用,但借助这些方法开展历时研究的成果仍不多。换言之,国内基于语料库的历时研究需要有意识的在传统对比分析研究方法的基础上,尝试借鉴国外的新兴研究方法,促进国内基于语料库开展历时研究的技术方法革新。

3.0 启示与展望

综合国内外研究来看,国外基于语料库的历时语言研究总体上先于国内同主题研究。因此,国外的相关研究为国内语料库历时研究提供了可借鉴的思路和方向。结合国内研究现状,笔者认为未来国内基于语料库的历时研究可以注意以下几个问题:

首先,在语料选择问题上,研究者一方面可以根据研究目的、内容和研究对象需要自建语料库,另一方面也要充分利用已建成的、可用于历时研究的经典语料库。借助现有经典语料库开展研究不仅可以节省建库时间,语料代表性也更能得到保障。此外,未来研究可适当偏向口语,注重口语历时语料的收集与研究。

其次,国内外语料库历时研究所涉及领域均不均衡,存在个别研究领域显著度高、其他研究领域并行发展的特点。其中,国外所涉研究领域主要包括语言本体研究和学术写作研究,国内则以翻译研究和语言本体研究为主。相较而言,国内对学术写作领域的语言历时变化关注度不够。此外,目前研究中显著度不高或未涉及的其他领域还有很大的研究空间。

再者,在研究内容的选择上,未来国内基于语料库的历时研究可注意以下几个方面:一、在关注词汇、语法历时研究的同时,考察话语语用特征的历时变化;二、加强对构式和语法化现象的历时研究。

最后,国内基于语料库的历时研究要多关注国外同类研究或相似研究所使用的新型研究方法,跳出传统对比分析方法的束缚。就现阶段来说,多因素数据统计分析和可视化方法在国外同类研究中使用凸显度较高,而国内仍以传统的对比分析法为主。未来国内相关研究可尝试应用这些方法,为基于语料库的历时研究开拓新的思路。

4.0 结语

本文梳理了国内外基于语料库开展历时研究的相关文献,分别从语料来源、研究领域、研究内容及研究方法四个方面讨论了国内外基于语料库开展历时研究的现状。研究发现:(1)与口语相比,国内外学者均更关注书面语的历时发展,所用语料或借助已有语料库或自建,但国外利用已有语料库和自建语料的研究分布较平衡,且涉及语言较多,国内研究多自建语料,语言以英语和汉语为主,鲜有其他语言;(2)就研究领域而言,国外研究呈现语言本体和学术写作研究为主、其他领域研究为辅并行发展的特点;国内以翻译和语言本体研究为主,辅之其他领域的研究;(3)词汇演变、语法演变和话语语用特征演变是国外语料库历时语言研究热点所在,国内以词汇、语法历时研究为主,对话语语用特征演变关注较少;(4)从研究方法上来说,国外研究常用方法包括对比分析、多因素分析以及可视化分析,国内研究以对比分析为主,多因素分析虽有引进但应用研究较少,依托可视化分析的历时研究数量更少。综上所述,国内基于语料库的历时语言研究在研究广度、深度以及研究数量上与国外同类研究仍有一定差距,有待进一步地拓展与提升。

猜你喜欢

历时语料语料库
基于归一化点向互信息的低资源平行语料过滤方法*
量词“只”的形成及其历时演变
常用词“怠”“惰”“懒”的历时演变
《语料库翻译文体学》评介
对《红楼梦》中“不好死了”与“……好的”的历时考察
古今字“兑”“说”“悦”“敚”历时考察
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入