APP下载

基于Google分析Sinclair的惯用原则在英语灾难类文章中的应用
——以维基百科2011 Christchurch earthquake报道为例

2013-03-22陈哲敏

安徽文学·下半月 2013年11期
关键词:惯用灾难性语料库

陈哲敏

基于Google分析Sinclair的惯用原则在英语灾难类文章中的应用
——以维基百科2011 Christchurch earthquake报道为例

陈哲敏

与政治类、经济类、科技类以及医学类的英语文章相比,英语灾难性的文章有着自身的语言特点,无论是口语还是书面语,只要涉及灾难性的话题,总有特定的词会被使用,即英语灾难性的文章中存在着大量的惯用语。本文通过Google建立的语料库,以维基百科中2011 Christchurch earthquake报道为例,分析Sinclair的惯用原则在英语灾难性文章中的应用,以期为外语教与学提供新的思路。

惯用原则 英语灾难类文章 Google语料库

自20世纪70年代后期开始,英国出现一批语料库语言学家,他们利用因特网,通过处理大量语言,并找出其中的规律,为语言学研究指出了一条新的可行之路,对语言学研究以及语言教学起到了极大的推进作用。

Google搜索引擎是因特网的一大产物,对于语言研究者来说,可以将其视为一个巨大的语料库,Google能够促进词组的识别以及检索研究,因此积极使用好这把研究词汇的利器,在大量语料的基础上,有助于深层次地挖掘人类讲话的模式,展现语言真实的面貌,归纳出有代表性的规则。

Sinclair被许多语料语言学者视为开路先锋,他利用简单的电脑程序分析大量英文纯文字语料,从而发现了许多英文用词和搭配的规律。Sinclair的研究结果显示了人类在使用语言时,选择的用词并不是随意的,每个词汇都有其特性,词汇及其特殊的搭配环境决定了句意的走向。整个句子的结构以及语义,是由词汇的搭配情形,即常常出现在它左右的词,和该词惯于出现的语法结构、语义群和语用特性等决定的。

灾难性的文章有着鲜明的主题性,因此涉及灾难性的话题时,总有特定的词会被使用。但如何确定在英文灾难性话题中出现的词汇是否为惯用语,怎样对它们进行量化分析,它们有什么搭配倾向,有何种语法结构,在何种语境下使用等,学界鲜有关注。

基于此,本文将Google作为语料库,以英语灾难类文章为研究对象,分析Sinclair的惯用原则在英语灾难类文章中的应用。全文共分为四部分:首先简要阐释文章的理论基础,即Sinclair的惯用原则;其次,回顾以Google为语料库研究英语词汇的方法内容,为接下来的案例分析做方法铺垫;再次,以维基百科中 2011 Christchurch earthquake报道为例, 通过Google所建立的语料库,来解析Sinclair的惯用原则在灾难性文章中的使用;最后是对全文的总结,以及Google所建立的语料库和Sinclair的惯用原则对英语教与学的启示。

一、理论基础:Sinclair的惯用原则

人们在使用语言时要受到选择词汇的制约,于是Sinclair(1991a:109-110)总结出英语词汇选择的两个原则:开放选择原则(open-choice principle)和惯用原则(idiom principle)。其的主要内容归纳如下:

开放性选择原则将语言文本视为复杂的且有多种选择的文本。词汇、词组和句子均为语言单位,只要在符合语法结构的情况下,语法结构的每个位置上都有多个可供选择的词汇选项,人们在使用语言时有很大的选择范围,大量的语句由此产生。Fernando(1996:79)指出根据开放性选择原则,只要符合语法,任何词汇都有被选择的可能,然而事实却并非如此,当涉及某一话题时所选用的词汇并不是随机无序的,而是有章可循的,这正是开放性选择原则不能够广泛且连续使用的原因。总之,人们不可能在创造一个文本时仅仅使用开放选择原则,因此惯用原则便产生了。Sinclair的惯用原则主要指语言使用者本身拥有大量的半预制词组可供选择,即使这些词组似乎可以再往语言片段里划分,但是它们仍只能构成单个选项(a language user has available to him or her a large number of semi-preconstructed phrases that constitute single choices,even though they might appear to be analyzable into segments)。此外,Sinclair还指出语言使用者在面对开放选择原则和惯用原则时,会首先选择惯用原则,当惯用原则行不通时,才会使用开放选择原则,然后再迅速回到惯用原则。

本文在维基百科(Wikipedia)中选取了2011 Canterbury earthquake一文作为研究对象,以Google这一强大的搜索引擎作为语料库,以此阐述Sinclair的惯用原则在灾难性文章中的作用,以及灾难性文章中的一些惯用语在句中扮演的角色及功能。

二、研究方法:Google为语料库的词组研究

语料库以一种前所未有的技术呈现语言运用事实,成为一种真实可靠的资源及信息检索和处理平台(梁茂成等,2010:185)。杜诗春(2009:10)还指出语料库研究方法的特点在于通过大量语料从纵向找寻重复出现的语言形式,以提高对语言系统的洞察力。以Google为语料库的措辞研究是由Shei(2008:67)首先提出的,通过Google建立的语料库,可以核查句子中的词语是否为惯用语。

例如每四年就席卷世界一次的世界杯足球赛,英文名称为FIFA World Cup,如果想要知道FIFA World Cup Final(世界杯足球决赛)这一语言片段是否有很多人使用,即是否为一个惯用语,通过Google查询这个字串从少到多的频率变化来得到结果。

表一 FIFA World Cup Final的渐进字串Google频率与对数值

表二 FIFA World Cup fans的渐进字串Google频率与对数值

图一 FIFA World Cup Final的渐进字串频率对数曲线图

图二 FIFA World Cup Fans的渐进字串频率对数曲线图

表一列出了Google查询的数据,利用Google逐渐增加FIFA World Cup Final这个字串的搜索字数,虽然查到的网页字数不断减少,但是从图一的平直的曲线图可以发现,整个语言片段随着字数增加而频率下降的趋势,从对数的数值来看,非常的小,几乎为一条直线。这一趋势说明,绝大多数的人在说了“FIFA WORLD”之后,会继续说“Cup”,并且非常多的人在说了“FIFA World Cup”之后,会继续说成“FIFA World Cup Final”。与之相对应的图二,当查询的字串变为“FIFA World Cup Fans”时,最后一阶段的频率急遽下降,说明比较少的人使用“FIFA World Cup Fans”这个字串。通过 Google查询的数据显示,“FIFA World Cup Final”比“FIFA World Cup Fans”更像一个惯用语。

以上的例子说明,惯用语可以通过Google来发现,并且在查词的过程中Google页面会显示大量的例句,从而可以分析该惯用语在语言结构、语义以及语用等方面的特性。

以Google为语料库的语言研究有很多优势,主要体现在以下几个方面:首先,通过Google搜索出词汇使用频率的结果以及其显示的语言规则,均以数据为依据;其次,由网络自然形成的语料库,语料丰富、类别广、数量大,且实时更新,时代性强,尤其对新词的研究更有优势;最后,通过Google进行语篇研究,节省了大量的时间,语言研究者省去了自建语料库的时间及成本,并且用Google进行词汇检索易操作,使用便捷。接下来这一部分将以 2011 Christchurch earthquake为案例,借用Google为语料库措辞研究的方法,着重分析Sinclair的惯用原则在英语灾难类文章中的是如何起作用的。

三、案例分析:2011 Christchurch earthquake

Shei的分析显示,Google搜索结果超过十万的字串,说明该字串在人们使用过程中是习惯性的用法。在2011 Christchurch earthquake中选取了一些很有研究价值的词语,Google显示其使用频率均超过十万,通过Google这一动态的语料库,总结这些词语在灾难性文章中的使用,从而体会Sinclair的惯用原则是如何在文本中发挥用的。以下是从文中 2011 Christchurch earthquake选取的作为研究对象的句子:

2011 Christchurch earthquake

At least 159 people have been confirmed dead as of 10:39 am local time,2 March 2011,and more than 200 people have been reported as missing.

Prime Minister John Key stated that 22 February“may well be New Zealand's darkest day”.

On 23 February,police decided that the damage was not survivable,and rescue efforts at the building were suspended.

Witnesses have reported that buildings have collapsed around Cathedral Square in central Christchurch.

Police expect the final death toll to be over 200.

While the list of missing likely includes many of those confirmed dead,240 remain unaccounted for.

The New Zealand defence forces were called in to assist in evacuating the central business district.

首先将Christchurch earthquake,local time,confirmed dead,darkest day以及witnesses report这些词分别输入Google,经过搜索,在写本文当时,这些词在网络上出现的频率结果整理于表三。

表三 五个字串的Google频率

Google页面的数据显示了这些词在一起出现的频率非常高,因此可以判断出Christchurch和earthquake,local和time,confirmed和dead,darkest和day以及witnesses和report这些词汇即使它们不是耳熟能详的固定词组,但是人们经常将它们放在一起使用,属于习惯用法。此外,请看以下从Google上摘取的几个例子:

Two Britons confirmed dead in quake

“Bali bomber”Dulmatin confirmed dead in Indonesia raid

New Zealand earthquake:rescue efforts increase in Christchurch

Brazilian military joins rescue efforts in worst hit areas

Witnesses Report Violent Clashes in Tripoli

Witnesses report bodies in the streets in Libya

分析Google页面中的这些例子,这些词汇所叙述的内容均为灾难性事件,大量的使用频率,也显示出它们是叙述灾难性事件的高频词。值得注意的是,仅通过这几个词读者大致就能知道这篇文章报道了什么事件,即发生了什么事情、什么人与该事件有关、事件发生的地点、事件发生的时间等信息。这恰好印证了Sinclair的惯用原则,即当涉及某一话题时所选用的词汇并不是随机无序的,而是有章可循的。

借助Google,再进一步地观察语言片段darkest day,可以发现该词不仅可以用在公开报道的悲剧事件中,也可以用来表达个人遭受的经历,通常出现在私人日志中。另外,Google数据显示darkest days的使用频率是3170000,然而darkest day为929000。这表明人们在使用darkest day时,通常将其用作复数,表达一种长期的痛苦不仅仅是短暂的一天。

下一个语言片段为death toll,将其输入Google,显示结果为9250000,也是一个高频词,以英语为母语的人通常将这两个单词连在一起使用。从Google包含death toll的页面中,随意挑几句来看,不难发现death toll经常用于新闻报道,题材一般为交通事故、空难、火山爆发、地震以及海啸等,用来说明人员死亡状况。换言之,在阅读或写作新闻报道时death toll便能体现出该文章的内容与灾难性的事件相联系。以下是Google显示的BBC关于2011年Christchurch地震的连续报道,报道的语句中并没有点明earthquake一词,但通过语句中的death toll(死亡人数),便知道这是有关灾难性事件的报道,也说明惯用的词汇体现出文章的主题。

The death toll currently stands at 154(BBC news 28 February 2011)

Many others are still missing,with police suggesting that the death toll is likely to reach 240.BBC news 1 March 2011)

The death toll in the New Zealand city has risen to 160 people.(BBC news 4 March 2011)

The official toll is now 161.(BBC news 3 March 2011)

Officials say the final toll could be as high as 240 (BBC news 3 March 2011)

最后的两个句子显示出,当说话者预知文章的主体与地震有关,在选择用词时偏向于 toll来取代death toll来说明人员死亡情况,这体现出文章的主题对词汇也存在着制约。

unaccounted for也是一个值得研究的语言片段,其Google显示的使用频次为1250000,包含该词的例句如下:

Iraq billions“unaccounted for”

A simplified explanation of materials unaccounted for

$8.7b Iraq development funds unaccounted for

But about 14000 Filipinos in Libya remain unaccounted for.

A contract worker remains unaccounted for after Texas plant accident?

Two remain unaccounted for after San Bruno blast

4 Israelis still unaccounted for in New Zealand25 Feb 2011

189 containers from MSC Chitra still unaccounted for

Deepwater Horizon Oil Rig Fire:11 Workers Still Unaccounted For

通过观察Google上显示的这些例子,可以发现一种包含unaccounted for的语言模式,即Numeral+ Noun+unaccounted for。这一模式显示出,当使用unaccounted for(下落不明)时,该词前面总会有数字,并且话题总是同该灾难性事件有关,unaccounted for前面是该事件的核心名词。此外,这些句子也体现出unaccounted for在使用时通常位于句子的末端,它固定了整个句子的结构。

再进一步从Sinclair(1991b:74—75)的扩展词汇单元(Extended Lexical Unit)这一角度来研究 unaccounted for。扩展词汇单元包括:搭配(collocation)、类联接(colligation)、语义倾向(semantic preference)、语义韵(semantic prosody)这四方面。其中语义韵主要指词在使用时习惯性地吸引某类具有相同语义的词,共同构成一种习惯用法。通过语料库,大量的语言实例显示,由于相同语义的词与关键词共现频率很高,关键词也逐渐有了经常和其一起出现词的语义氛围。语义韵大体可分为积极(positive)、中性(neutral)和消极(negative)三类(Stubbs,1996:176)。在消极语义韵里,被关键词所吸引的词几乎都有明显的消极语义特点,Google页面显示的含有unaccounted for的语句所体现的正是消极语义韵,所以常伴有still和remain这一组表示消极含义的同义词在其前面起修饰作用。用Google检测一下这两个词 still和 remain同 unaccounted for在一起使用的频率,检测结果如表四。

表四 still unaccounted for和remain unaccounted for的字串Google频率与对数值

still unaccounted for和remain unaccounted for检测结果分别为813000和620000,通过 Log2来观察它们的使用频率,四舍五入之后,使用频率相同,所以当灾难性文章论及unaccounted for时,在使用语句结构时,倾向于使用Numeral+Noun+still/remain unaccounted for这一语言模式,并体现出一种无奈和消极的语气。

文章中作为研究对象的最后一个语言片段为called in to assist, 其在 Google中使用的频率为119000000。分析 Google上列出的关于 called in to assist的语句,也可以发现Noun+called in to assist+ Noun这一语言模式。Google显示的例子如下:

RSPCA (royal society for the prevention of cruelty to animals)called in to assist 250 stray horses in Bridgend

FBI,BCI&I called in to assist in missing person’scase

Australia called in toassistpersecuted Iraqi Christians

The army has been called in to assist emergency services battling flood emergencies across Victoria

Gulf of Mexico oil spill track researchers called in to assist locating source of BP oil spill

Gabriel Foundation called in to assist in rescue of 42 parrots

在扩展词汇单元模式中还有一类为语义偏好,Stubbs(2002:65)将语义偏好定义为:不是单个词语之间,而是一个词目或词形同一系列语义关联的词语之间的关系(the relation,not between individual words,but between a lemma or word form and a set of semantically related words)。观察Google页面所显示的包含called in to assist的语句,句子均以called in to assist作为语句的核心,这些词限制了其前后的两个语义为并列关系的名词,第一个名词的语义偏好(semantic preference)为组织类名词,如RSPCA,FBI以及army等。第二个名词的语义倾向为处于灾难中的人或物。含有called in to assist的整个句子还传达出紧急并且呼吁性的语气。因此,called in to assist常用于灾难性事件中表达急切需要援助的语境中,同样印证了Sinclair的人们在选择词汇时通常遵循惯用原则。

四、结语

首先,通过以上的分析可以看出,Sinclair的惯用原则在英语灾难性文章中的主导作用,词汇与主题相互影响,相互制约。以母语为英语的人在叙述灾难性事件时,与开放原则相比更倾向于选择惯用原则,即人们在使用英语时习惯运用已有的,经常一同出现于灾难性文章中的词汇,来论述灾难性事件,而不是使用过长或不熟悉的词语进行事件描述。因此,在英语习得的过程中,不能孤立地记忆单个单词,更重要的是词语的前后搭配和使用的语境。其次,将Google作为语料库,为英语语言学习和研究提供了大量真实而且自然的语料,并且网络不断更新,有助于观察语言发展的最新动态,为深入认识语言的本质开辟了新的思路。英语教师和学生在听力、口语、阅读、写作和翻译教授与学习的过程中,均可以借助Google作为直接的教与学的资源来检测词语的用法,能有效地避免中式英语。

[1]Sinclair,J.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.

[2]Fernando,C.Idioms and Idiomaticity[M].Oxford:Oxford University Press,1996.

[3]Wikipedia.2011 Christchurch Earthquake[EB/OL].Retrieved March 4,2011,from http://en.wikipedia.org/wiki/2011 Christchurch earthquake.

[4]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[5]杜诗春.给予语料库的英语语言学语体分析[M].北京:外语教学与研究出版社,2009.

[6]Shei,C-C.Discovering the Hidden Treasure on the Internet:using Google to uncover the veil of phraseology[J].Computer Assisted Language Learning,2008,21(1):67-85.

[7]Stubbs,M.Text and Corpus Analysis[M].Oxford:Blackwells,1996.

[8]Stubbs,M.Words and Phrase[M].Oxford:Blackwells,2002.

(作者单位:成都理工大学工程技术学院)

猜你喜欢

惯用灾难性语料库
科学家说地球变暖速度比以前认为的要快,而避免灾难性后果的窗口期即将结束
中日惯用谚语对比研究——以动物隐喻为中心
表原因的惯用型研究
《语料库翻译文体学》评介
资金盘传销惯用包装伎俩和鉴别方法
综合发力 化解灾难性医疗风险
基于JAVAEE的维吾尔中介语语料库开发与实现
中国媒体在灾难性新闻报道中的改进与不足
灾难性的威胁:抗生素耐药性
语料库语言学未来发展趋势