APP下载

试论“商务英语语料库”的建设及其应用*

2010-11-27周玉林

外语与翻译 2010年1期
关键词:语料语言学语料库

周玉林

(1.深圳职业技术学院应用外国语学院,广东深圳518055;2.新西兰奥克兰大学应用语言研究与语言学系,新西兰奥克兰0600)

试论“商务英语语料库”的建设及其应用*

周玉林1,2

(1.深圳职业技术学院应用外国语学院,广东深圳518055;2.新西兰奥克兰大学应用语言研究与语言学系,新西兰奥克兰0600)

语料库语言学作为一门新兴的语言学分支已在国内外语言研究中得到了长足的发展,尤其是近十年来,其影响已遍及语言学研究的各领域。但如何将语料库与语言教学结合起来,使语料库走进课堂,在日常语言教学中得到实际应用,仍然处在探索阶段。本文探讨“商务英语语料库”的建设及其在商务英语教学大纲设计与教材开发、商务英语教学、测试和翻译中的应用,以期语料库语言学为商务英语教学带来更多成果。

商务英语;语料库;数据驱动学习

一、前言

(一)语料库语言学的兴起

纵观语言学研究的历史,各种理论、学说和流派众说纷纭,但就其方法论来说,可划分为两大派别。一是理性主义(rationalis m),二是经验主义(empiricis m)。理性主义以乔姆斯基(Noam Chomsky)为代表。乔氏根据数学中的公理化方法来研究自然语言,从形式描述的高度,建立了“普遍语法(Universal Grammar)。乔氏不关心语言的实证研究,有关语言的论述都基于内心反省和人为编造的例子,目标是通过研究人类获得和识别语言的内在能力,建立对语言规则演绎推导的解释程序。与此相反,经验主义则认为语言学的研究必须以语言事实作为根据,详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。二十世纪下半叶,计算机功能逐渐完善、强大,使得语言学家可以高效地进行大量语言材料的搜集、整理和加工,从而催生了一门新的语言学学科——语料库语言学(corpus linguistics)的诞生。

(二)语料库语言学的研究方法及重要意义

语料库语言学研究自然语言文本的采集、存储、加工和统计分析,凭借大规模语料库提供的客观翔实的语言证据,运用到语言学研究和自然语言信息处理系统的开发。语料库的使用,为语言学的研究提供了一种新的思维方式,辅助人们的语言“直觉”和“内省”判断,从而克服研究者本人的主观性和片面性,现已逐渐成为语言学研究的主流方法(Svartvik 2001)。如同天文学家利用望远镜来研究天文学,生物学家利用显微镜来研究生物学一样,语言学家利用语料库来研究语言学,可以扩展眼界,看得更远,看得更细,从而发现更多的语言现象,挖掘出更多的语言事实,把语言学的研究推向一个新的阶段,取得语言学研究中革命性的进步(冯志伟2006)。

目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计并对之进行词性、语法、语义和语用等方面的标注,建设各类语料库并研究其在词汇研究、语法研究、语域变异与体裁分析、方言特点与语言变体、语言比较与翻译研究、语言历时与语言变化研究、语言习得与语言教学、语义学、语用学、社会语言学、话语分析、文体学与文学研究、法律语言学(forensic linguistics)、词典编纂、自然语言理解和机器翻译等领域中应用(McEnery,Xiao&Tonio 2006)。

二、“商务英语语料库”概况及其应用

(一)“商务英语语料库”概况

“商务英语语料库”作为针对于商务英语教学和商务英语研究专门用途英语(English for Specific Purposes,简称ESP)语料库,由深圳职业技术学院应用外国语学院于2006年3月,作为北京外国语大学中国外语教育基金项目启动。该语料库原始语料选自具有实用性和权威性的英语/英汉商务材料,包括国内外商务企业商业信函、电子邮件、年度报告、国内外商务书籍与教材及互联网上的商务材料等。目前,该语料已近千万形符数(tokens)。与国外著名的超大型语料库,如英国国家语料库(The British NationalCorpus,简称BNC)、美国国家语料库(The American National Corpus,简称ANC)和“英语银行”(Bank of English)相比,“商务英语语料库”规模较小,但作为专门用途用语的专业语料库,具有大型综合性语料库不具备的专业特性,“最为适合理解像商务英语之类的专门用途语言”(Flowerdew 2004),对于商务英语语言研究、教学与翻译等具有重要意义。

该语料库建设过程中涉及下列关键问题:1)总体规划与设计——包括语料库的类型、用途、规模、各类语料的平衡性及可语料库扩展性等;2)语料的采集——包括语料获取、数据格式、字符编码、语料分类、文本描述等;3)语料的加工——包括标记集和标注规范标注项目(词语单位、词性、句法、语义、语体和篇章结构等);4)语料管理系统的建设——包括数据维护(语料输入、校对、修改、存储及语料描述信息管理)、语料自动加工(分词、标注、文本分割、合并等)和终端用户功能(查询、检索、统计和打印等);5)语料库的应用——针对语言学理论和应用领域中的各种问题,研究和开发处理语料的软件工具及检索平台(query package)。

以下是该语料库采用CLAWS7和USAS标注系统(http://ucrel.lancs.ac.uk/wmatrix/)标注词性和语义附码后的几例样本及说明:

1)附有词性标注的商务英语语料库样本

BLC3:05:00016 If_CS you_PPY need_VV0 any_RR help_NN1 or_CC resources_NN2,_,be_VB I sure_JJ to_TO let_VV I us_PP IO2 know_VV I._.

BLC3:02:03221 We_PPIS2 are_VBR proud_JJ of_ IO your_APPGE success_NN1 and_CC know_VV0 that_CST this_DD1 appoin tment_NN1 will_VM bring_VV I you_PPY much_RR personal_JJ satisfaction_NN1._.

这是从作了词性标记的商务英语语料库选取的两个片断,其原始语料文字为:1)If you need any help or resources,be sure to let us know.2)We are proud of your success and know that this appointment will bring you much personal satisfaction.行首的BLC3:02和BLC3:05为语料库分类号,03221和00016等为语句序号,每个单词_之后的大写字母为词性的代码,如CS表示从属连词,PPY表示第二人称单数,VV0表示动词原形,NN表示普通名词,CC为并列连词,VB I表示be,VBR表示are,PP IO2表示第一人称复数宾格等等。

2)附有语义标注的商务英语语料库样本

BLC3:03:00254 Thanks_S1.2.4+for_Z5 responding_S1.1.2+to_Z5 my_Z8 voice_Q2.1 mail_Q1.2._PUNC The_Z5 new_T3-[i2.2.1 model_T3-[i2.2.2 year_T1.3 of_Z5 automobiles_M3 is_A3+only_A14 a_Z5 month_T1.3 away_M6[i3.2.1 from_M6[i3.2.2 being_Z5 released_A1.7-,_PUNC and_Z5 car_M3fn dealerships_I2.2 are_Z5 looking_X2.4[i4.2.1 for_X2.4[i4.2.2 ways_X4.2 to_Z5 make_A1.1.1 room_H2 for_Z5 the_Z5 new_T3-cars_M3fn and_Z5 trucks_M3fn that_Z8 are_A3+on_T1.1.3[i5.3.1 the_T1.1.3[i5.3.2 way_T1.1.3[i5.3.3!_PUNC

这是从作了语义标记的商务英语语料库选取的一个片断,其原始语料文字为:Thanks for responding to my voice mail.The new model year of automobiles is only a month away from being released,and car dealerships are looking for ways to make room for the new cars and trucks that are on the way!其中,每个单词_之后是语义标注,如:S1.2.4+表示礼貌,Z5表示语法仓(Grammatical bin),S1.1.2+表示指向,Z8表示代词,Q 2.1表示话语交流,Q1.2表示纸质文件写作,T3表示时间:新旧与幼长,A14表示排它词/特定化词(Exclusivizers/particularizers)。

(二)“商务英语语料库”在商务英语教学中的应用

Leech(1997)将语料库在语言教学的应用划分为直接应用和间接应用。前者指语料库能帮助确定教什么、何时教,后者指学生和教师在语言课堂上使用语料库辅助教学,从而影响教与学的方式。这两种应用图示如下:

图1 语料库在语言学习与教学中的应用

目前,“商务英语语料库”作为商务英语专用语料库,采用常用的语料库软件,如MonoConc Pro,ParaConc,WordSmith和Wmatrix等,可对该语料库中大量商务英语语料,通过中心词索引(concordancing)、关键词分析(key word analysis)、语块分析(cluster analysis)、词汇-语法概况(lexical-grammatical profile)、语义韵律分析(semantic prosody analysis)等方法进行词语、词频、短语、搭配、句型、语义和语用等方面的研究,这些功能在商务英语语言大纲设计、教学、测试、教材编写及教师发展等方面都可得到直接和间接的应用。

1.大纲设计与教材开发

教学大纲的编写应当以实证为依据,而不是以直觉为基础(Mindt 2001)。以语料库中大量的实际语言使用的频率数据可为大纲设计提供科学指导,使教学内容先后顺序的安排更为合理。

通过检索手段进行频率统计(Frequency Count),语料库语言学将语言的不对称性分布特征清楚地展现在人们面前:大部分书面文章的95%由4000-5000次高频词构成,而在其中前1000个高频词又占据了文章的85%;在口语中,50个高频功能词就占据了60%。这种不对称性分布特征也同样表现在词的多义、语法结构、词组和词汇搭配等语言现象上。从统计学的观点来看,频率较高的语言项目一般都是学习者在语言使用中最有可能遇到和需要学习的语言项目。这就要求在教学中区别对待不同的语言现象,如高频词、高频词的低频义、低频词的高频义、高频语法结构和高频词汇搭配模式等等(肖忠华,许家金2008)。

“商务英语语料库”可以对商务英语使用进行描述,研究商务英语词汇的词频、覆盖面和分布情况,制定商务英语词汇表,使之成为商务英语教学大纲设计、教材编写的重要依据。运用MonoConc Pro可以方便制作“商务英语语料库”词频统计表,还可通过引入stop-list剔除其中的功能词,得到实义词(contentwords)词频表(Barlow 2004)。

2.语料库与商务英语语言教学

“商务英语语料库”除了可为大纲设计、教材开发提供依据之外,还可直接应用到商务英语语言教学中去,其步骤主要有以下三个:

1)把“语料库语言学”作为“教师发展”的一个重要内容,通过办进修班、学术讲座和网络课程等形式,使教师掌握语料库语言学理论与方法。这是其它三种途径的前提条件,也是教师面临的新挑战。根据最近的一项调查,英语教师常常需要向以英语为母语者请教语言点,而英语语料库被形容为“孜孜不倦的告知者(informant[s]),语言知识比一般以英语为母语者潜力更大”(Lüdeling,Anke&Kyt,Merja.2008)。中心词索引可以帮助教师创造一个数据丰富的学习环境,“丰富他们自身的语言知识”(Barlow 1996:30)及学生的语言知识。

2)向学生传授语料库使用的基本技能。这包括两方面的技能,即语料库、语料库软件工具的使用技能和使用语料库进行数据分析的能力。学生一旦掌握了语料库研究的使用技能,就可通过语料库进行商务英语与通用英语词汇、句法等方面的比较、进行词语搭配、主题分析、例句援引、词素分析、词汇语义学和话语分析等,从而自己驾驭语言学习,将学习模式转化为以学习者为中心,根据客观语言事实来形成解决语言学习问题的方案。

3)将“商务英语语料库”直接应用到课堂上,即采用基于语料库的语言教学法。首先,由学生运用于语料库软件,观察真实语料,从大量语料中看到对某一语言现象的呈示(Illustration),然后讨论和分享在语料中的发现,形成与语料库的互动(Interaction),接着对某个语言现象的规则进行归纳(Induction),并在教师的指导下通过观察更多语料,逐步修正完善规则。这种“数据驱动学习(Data Driven Learning)”的教学模式,体现了建构主义、人本主义教育思想,值得大力探索和提倡。例如,在商务英语中“appreciate”一词用法甚多,可与不同的词搭配使用,学生通过检索语料库即可清楚观察到该词搭配情况(表1),并对之进行甄别、归纳。试题的代表性和真实性,使考题内容即实际工作的内容,保障试题的效度。以“market”一词为例,表2显示了该词在“商务英语语料库”中的44条语境共现例句。其中,有market充当句子成分的分布、类联接(colligation)、语义搭配(collocation)及强搭配、弱搭配和零搭配等搭配关系等信息。

表1 “appreciate”在商务书信的部分搭配情况

3.商务英语测试

语言测试是语料库应用的一个新领域。语料库最强有力的工具——中心词索引和词频统计工具,可展示“商务英语语料库”中的词汇在不同商务语境中的使用频度极其丰富用例和细微差别,对一些疑难用法、惯用搭配和语篇结构特征进行排序、归类,便捷地查找出编制试题所需要的真实素材,确保

表2 “market”一词语境共现情况

语料库已广泛用于国际大型英语测试中,如美国教育考试服务中心(ETS)建立了The T2K-S WAL Corpus为托福、GRE、G MAT等考试服务;英国剑桥大学英语认证测试考试委员会(UCLES)建立了Cambridge Learner Corpus,Business English Text Corpus等,为剑桥大学英语认证测试等服务。同样,“商务英语语料库”也拟用于设在深圳职业技术学院的“全国国际商务英语考试中心”主持的“全国国际商务英语考试”,为该考试发挥以下功能:1)用作测试文本库,开发试题材料;2)从语料库检索商务英语搭配情况、真实的题干和合理的干扰项分析,提高测试的效度;3)使测试标准化和规范化,优化测试流程,改善评分质量;4)建立考生试卷语料库,研究学生中介语特点。

4.商务英语语言研究

以往语料库的应用多局限在词汇、语法研究方面。但近年来,已有极大的突破,利用语料库对较大的语言单位的研究已相当普遍(Biber,Connor&Upton 2007)。利用相关软件,如MonoConc,可对“商务英语语料库”中的商务信件、电子邮件、传真、memo及商务报告等内容进行文体(style)、体裁(genre)、语步(moves)、语义关联(semantics associations)、语义韵律(semantic prosody)、语篇构建及礼貌策略等进行分析,从而找出商务英语作为一种专门用途用语(ESP)的特点。

5.商务英语翻译

20世纪90年代以来,基于语料库的翻译研究已成为翻译研究领域中一种新的研究范式,发展势头迅猛,在理论、描写和应用等层面对翻译研究和翻译教学中发挥越来越重要的作用。“商务英语语料库”平行语料库部分可用于商务英语翻译研究与教学。将国际商务英语放在翻译语料库层面上进行研究,可为国际商务翻译者提供一个学习的平台,通过比较译语文本和其对应的母语中的语言特征及其出现的频率来研究翻译过程,对商务译文风格特点进行量化分析,挖掘翻译规律,促进国际商务和对外贸易的发展。利用对应语料库还可搜寻大量的对应词语、短语,丰富商务英-汉、汉-英商务、贸易词典的编纂,并为商务英语机器翻译(Machine Translation)和机器助译(Machine-aided Translation)等提供支持。

三、“商务英语语料库”建设与应用的困难与发展前景

“商务英语语料库”建设及其应用是一项庞大、复杂和艰辛的工作,不可能一蹴而就,需要投入大量的时间和人力;也涉及到语料库建设中普遍存在的版权等问题,包括语料库采用的书刊的版权、第一手商务资料的保密、与语料库配套使用的软件的授权等,需要与相关出版商、开发商洽谈版权等问题。

自1964年第一个可用计算机处理的语料库Brown Corpus在美国Brown大学问世以来,经过四十多年几经曲折的发展,语料库正逐渐成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。目前,世界各国许多语言学家和外语教师都在探求语料库在各领域中的应用,发展前景十分良好。始建于2003年的新加坡教育研究语料库(Singapore Corpus of Research in Education,简称SCoRE),是一个对课堂师生互动、教材和学生作业等录像、录音和文字材料进行了多模态、多层次(multimodal,multilevel)标注的语料库,代表了语料库发展的新方向(Hong.2007)。在“商务英语语料库”应用中,既要注重发挥中心词索引、关键词分析等核心功能的作用,也需要向使之在多模态、多层次方向发展,只有这样才能取得语料库语言学作为语言学研究中革命性的进步的成果。

[1]Barlow,Michael.Corpora for theory and practice[J].International Journal of Corpus Linguistics,1996,(1):1-37.

[2]Barlow,Michael.Software for corpus access and analysis,In:J.Sinclair(ed.),How to use corpora in language teaching[C].Amsterdam,John Ben jam ins,2004.

[3]Biber,Douglas,Susan Conrad,Randi Reppen.Corpus Linguistics:Investigating Language Structure And Use[M].Beijing:Foreign Language Teaching and Research Press,2000.

[4]Biber,Douglas,Ulla Connor and Thomas A.Upton,Discourse on the Move:Using corpus analysis to describe discourse structure[M].Amsterdam:John Ben jam ins Publishing Company,2007.

[5]Flowerdew,Lynne.The argument for using English specialized corpora[C].In:Ulla Connor Tho mas A.Upton(ed.),Discourse in the Professions:Perspectives from Corpus linguistics,Amsterdam:John Benjamins Publishing Company,2004.

[6]Hong,Huaqing.Score:A Multimodal Corpus Database of Education Discourse in Singapore Schools[EB/OL].http://www.corpus.bham.ac.uk/pclc/ScopeHong.pdf.2007.Accessed on Oct.10,2009.

[7]Leech,Geoffrey.Teaching and Language Corpora:A Convergence.In:W ichmann,A.Teaching and Language Corpora[M].London:Longman,1997.

[8]Lüdeling,Anke&Merja Kyt,Corpus linguistics:an international handbook[M].Berlin and New York:Walter de Gruyter,2008.

[9]McEnery,Tony.Richard Xiao,&Yukio Tonio,Corpus-based language studies:An advanced resource book[M].New York:Routledge,2006.

[10]Mindt,Dieter.English corpus linguistics and the foreign language teaching syllabus.In:Jenny Thomas&MichaelH.Short(eds.).U-sing Corpora for language Research[C].Beijing:Foreign Language Teaching and Research Press,2001.

[11]Svartvik,Jan.Corpora are becoming mainstream.In:Jenny Thomas&Michael H.Short(eds.).Using corpora for language research[C].Beijing:Foreign Language Teaching and Research Press,2001.

[12]冯志伟.《应用语言学中的语料库》导读[A].Susan Hunston.Corpora in Applied Linguistics[C].北京:世界图书出版公司,剑桥大学出版社,2006.

[13]肖忠华,许家金.语料库与语言教育[J].中国外语教育,2008,(2).

2009-12-16

周玉林(1963-),男,江西信丰人,博士研究生,副教授。

猜你喜欢

语料语言学语料库
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
认知语言学与对外汉语教学
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold