APP下载

外语研究中的语料库方法

2012-11-22

大连大学学报 2012年4期
关键词:近义词连词语料

班 柏

(四川大学 外国语学院,四川 成都 610064)

杨惠中认为,语料库是现代语言学的三大研究方法之一,其它两个分别是内省法(introspection)和诱导法(elicitation)。[2]如今,语料库已广泛应用于外语研究,除了语言学领域,还可应用于翻译研究、文学研究、文化研究、词典学研究等领域。本文拟在上述方面展开讨论。

一、语料库与翻译研究

基于语料库的翻译研究(Corpus-Based Translation Studies:CBTS)已经成为当今描述翻译研究领域中一种新的研究范式。Baker提出了基于语料库的翻译普遍特征,即:简略化(simplification)、明晰化(explicitation)、规范化(normalisation)和平整化(levelling out)。后来的研究者主要集中在平均句长、类符/型符比、词汇密度等进行共时语料研究。Baker[3]还对译者风格研究给出了较为可行的模式。她认为,风格是表达的个性特征。文本类型的选择、翻译策略的运用、前言、后语、脚注、文内注也在广义的翻译风格之内。

语料库对翻译的考察,既可以在微观层面,也可以在宏观层面进行。微观上可对文本细节进行考察,宏观上可对文本内外的文化模式进行考察。有研究采用语料库的方法对《尤利西斯》进行了意识流语言特点翻译的研究[4]。将萧乾、金隄译本的句长及不同句子对齐比在语料库中所占比例进行了分析,结果发现萧译本句式多变,而金对齐比占语料库中对齐句子总数的98%,非常倾向于保留原文的句式。分析其原因在于萧译的译文读者取向和金译的原文取向。这种方法也验证了施莱尔马赫对两种不同翻译途径的阐述。要么不扰乱原作者的安宁,让读者去接近作者,要么尽可能地不扰乱读者的安宁,让作者去接近读者。在语篇层面,该研究对比了衔接机制的差异,通过代词的统计分析了两种译本叙述方式的差异。

运用语料库还可以对汉语翻译语体进行研究,翻译语言的特征是20世纪80年代以来的研究热点之一。Toury(1979)提出了“中介语”(interlanguage),Frawley提出了“第三语码”。Baker(1993)提出“翻译共性”(translation universals),Sch¨a ff ner&Adab(2001)提出“杂合语言”(hybrid language)。Olohan(2004)提出的“翻译的特征”(features of translation),都将翻译语言作为独特的语言变体来研究。

对翻译共性的研究主要集中在简化、显化、规范化三个方面。可以通过类符/型符比(TTR)反映译文的用词丰富程度,进而考察其简化特征。词汇密度(实词型符/总型符)也可考察文本信息量和难易程度。平均词长、平均句长、平均段长可以考察翻译文本的可读性。词类频率分布可考察译本受到源语的影响大小。显化特征可以从语法显化程度(虚词比例)来加以考察,胡显耀的研究[5]还分析了助词、介词、连词、代词总频率,发现了译文在以上方面使用的高频化趋势。规范化可通过高频词前十等来体现。一次性词(hapax legomena)可体现译文的创造性。把字句、被子句、习用语、成语等也可体现译文的地道性或规范性。胡文通过多维分析的手段,发现汉语文学比非文学翻译语法明显显化,翻译语料的句子长度更长,更集中地使用常用词(高频词)、习惯用语和被字句、把字句、成语等汉语特有的用法。当然,这些特征在文学翻译和非文学翻译语料中的表现有所不同。总体而言,汉语文学翻译与文学原创的差别大于非文学翻译与原创之间的差异。

以上是语料库在翻译研究中的应用举隅。国内语料库翻译实证研究主要集中于翻译普遍性的研究,其他领域很少涉及,研究范围过于狭窄。杨梅和白楠指出,语料库翻译研究还存在“理论研究欠缺、实证研究少”等问题[6]。

二、语料库与文学研究

语料库用于文学研究领域,出现了语料库文体学等新兴研究领域。语料库语言学用于文学研究领域特点如下:一、验证文学语言与思想表达方式的完整性,文学评论的合理性;二、定量分析和定性分析结合,研究文本的潜在意义。李晋,郎建国认为,“该领域的最初研究以归纳验证文学文本的语言特征为主,而后期逐步转向对文本‘意义’的探析。”([7]

在归纳与验证方面,语料库文体学是比较典型的应用。2001-2007年间共举办了四届语料库语言学会议(第一届到第四届),均对这一领域有所探讨。第三届的一个议题即“文学文本语言的语料库研究方法”,会议要点如下:(1)借用语料标注和分析解析文学语言特征;(2)利用参照语料库中词语搭配、类联接、语义韵等语言证据来研究文本的文学效果(或“偏离常规的现象”);(3)借助语料证据辨别或分析语言的独创性。这些尝试无疑为语料库文学研究拓展了思路,同时解决了技术层面的部分问题。

在探究文学文本的意义方面,语料库也做成了独特的贡献。麦卡拉·麦博格(Michaela Mahlberg)[8]认为,运用新型分类法,如“词语搭配(collocations)、词丛(clusters)、词项(lexical items)及局部语篇功能(local textual functions)等描述工具”有助于探索文学文本的意义。

语料库用于文学研究也日趋便捷,罗吾提出,语料库文体学家拥有以下三样即可完成文学文本分析:1)可机读的文学文本;(2)收有文学文本及非文学文本语料的参照语料库;(3)用于检索词语搭配情况的索引软件[9]。以迈克尔·斯特布斯的研究为例,他在分析康拉德《黑暗的心脏》时,利用语料库分析了词频、词的分布、文本结构,单个词的搭配情况、词语-语法结构以及互文性信息,为叙述者马娄的不可靠性和种族偏见主题等提供了数据支撑,为其语言特征提出了新的见解[10]。文本意义的发掘成为语料库文学研究的重点领域。

利用语料库还可对文学文本中的主题意义、文体风格、语言特色、人称视角和象征意义进行分析,为文学研究另辟蹊径。通过文本量化对文学作品更为理性地解读。

三、语料库与文化研究

语料库用于文化研究,目前在文化词汇研究已有一定进展。例如,何宇茵在《基于美国当代英语语料库的中国文化词汇研究》(2010:7-11)一文中,采用美国当代英语语料库,统计了每百万词词频超过0.5的词项(表1)[11]:

?

其研究发现“武术”应译为kong fu,而非意义更为广泛的martial arts;Lei Feng正是对“雷锋精神”的准确解读,并指出,美国对中国文化的深层理解仍有空白。这种以语料库为辅助的文化研究给出了令人信服的证据。

运用语料库进行文化研究目前尚不充分,仅在文化词汇、法律文化等领域有所应用,其他方面仍有待加强。

四、语料库与词典学研究

另外,语料库也可用于词典研究,有学者应用语料库对双语词典编撰中的文化词条的译义问题进行了研究[1参见衡孝军把汉语成语和谚语的英译手段分为4种:词译、直译、意译和功能对等(即英语中相应的成语或谚语)。参见衡孝军.从社会符号学翻译法看汉语成语英译过程中的功能对等.中国翻译,2003,24(6):23-25.2],该研究采用双语平行语料库CrpDict系统,以“马不停蹄”、“马到成功”、“马马虎虎”、“先发制人”、“熙熙攘攘”、“人老珠黄”、“亡羊补牢”这7个成语及短语为例,通过语料库手段进行归纳整理,最终发现,以往的词典编撰受人工操作的限制,无法在目标语中大规模进行对应语段的检索,解释性对应词成为无奈之选。但运用平行语料库来检索、发掘对等词(释义词)、提取例证、研究搭配,可以还原关键词所在的真实语境。从而有效地弥补文化亏损(cultural loss),接近衡孝军倡导的功能对等的译义1。

近义词辨析研究也是新兴的词典研究的重要领域之一,语料库为这一研究提供了新的方法。语料库在以下方面都发挥了极其重要的作用,如近义词的词汇搭配,近义词的语义韵,近义词的类连接以及近义词的语域分布。搭配和语义韵是辨析语词意义相关性的重要概念;运用语料库进行相关研究更简洁、有效。有学者使用高等教育出版社2007年出版的《英语学习与交际大词典》和商务印书馆2009年出版的《牛津高阶英汉双解词典》(第7版),研究其近义词辨析专栏[13]。以cause和bring about为例,《交际词典》未对cause的消极语义韵特征和bring about的积极或中性语义韵特征进行描述。《牛津7》则运用语料库手段进行了近义词的辨析。给出了语义韵特征,常用搭配,但仍然不够系统。该文作者进一步强调了近义词列的选取,近义词的辨析信息处理以及词典中近义词的索引结构设置的重要性。

现在在编写英语词典时几乎无不利用语料库。词典从语料库中所获得信息的方式大多数都是隐性的。即通过对语料库数据的分析来帮助词典编纂者对一些编纂问题做出决策,如词义(某一语词有多少义项)、片语(哪些短语或搭配值得凸显)、句法特征(哪些句法结构需要收入词典中)等等。Rundell提出了语料库词典学的显性研究话题[14]。显性研究之所以可能是因为新科技给词典编纂者提供了让词典使用者直接使用语料库信息的机会。COBUILD词典大胆地采用从语料库中选取的、未经过任何修改的句子作为例证来阐示语词的用法,这种做法引起了一定的争议。语料库的真正价值在于为词典编纂者分析语词意义与用法提供了不可或缺的原始数据。在具体层面上,即单个词条层面,语言数据使我们能够非常精确地描述语词的意义。在系统层面,语料库让我们重新认识语言使用的规律。

五、语料库与语言学研究

当然语料库最重要的领域仍然是语言学。比利时鲁汉大学英语语料库中心负责人Sylviane Grander教授利用平行语料库考察英法两种语言在语态(主动语态和被动语态)、连词(并列连词和从属连词)以及代词方面的对应关系和变化趋势(陆军,张乐:32),研究发现:(1)在新闻文体的英法平行语料中,法文原文中被动语态的频数远远低于英文原文。然而,在对应的翻译语料中,被动语态的频数都呈现减少趋势,英译法中的频数降低幅度更为明显;(2)英语和法语在从属连词和并列连词的分布上也存在差异,在英法翻译中有很多并列连词转换成从属连词,同时有很多从属连词转换成并列连词。总体而言,英译法过程中,主要表现为并列连词转换为从属连词,而法译英过程正好相反;(3)平行语料库为观察词语对等现象(lexical equivalence)提供了大量证据:在英法平行语料库中,动词、代词和介词都表现出不同的分布频数和对等程度,其中法语中的代词on视语境不同而译为英语one和you等。

语料库语言学还可以用于隐喻研究,其方法大致有以下几种:削尾处理(lemmatization)、形符数(token)和类符数(type)、词语索引(concordance)。(参见朱炜:49)把隐喻关键词设为类符,它们以不同形态的出现视为形符,那么类符数和形符数的乘积就是回鸣值(resonance)。回鸣值表明某类隐喻在一定语料中的出现率,它是隐喻产率的衡量标准[15]。

朱炜的研究运用语料库的手段对比了曼德拉和里根总统的演讲,发现曼德拉演讲语料的隐喻种类少于里根演讲语料的隐喻种类,类符数(163个)少于里根演讲语料的隐喻的类符数(187个),但曼德拉演讲语料的形符数(872个)却多于里根演讲语料的形符数(606个),特别在冲突类、建筑物类隐喻中相差明显。相同的是在政治演讲中他们均倾向于使用冲突、旅程、建筑物、火与光、人体部位、植物、地理环境、宗教、健康和饮食等10类隐喻[16]。

近十年,语料库语言学在中国的发展迅猛,建成了一批可与国际同类语料库相比的专门语料库、学习者口笔语语料库、平行语料库等,研究话题也从词汇、语法和词典学扩展到语言教学、二语习得、翻译、自然语言处理、话语分析、认知语言,乃至抽象的理论语言学问题探索等广泛的领域[17]。

以语料库方法进行外语教学研究为例,上海交大研发的JDEST学术英语语料库提供了通用词汇、技术词汇、次技术词汇的应用信息,为中国大学英语教学大纲制定了可靠的科学量化依据。Tim Johns(1991)提出数据驱动学习(Data-driven Learning)是一种把语料库数据和检索技术直接应用于外语教学的方法。其主要思想是引导学生基于语料库中大量真实语言数据,通过观察、描述、归纳语言使用现象,自我发现语言规律,突破了传统外语教学中的规约式课程和内省式数据。

语料库语言学可用于二语习得。国内已建成的学习者语料库除了CLEC,COLSEC,SWECCL和MSEE以外,还有华中科技大学的“硕士写作语料库”(简称MWC,12万词),华南师范大学的“国际外语学习者英语口语语料库中国部分”(LINSEI-China,10万词)。研究多数将学习者英语同母语者英语对比,进行学习者英语特征分析和错误分析。研究话题涉及了搭配、类联接、语义韵、句型、语篇、语体等特征描述,对二语习得研究以及英语教学研究具有重要参考价值。语料库还将继续在语篇分析研究、自然语言处理等领域发展。甄凤超指出,“从宏观角度看,短语学(Phraseology)将持续成为语料库语言学的核心研究内容之一,从而影响到各个领域研究的态势和趋向。”[17]40

Tognini-Bonelli将语料库语言学的方法分为两种:以语料库为基础的(corpus-based)研究方法和受语料库驱动的(corpus-driven)研究方法。(2001:89)以语料库为基础的研究方法指的是研究者用语料库提供的大量真实语言材料去支持或推翻现有的语言学理论或语言描述,其结果不会产生新的语言理论。为此,Tognini-Bonelli主张采用受语料库驱动的研究方法。对建立在直觉基础上的语言学理论持较开放的态度,认为现有理论有可能捕捉不到一些人们不易察觉或容易忽略的现象。由Sinclair主持的Collins Cobuild English Dictionary被认为是第一项受语料库驱动的研究,它对意义的解释提出了新的方法,认为语言运用离不开语境,语境决定词汇的意义。该词典就提供了语境的描述,如词汇的搭配(collocation),类联接(colligation)以及语言单位使用的社会场景等,同时还提供了语用信息。

语料库语言学基本研究方法是自下而上的,即通过真实语言数据来体现语言学理论。研究过程体现为提取(extraction)——观察(observation)——概括(generalization)——解释(interpretation)。也有一种自上而下的方法:语料库例证的方法。此时,语料库只是用来佐证特定理论、观点的工具。

一部分语料库学者也在尝试使用语料库数据解释心智语言问题,如生成语言学和认知语言学等领域的问题(Hoey,2005)。这些研究体现了学科融合和交叉。

生成语言学研究的核心焦点是语言能力;语言能力体现为心智中存在的普遍语法。认知语言学虽然强调社会环境与语言使用对语言知识的重要作用,但从根本上仍视语言为一种心智现象或认知事件。心智语言本质上难以可观察,其探索需要复杂的心理语言实验和神经语言研究;仅凭语料库数据,无法知道语言规则和词语型式如何在大脑组织。卫乃兴指出,“语言学者很难凭借自己的数据推断心理词库、词汇启动、心智表征、认知处理等问题。”(2009:39)

过去30多年间,语料库语言学主要集中于共时研究,最近几年历时研究范式正在兴起。Teubert是历时研究范式的主要创设者之一(Teubert 2004,2007)。他所研究的话语意义涉及具体词语不同时期意义的演变,如“human rights”,“work”,“wealth”等。从历时的角度考察话语意义的演变,会增加研究发现的解释力。

六、结束语

本文分别就语料库应用于外语研究中的翻译、文学、词典学、文化研究和语言学领域分别进行了介绍。在语料库翻译研究中重点介绍了翻译语体研究和翻译共性研究。同时指出了不足之处。在语料库文学研究方面,在归纳与验证方面及文本意义方面进行了挖掘,给出了语料库文学研究的多元视角。在语料库文化研究方面,重点介绍了文化词汇研究。在语料库词典学研究方面,介绍了双语词典编撰中的文化词条的译义问题的语料库处理方案,并对词典编撰中的近义词辨析进行了探索。最后,在语料库语言学方面,考察了语态、衔接手段、词性的分布频数及其对等程度等相关研究。文章还对语料库语言学的方法进行了归纳,展望了其发展前沿。

[1]桂诗春.语料库语言学的发展前景与资源共享[J].现代外语,2010(4):419.

[2]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002:6.

[3]Baker,M.Corpus-based translation studies:the challenges that lie ahead[G]//H.Somers(ed.).Terminology,LSP and Translation:Studies in Language Engineering,in Honor of Juan C.Sage.Amsterdam:John Benjamins,1996:176-186.

[4]韩佳霖,夏廷德.基于语料库的《尤利西斯》意识流语言特点翻译[J].大连海事大学学报(社会科学版),2010(6):120-122.

[5]胡显耀.基于语料库的汉语翻译语体特征多维分析[J].外语教学与研究,2010(6):451-458.

[6]杨梅,白楠.国内语料库翻译研究现状调查——基于国内学术期刊的数据分析(1993-2009)[J].中国翻译,2010(6):46.

[7]李晋,郎建国.语料库语言学视野中的外国文学研究[J].2010(3):83.

[8]Mahlberg,Michaela.Corpus Linguistics:Methodology,theory and patterns in literary texts[J/OL].[2011-02-20].http://ahds.ac.uk/print/litlangling/events/approaches/mahlberg.htm.

[9]Louw,Bill.Literary Worlds as Collocations.Greg Watson and Sonia Zyngier.Literature and Stylistics for Language Learners:Theory and Practice[C].New York:Palgrave Macmillan:104.

[10]Stubbs,Michael.Conrad in the computer:examples of quantitative stylistic methods[J].Language and Literature,2005(1):5-24.

[11]何宇茵.基于美国当代英语语料库的中国文化词汇研究[J].山东外语教学,2010(1):7-11.

[12]钟兰凤,钟家宝,陈红.汉英词典编纂中文化词条的译义问题——基于平行语料库[J].江苏大学学报(社会科学版),2010(5):60-64+69.

[13]朱文慧,马立东.英汉学习型词典中近义词辨析栏的优化设置——基于语料库的近义词辨析及其应用[J].辞书研究,2010(6):78-87.

[14]Rundell,Michael撰.夏立新,朱冬生译.语料库词典学的最新发展和未来趋势(上)——语料库数据在学习词典中的显性应用[J].辞书研究,2009(3):74.

[15]Charteris-Black,J.Corpus Approaches to Critical Metaphor Analysis[M].New York:Palgrave Macmillan,2004:89.

[16]参见朱炜.语料库语言学和语篇中隐喻的识别[J].外语电化教学,2010(6):49.

[17]甄凤超.语料库语言学在中国的成长与发展[J].当代外语研究,2010(3):36.

猜你喜欢

近义词连词语料
怎样辨析近义词
连词that引导的宾语从句
找找近义词
表格大团圆,连词学得全
基于语料调查的“连……都(也)……”出现的语义背景分析
西夏语中的对比连词 djij2
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold