APP下载

基于旅游专门语料库的翻译英语语篇词汇特征多维分析

2016-12-15李奕华

贵阳学院学报(社会科学版) 2016年4期
关键词:高频词语料语料库

李奕华

(池州学院 外国语学院,安徽 池州 247000)



基于旅游专门语料库的翻译英语语篇词汇特征多维分析

李奕华

(池州学院 外国语学院,安徽 池州 247000)

在自建原创英语旅游文本语料库和汉语英译旅游文本语料库的基础上,结合“翻译共性”特征,对旅游文本中英语译文和原创英语的词汇特征进行考察。利用Ant Conc统计工具和tree tagger词性赋码,主要考察词汇密度、平均词长、高频词和高频连词四个方面。通过对比分析两个语料库,发现:同英语母语相比,译文中高频词和高频连词使用更多,呈明晰化和规范化特征;译文中的词汇密度与平均词长反而比英语母语更大、更长,似乎不支持“简单化”假设。

旅游语篇;语料库;词汇特征;翻译共性

一、概述

20世纪80年代以来,翻译语言特征成为国外翻译研究的一个焦点。国外学者先后研究“中介语”(interlanguage)[1]、 “第三语码”(the third code)[2]、 “翻译共性”(translation universals)[3]以及“翻译特征”(features of translation)[4],这些研究都是将翻译语言作为一种独立的语言变体来研究。[5]451-458胡显耀认为,研究翻译语体特征至少有三个方面的价值:一是通过对比研究原语与译入语、原文与译文,了解语言系统差异如何造成了译文的变异。二是通过描述同一语言不同时代的翻译语体特征,判断同一译入语中翻译规范的变化。三是通过比较不同语言中翻译语体的特征,考察跨语言和跨文化疆域的“翻译共性”。而第三个价值则是语料库对翻译实践和翻译研究发挥作用最重要的方面[5]451-458。

旅游语篇语言是一种特殊的专门用途语言,其特点受语域及语篇不同功能影响,有更广泛的文体、语用及词汇特点。国外有学者专门研究旅游语言特点,如Dann鉴定归类了旅游语言一系列特点和技巧。他把旅游语篇特点划分为两类:共性(convergent properties)和特性(divergent properties),前者指旅游语言和其他领域语言具有相同之处,后者指旅游语言不同于其他语篇语言特点。[6]

旅游语篇的多重特性要求翻译人员在实践中要考虑其复杂的词汇、语用特点,并优先考虑旅游语篇的文化负载信息和旅游文本的诱导目的两大因素。

笔者研究的目的是通过对翻译旅游语篇和英语原创语篇的比较,试图了解翻译语篇在多大程度上有别于原创语篇,它是如何形成的;同时验证汉译英的旅游语篇是否存在“翻译共性”,希望对从事旅游翻译的人士提供参考意见。

二、语料库与翻译

语料库语言学是 “以真实的语言数据为研究对象、从宏观的角度对大量的语言事实进行分析,并从中总结出语言使用规律的一种科学”[7],体现了一种全新的研究。语料库的目的是告诉我们语言是什么样。Hunston 认为,使用语料库了解语言比通过本族语者的直觉更可靠,因为语料库语言不仅是基于研究者的直觉,而且语料是以多种形式存在的,从数以千万的大型语料库到只包含某一语域的小型语料库, 这比仅仅依赖一个母语使用者的直觉更为可靠。[8]因此通过语料库来比较某些语言现象的使用特点更有意义。

20世纪90年代初,英国曼彻斯特大学翻译与跨文化研究中心开始将语料库语言学方法论应用于翻译研究,旨在建立翻译英语语料库(即由非英语本族语者把母语翻译成英语)。对翻译文本进行语料库分析目的有两方面:一是发现翻译文本这种语言现象的特点,包括其语言模式,语言习惯以及交际目的是否和英语本族语者的语言有所差异。二是通过语料库方法研究经验主义所说的“翻译腔(translationese)”问题,也就是研究“翻译共性”[9]326。

Baker等通过研究翻译的“共性”,认为翻译语言具有以下三个特征:一是明晰化(explicitation),即用各种手段“把所有事情写出来而不是让它们隐含在翻译中”[10]183,最主要的表现是:扩展句子和语篇,增添修饰词、限定词和连接词,增添额外信息,增添解释语,代词明示等。二是简单化(simplification),即更多使用常用词汇使得词汇范围缩小,句型简化单一;或通过使用短句、变化标点符号,省略多余信息,缩短复杂搭配等方式使得译文句式简单。三是规范化(normalization)。指译者消除原文独特的文本特征, 超用目的语的熟语以及典型语法结构,把标点符号更改为目的语中典型用法,把源语文本中不同人物的方言统一为目的语中的标准语,“遵从甚至夸大目的语典型特征和表达法的趋势”[10]183从而使译文可能比译入语的原创文本更加“规范”。

我国学者本世纪初开始关注并介绍语料库翻译[11], 之后,王克非和胡显耀、李德超和王克非、肖忠华和戴光荣等开始进行基于汉英对比语料库来验证翻译汉语或翻译英语是否存在翻译共性的假设[12]。此外,王立菲、钱娟、江进林、许家金等利用语料库研究论文写作[13]、商务英语[14]等不同语域的语言特征,对翻译亦有启示参考作用。但经过进一步搜索,发现国内外专门收录旅游文本的单语或双语语料库均不多见,纵览相关文献,我们发现国外的旅游专门语料库主要有三个,分别为芬兰、英国和日本学者研制的旅游英语文体语料库。这些旅游专门语料库的“用途较单一,都是为旅游英语尤其是词汇的教学而研制,至于旅游文本在结构修辞上的特点等深层次的问题完全没有探究,也没有考虑到旅游翻译教学与研究上的问题”[15]。我国国内研制旅游专门语料库就更为鲜见,目前仅发现唯一的容量较大的英汉/汉英旅游语料库,由香港理工大学中文及双语系研制,收集了香港地区旅游英汉、汉英翻译文本。该语料库既可指导旅游翻译实践,亦对旅游翻译教学与研究发挥着指导作用[16],但该语料库语料来源主要是香港地区的旅游语篇。

对于基于语料库研究旅游语篇语体特征的论文在国内外期刊上仅发现两篇,即意大利学者Stefania Gandin和我国教师张苇等。前者是对英语母语旅游文本和意大利语、日语、芬兰等语言翻译英语旅游语篇进行对比研究,证实了翻译的共性[9]325-335,但并未研究汉译英情形;而后者是在自建的原创英语旅游语料库和汉译英语料库的基础上,分析了汉译英语篇的词汇特点、句法特点和语篇特点[17],但该研究没有结合翻译共性理论。基于此,笔者试图通过建立小型的翻译英语旅游语篇语料库和原创英语旅游语篇语料库,来考察汉译英旅游语篇的词汇特征,从而验证“翻译共性”在旅游语篇中是否存在。

三、研究方法

(一)数据收集

汉译英旅游文本语料是2013年~2014年间收取,内容主要包括:北京、西安、安徽等地自然景观和人文景观,如景区、景点介绍,宣传册、酒店、旅馆、餐饮业及娱乐场所和设施的介绍、博物馆介绍文本;主要来源于三个渠道:网上的电子文本、以纸质形式出现的印刷品、书籍或宣传页和实地拍摄的有关旅游景区介绍的标识语图片。英语原创语料是2014年到2015年间从英国旅游信息网(www.tourist-information-uk.com.)、澳大利亚旅游网(www.australia.com)、美国旅游者网(www.usatourist.com)上收集的,主要收集英国、美国和澳大利亚三个英语为母语国家多种不同主题的景点介绍,包括著名的旅游城市、山脉河流等自然风光和历史景观、博物馆。我们把汉译英旅游语篇语料库命名为翻译英语语料库(以下简称译语料);把英语本族语旅游语篇语料库称为英语原创语料库(以下简称源语料)。

首先,纸质出版物通过扫描实现电子化,保存为PDF 格式,再利用编辑器将其转换为word格式,最后转换成 text文本格式,并进行人工校对; 对于图片语料利用人工录入的方式提取其中文字部分;针对直接从网上下载的语料,先把其转化为text文本,并去掉多余的空格、空行、断行。对于上述三种来源的语料中的语言符号、图形符号等非语言因素和用不同字体模仿语气或停顿功能的超音段特征,我们在篇头上注明,以方便标注和以后的检索。语料库情况如表1:

表1 语料库基本情况

(二)研究工具

因研究需要对语料库语料不同词性进行统计,需用词性赋码,我们使用的赋码软件是tree tagger赋码器,由北京外国语大学梁茂成教授对德国斯图加特大学计算语言学研究所研制的tree tagger赋码器的程序简化而成,其操作方便,且准确率高。

本研究采用免费绿色工具软件Ant Conc,由日本学者Laurence Anthony开发,具有词语检索、生成词表和主题词三大功能,已有研究者证实了该工具主要功能的可信度。[18]

四、结果与讨论

1.词汇密度

测量词汇密度常见的方式有两种:一种方法就是语料库语言学中常用的类符形符比(TTR),即所有类符(types)与所有形符数量(tokens)之比。类符是语料库中不同的词语,形符是所有的词形。在语料库容量相同的情况下,TTR值可以反映语料库词语的丰富程度,即TTR值越高,词语越丰富。另一种方法是根据Stubbs对词汇密度定义,即实义词数量与总词数之比,用以衡量语篇的信息量大小和文本难度。[19]英语的实义词 (content word)指具有稳定词义的词语,包括名词、动词、形容词和副词等词类。与之相对的是功能词(function word),指不具备稳定词义、主要起语法功能作用的词语,包括介词、连词、冠词、助动词等词类。实义词数量与总词数之比越大,表示文本信息量越大,文本越复杂。

笔者结合上述两种方法,即分别统计类符形符比(表1),再把名词、动词、形容词、副词这种实义词的词频统计出来,然后统计出实义词与总词数之比(如表2所示),从而更全面地考察和比较翻译英语与原创英语在信息量上的差异和难易度。因为我们的语料库已经经过词性标注,不同词性的频率很容易获取,词汇密度可以衡量“简单化”倾向的特征。

表2 实义词词频统计表

从表1看出,源语料的类符比(8.97)低于译语料(9.87),故在一定程度上,可以证明译语料中词汇比源语料丰富。但是, 由于两个语料库形符总数有所差别(分别为168256和156977),随着语料库容量不断扩大,形符数持续增加,但类符数却不一定会增加,故语料库容量越大,形符类符比反而会越来越小。 王克非、胡显耀亦指出不同容量的语料库的形符类符比不具备可比性。[20]

尽管我们所取语料容量差别不大,但为了使结果更可靠,我们再来统计实义词总词符比(见表2)。表2显示源语料的词汇密度(51.38%)略低于译语料的词汇密度(51.99%)。根据“翻译共性”的“简单化”特征,源语料的类符形符比及词汇密度应高于译语料,但综合这两项结果,可以说明在旅游语篇中未能显示 “简单化”特征,反而翻译英语词汇更丰富。

我们认为其根本原因是汉语旅游语篇的特殊性造成,由于英汉思维的差异性,汉语的旅游文本本身信息量大,除了对景点等本身的宣传介绍,还包含大量的神话传说,历史典故、经常引经据典、采用大量修辞手段以激发游客的想象。汉语旅游景点介绍倾向于寓景于情、情景交融、旁征博引,讲究句式对仗、词汇华丽且层层铺垫,直至结尾处才揭示出焦点信息。而英语旅游语篇倾向于客观写实、注重即时功能,采用客观白描,从操纵读者、“越俎代庖”,转移到给读者以自由、留给读者自己品评[21],因此英语旅游语篇语言简洁明了、直接易懂。

2.平均词长

平均词长指的是在语料库文本中的类符平均长度(平均词长越长说明该文本中较长的词越多,所以文本内容显得较复杂; 反之,如果词长较小,证明该文本内容越简单,内容自然越浅显易懂)。通过运用 Antconc3.4.3w 软件进行词频统计,并且计算出文本的平均词长,源语料平均词长为4.14,而译语料平均词长为4.32, 可以看出,译语料的用词并不比源语料简单,这一点也不支持翻译英语的“简单化”特征。其原因如上所述,因受语域限制,旅游文本的主要功能为诱导功能,汉语的旅游文本很多使用感情色彩浓厚的四字句及引经据典,在翻译时为了追求和原文的一致,尽量使用正式词语,而正式用语的词长较长;而英语本族语人直线思维,旅游文本在劝导人们时用词平实明快、简洁明了、表达直观通俗,其主要目的是呼唤游客去行动、去体验,反而简单,常用词汇用得更多。

3.高频词

语料库中频率最高的词形通常都是语法功能词, 功能词的多少一定程度上可以反映文本的规范化和明晰化程度。高频词的统计可以采用两种方法,一种是根据语料库容量的大小统计高频词前二十位或前十位频率之和,即语料库词表前二十位或前十位的总频率,通过比较,可以大致反映两个语料的用词相同或差异。另外一种方法是根据 Laviosa对高频词定义:一个词项出现频率至少占库容0.10%以上的词。在她的研究中,108个词项属于高频词,其中大部分属于功能词。[22]由于本研究使用的是小型语料库,为了使结果更有信度,我们既统计出高频词前十位及其比率之和,也统计了所占比例为0.10%以上的高频词数量和类型。笔者用该两个变量来比较两种语料的总体规范性及明晰化。

表3 高频词前十位统计情况

表3显示,源语料中高频词前十位中有八个是功能词,总比率占整个词符的24.71%,而译语料中高频词前十位中也有八个是功能词,总比率为25.26%。其中前七位高频词,即the, and, of, a, in,to is在源语料和译语料中同时存在。可见,译语料中前十位高频词与源语料有很大相似之处,这也是翻译的成功之处,但功能词的比率高于源语料,从一定程度上反映翻译英语存在 “明晰化”和 “规范化”现象。

通过AntConc的功能,我们再计算出词频在0.10%以上的所有高频词类型和数量。见表4。

表4 高频词的频率统计

表4总结的是源语料与译语料的高频词比率。可以看出,虽然两个语料库的高频词数量相差无几(141:139),但高频词占译语料类符总量的比例(54.48%)高于英语原创语料(52.04%),同样翻译英语语料库的高频词与低频词的比例也高于英语原创语料库(1.1968>1.0850)。(Laviosa的假设基于词尾处理之后的统计数据,本文未计算在内)

综合高频词前十位和词频0.10%之上所有高频词的两项结果,表明旅游文本中英语译文词汇存在“规范化”和“明晰化”特征。

4.连词的使用

连词是语料库中一种语法功能词,其占总词符数的比例,可以反映语料库语法的明晰化程度。我们用AntConc统计出高频词(0.10%)中的连词类型和数量,并计算出比例(见表5)。可以看出,源语料中的高频词连词只有and, as, or, but, when五种, 其合计频率占总词符数4.76%;译语料有and, as ,or, if, when, but, after, so八种连词, 其频率为4.91%。在两个语料库中排在前三位的连词相同,都依次是and ,as ,or。在译语料中还有if, after, so三个高频词,但源语料没有,而源语料中的五个高频连词在译语料中都存在。从以上结果中可以发现,译语料中连词的使用量高于源语料,其句子之间逻辑关系更清晰,所以可以证实翻译英语在旅游语篇中亦有明晰化特征。与前人学者关于英译汉文本中高频与低频词汇的研究结果类似,使得前人的研究成果得以扩大:即明晰化不只是局限英译汉科技类翻译与文学翻译文本[23], 在汉译英文本中也存在,翻译英语在旅游语篇中存在明晰化趋势。

表5 高频连词的使用情况

五、结论

本研究基于英语母语旅游文本语料库和汉译英旅游文本语料库,对两类英语旅游文本的词汇特征分别从词汇密度、平均词长、高频词和高频连词的使用四个方面进行了比较分析。研究发现,“翻译共性”在旅游文本中得到部分体现:在词汇密度和平均词长两个反映“简单化”特征的参数上,翻译英语文本比原创英语文本词汇密度略大,平均词长更长,故本研究没有支持“简单化”特征。其原因是由于英汉思维的差异导致汉语旅游文本本身的特殊性,即汉语旅游文本比英语旅游文本信息量大,内容丰富造成。通过高频词前十位和高频词(0.10%以上)累计比例及高频词与低频词之比,翻译英语高于原创英语,故“规范化”和“明晰化” 特征得到体现。通过高频词连词的使用数量和比例上发现翻译英语比原创英语多,进一步证实翻译英语的 “明晰化”特征。

翻译共性的研究目标是探寻翻译行为的普遍法则和普遍规律,但对于旅游文本这种专门用途语言,由于其本身的特殊性以及受文化等因素影响的复杂性,这种普遍法则和规律可能会打破。 因此,汉译英旅游文本比英语原创旅游文本在词汇使用上更规范、更明晰,更丰富。这种结果可以给长期从事旅游翻译的人员提供启示:在汉英翻译时,对过多的涉及历史典故、神话传说等丰富的文化信息可以采用缩减法,使得英语译文更简洁、更直接,更易于游客接受。

[1]Toury,G. Interlanguage and its manifestations in translation[J].Meta,1979(24):223-231.

[2]Frawley,W.InW.Frawley(ed.).Translation:Literary,Linguistic,and Philosophical Perspectives[C]//Prolegomenon to a theory of translation.London&Toronto: Associated University Presses, 1984.

[3]Baker,M.Corpus Linguistics and Translation Studies. Implications and Applications. In M. Baker, G. Francis & E. Tognini-Bonelli(Eds.), Text and Technology: In Honour of John Sinclair[M]. Amsterdam: John Benjamins,1993:243.

[4]Olohan, M.Introducing Corpora in Translation Studies[M]. London and New York:Routledge,2004.

[5]胡显耀.基于语料库的汉语翻译语体特征多维分析[J].外语教学与研究,2010(6).

[6]Dann,G.The Language of Tourism. A Sociolinguistic Perspective [M].Wallingford: CAB International,1996.

[7]杨惠忠.语料库语言学导论[M].上海:上海外语教育出版社,2002.

[8]Hunston,S.Corpora in Applied Linguistics[M].Cambridge: Cambridge University Press,2002.

[9]Grandin,S.Translating the language of tourism. A corpus based study on the translational tourism English corpus[J]. Social and Behavioral Science,2013.

[10]Baker, M. Corpus-based Translation Studies. The Challenges that Lie Ahead.In H.S mers(Ed.),Terminology,LSP and Translation [M].Amsterdam: John Benjamins,1996.

[11]廖七一.语料库与翻译研究[J].外语教学与研究,2000(5):380-384.

[12]肖忠华,戴光荣.寻求“第三语码”——基于汉语译文语料库的翻译共性研究[J].外语教学与研究,2010(1):52-58.

[13]王立菲, 钱娟.我国学生英语演讲中的语块特点:基于语料库的考察[J].外语学刊,2009(2):115-120.

[14]江进林,许家金. 基于语料库的商务英语语域特征多维分析[J].外语教学与研究, 2015(2):225-236.

[15]李德超,王克非.新型双语旅游语料库的研制和应用[J].现代外语, 2010(1):46-54.

[16]李德超,王克非.平行文本比较模式与旅游文本的英译[J].中国翻译, 2009(4):54-58.

[17]张苇,等.基于自建语料库的旅游英语文体特征类比研究[J].合肥工业大学学报(社会科学版),2015(2):53-59.

[18]王春艳.免费绿色软件Ant Conc在外语教学和研究中的应用[J].外语电化教学,2009(1):45-78.

[19]Stubbs,M.Text and Corpus Analysis [M].London: Blackwell,1996.

[20]王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008 (6):16-21.

[21]丁大刚.旅游英语的语言特点与翻译[M].上海:上海交通大学出版社,2011.

[22]Laviosa, S. The English Comparable Corpus: A Resource and a Methodology. In L. Bowker, M. Cronin, D. Kenny & J. Pearson (Eds.),Unity in Diversity? Current Trends in Translation Studies. Manchester: St. Jerome,1998:534.

[23]Chen,W.Explication Through the Use of Connectives in Translated Chinese: A Corpus-based Study[D].Ph.D.Dissertation.University of Manchester, 2006.

责任编辑 何志玉

Multidimensional Analysis of Lexical Features of English Translation Text on the Basis of Tourism Corpora

LI Yi-hua

(School of Foreign Languages, Chizhou University, Chizhou 247000, Anhui, China)

On the basis of two self-built original corpora, that is, English tourism text corpus and English translation of Chinese tourism text, this paper in combination with the feature of translation universals investigates the lexical features of English translation text and native English text. In the process of investigation, Ant Conc statistical tool and tree tagger are used to figuring out lexical density, the average word-length, the high-frequency words and high-frequency conjunctions. The results suggest that in these two corpora, the English translation text intend to use more high-frequency words and high-frequency conjunctions than native English text; therefore, the English translation text has the clear and normative features. However, the number of lexical density and the average of word-length in the English translation text also bigger than the native English text, which appears to overturn the hypothesis of “simplification”.

tourism text; corpus; lexical features; translation universals

2015-05-30

2013年安徽省教育厅人文社科专项重点项目:“基于跨文化传播的旅游外宣资料的英译研究”(项目编号:SK 2013A125)阶段性成果。

李奕华(1970-),女,安徽潜山人,安徽池州学院副教授、硕士。主要研究方向:应用语言学、语料库语言学。

H195

A

1673-6133(2016)04-0067-06

猜你喜欢

高频词语料语料库
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
《语料库翻译文体学》评介
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法