APP下载

中央文献翻译语料库采集方法及适用性研究

2022-01-01天津外国语大学朱华

区域治理 2021年21期
关键词:语料术语语料库

天津外国语大学 朱华

一、语料库的定义及发展

在人类语言活动过程中,记录了大量的语言资料。随着国际交往的增多以及全球化的纵深发展,翻译活动的需求急剧增加。在翻译学习、教学和研究过程中,诸多学者和业界人士希望总结和归纳对应的规律,或者对特有语言现象、语言转换及翻译效果进行大规模的评估。因此,需要大量的语言资料,尤其是双语或多语言对应的语言资料。在此背景下,语料库应用和研究逐渐发展和繁荣起来。语料库的形式多种多样,比如从语言对而言,既有单语、也有双语及多语对照语料库;从内容而言,既有通识类也有特定专门用途的领域语料等。随着计算机科技尤其是数据库技术的不断发展进步,语料采集、分析和利用的方法也日新月异。之前大型研究机构才能拥有的软件和工具,也逐渐走进普通研究者和学习者的日常工作中,比如随着CAT工具的推广和应用,几乎所有的翻译学习者都可以利用这些工具和软件建立自己的平行语料库,用于翻译记忆或者研究。

在上述背景下,语料库的内涵和定义也适时发生变化,且对于语料库本身而言,针对用途不同,定义也有所差异。本文主要针对语言研究的语料库,故而采用如下定义:

Corpus n.(pl.corpora) refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.(Rayson, 2008)

整体而言,语料库是指经优化处理过的电子文本集合,可通过计算机辅助工具在库中进行语言研究或者应用研究。

二、语料库的类型及特点

语料库划分标准不同,拥有众多类型。比如,根据研究目的和意义可分为异质型(Heterogeneous)、同质型(Homogeneous)、系统型(Systematic)、专用型(Specialized)等。后两类数据库是目前的主流类型,在语料搜集初期就会有明确的目的以及语料规模大小的控制,整体而言,此类语料库比较平衡和系统,经过严密的搜集原则限制以及过程控制,能够代表某一特定范围内的语言事实,并且会按照既定设计思路,优化分析过程,得到相应的预期结果。最后一类只收集特定用途语料,但范围更精准、导向性更明确(廖七一,2000),适合于小规模,精细化的优良数据分析,或者用于词典编纂、翻译教学、译文效果分析等。

如前文而言,对于语言研究尤其是翻译研究来说,我们可以根据语料库的语种或者语言对的方向,将其分为单语、双语和多语。与此同时,我们又可以按照语料的采集单位,也就是对其文本的规模和大小,将其分为语篇、语句和短语型等。在此基础上,双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等领域,后者将表述同样内容的不同语言文本收集到一起,此类语料库多用于语言对比研究(胡开宝,2012)。

语料库具有真实性、基础性和操控性特征,要求存放的资料必须是实际使用的真实语言材料,具备基础性的特征,另外也要具有加工属性,如对齐、切割、分析和处理等操控和加工后方能成为有用资源(何中清,2011)。除此之外,当代语料库还具有动态性和流通性的属性,语料会及时增加,进行交换甚至是销售等活动。

三、语料库的采集方法

数据库采集最常用的方法是对齐技术(Alignment),通过使用对齐双语或多语语料的软件或工具,做出平行语料库或者对照语料库。前者指库中的两种或多种文本互相是对方的译文,常用于翻译或者机器翻译研究。

传统的语料采集采用的多是人工方式。随着计算机技术的进步及数据库技术的发展,语料采集和分析工具层出不穷,给语言研究带来了切实的便利性。对于翻译工作者而言,语料采集应用的软件主要包括利用CAT工具建立双语或多语平行文本;使用AntConc、Sketch Engine、Tmxmall、语智云帆术语宝等工具进行语料库整理、术语提取和分析等。对于中央文献而言,我们主要的目的是用于双语和多语词典编纂、翻译教学指导以及机器翻译引擎训练等用途,所以平行语料库,即对齐文本类型的语料库同专用语料库的结合更为适合。

在此处着重介绍应用CAT工具进行双语文本对齐,建立双语语料库。在主流的CAT工具如memoQ和Trados中,有一项专门为语料库设计的功能,也就是双语对齐。双语对齐之前,首先需要建立一个翻译记忆库TM,翻译记忆库的主要目的是存储翻译过程中的翻译单元,可以是双语也可以是多语言。从本质来说,翻译记忆库是一种简单形式的语料库,可以作为后续分析使用语料库的基础。打开无论是memoQ还是Trados的双语对齐面板,需要做的就是将原来单语文本分别导入,系统会根据算法自动切割翻译单元,并且会根据翻译单元进行自动匹配,匹配结果的好坏会用不同颜色或者匹配率标注出来。随后语料库制作者需要逐句段确认匹配结果,如果匹配结果没有问题,予以确认并随时存入到库中,如果发现匹配单元不一致,可进行相应调整,常见的作法是切割或合并句段单元,可以进行1:1匹配,可以进行1:n或者n:n匹配。待所有句段匹配完毕后,确认并导入翻译记忆库TM,后续可以根据需要,导出不同格式进行分析或者应用。

上述方法为精细匹配或者专门用途语料库的制作。但在现实应用中,会发现很多已有翻译资产零散存放,或者并不能完全匹配,或者匹配时需要的人工成本较高,这时我们可以使用单语语料库或者混杂类型语料库,比如可以应用memoQ中的LiveDocs功能,此时,我们可以将单语、双语或者混合型资料导入库中,存成语料库格式,在翻译或者研究过程中应用。随着翻译自动化程度的不断提升,我们不仅可以在翻译过程中应用语料库,在翻译教学中演示语料库,也可以根据需求,比如同机器翻译结合,进行自有机器引擎的自适应训练。根据已有语料库类型进行风格化处理,影响机器翻译的结果,从而有效地优化和提升翻译效率和翻译质量。

对于零散语料而言,我们还可以在语料库制作前进行术语提取。术语库TB在语料库建立过程中同样至关重要,对于术语而言,在译前、译中和译后三个阶段都可开展。比如在译前,可以根据算法计算出特定词语出现的频率,在排除掉停用词之后,对该词组赋值,根据赋值大小可以推导出其作为术语的置信度,大大减轻人工成本,且有效提高准确度。在译中和译后过程中同样如此,可将双语文本分别导入术语提取工具,根据频率等进行赋值后优化匹配,后只需译者或者研究者人工确定即可。在此过程中,置信度、赋值、频率均可作为有效的研究目标和数据进行采集或者标注。

总而言之,科技的进步和数据采集方式的优化,让大规模精细化建立语料库成为可能。此外,语料库结果的多元和动态展示,也让结果更直观和鲜明地呈现出来,使整个研究过程的意义得到凸显。

四、中央文献语料库采集应用及适用性研究

语料库建立之后,可以用不同的工具进行分析,如单机版本的AntConc或者在线的Sketch Engine等工具,可进行索引、定位、“N元模式”(N-Gram)、搭配(Collocates)、词 单(Word List)、关键词单(Keyword List)等操作,全方位、多角度调用语料库进行相关分析和研究。

对于中央文献翻译适用性而言,这些重要的文献对党在国际上形象的塑造和话语权的建立具有至关重要的意义。中央文献翻译工作者的初心和使命是阐释好中国理论,传递好中国观念。通过中央文献语料库的采集和建立,可以进一步剖析译者如何理解和践行作为党的声音的传播者、阐释者和劝说者的身份和立场(王丽丽,2018),并且可以通过大规模文本分析以及译文效果分析,对增强政治意识、时代意识、历史意识和效果意识具有重要的意义,此外,根据政治文献的特点采取相应的翻译策略对学生培养也有至关重要的意义。

猜你喜欢

语料术语语料库
面向低资源神经机器翻译的回译方法
《语料库翻译文体学》评介
濒危语言与汉语平行语料库动态构建技术研究
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
英语教学中真实语料的运用