APP下载

传染病学英汉双语平行语料库建设初探

2020-09-14袁博冯倩马晶郭庞娜郭梦遥

读与写·教师版 2020年7期
关键词:医学英语传染病

袁博 冯倩 马晶 郭庞娜 郭梦遥

摘要:在全球传染病呈上升趋势的背景下,国际间传染病领域的合作与研究显得尤为重要。但有关传染病学的语料库的建设及研究在我国才刚刚起步。因此,本研究旨在丰富传染病学双语语料库存在的空白,同时该库也对“语言+医学”的教学方向起到了辅助作用。本文主要通过传染病学英汉双语平行语料库建库基础与研究背景、建库过程、建库意义及应用、结语四方面来展开讨论。

关键词:平行语料库建设;传染病;医学英语

分类号:G623.31

1.建库基础与研究背景

近年来,全球传染病呈上升趋势。2020年初,我国迎来了一项巨大的传染病挑战,2019-nCov病毒导致的新型冠状病毒肺炎在武汉迅速爆发并蔓延至全国乃至其他国家。此外,近些年爆发的由SARS、MERS和埃博拉病毒引起的传染病也极大的危害了人们的健康。因此,国际间的传染病防控与研究就显得尤为重要。传染病学平行语料库在医学相关领域的科学研究及教学中可以起到重要作用。

通过语料库进行语言研究的方式得到了国际社会的广泛认可。语料库已逐渐运用于学科教学及语言教学等多个领域。语料库主要指经科学取样和加工的大规模电子文本库,借助语料分析工具,研究者能够开展相关的语言理论及语言应用研究。同时,语料库的类型也多种多样,根据不同的研究目的, 语料库可以划分为通用语料库和专用语料库。通用语料库主要针对一般性语料库研究,例如:人民日报分词语料库(NEPD)、英国国家语料库(BNC)等;而专用语料库则是针对某一特定专业领域的语言的研究,例如:中国传媒大学的媒体语言语料库(MLC)和本研究涉及的传染病学语料库等。按照语料的语种,语料库也可以分成单语语料库、双语语料库和多语语料库。按照语料的组织形式,双语语料库可分为平行语料库和可比语料库,前者是指原文文本及其平行对应的译语文本构成的双语语料库,相互间存在“翻译关系”;后者收集的文本是由不同语言的文本或同一种语言不同变体的文本所构成的两个或两个以上的语料库。针对同一主题,如学习者产出的语言与本族语者产生的语言,但相互之间不存在直接的“翻译关系”。其中双语平行语料库是探索同一内容如何用两种语言表达的语料库,它是一种能将源语言文本和其译语文本进行全文检索并对照显示的语料库,可用于译文比较、翻译教学等多个领域。

本研究基于国内外权威医学网站和图书资源, 经过整合编辑处理,旨在建立一个适应传染病学研究和医学英语及翻译教学需求的传染病学英汉双语平行语料库。

2.传染病学英汉双语平行语料库的建设意义

2.1语料库与翻译研究

语料库在翻译领域的应用程度不言而喻,传染病学英汉双语平行语料库的建成会方便译员进行传染病学对语言会议的译前准备工作,同时也会对有关医学文献和新闻的笔译工作者提供相当程度的便利。此外,在翻译研究领域,本库也能够满足译员“语言+专业背景”的现实需求,准译员对专业双语语料库的大量输入, 其专业语言的转换意识也会得到质的飞跃,成为具有扎实专业背景的翻译技术人才,以适应未来的专业翻译环境。

2.2语料库与教学

在北华大学,医学英语的教学及MBBS培训得到了医学院老师们的重视。传染病学英汉双语平行语料库为原始的课堂提供了新的教学方向。基于真实应用场景而产生的语料库,为医学英语教学提供了切实可行的语言事实。并在一定程度上能够对传染病学教材的编写起到辅助作用。

近年来ESP(专门用途英语)课程改革正在一步一步地推进中,教师可通过本库创新传染病学科英语的词汇课和写作课教学模式,以词为“点”进行检索,展开语“面”,根据词频使用和搭配频率,拓展相关词汇和表达,也能作为诊断式语言教学提供系统而准确的依据,为专用英语教学课堂提供新的路径。ESP课程教学借助语料库的功能,通过工具的索引、词表和搭配查询三大基本功能,以数据支撑的形式提供给学生具有代表性、针对性的教学素材。

3.语料库的建设过程

传染病学英汉双语平行语料库的建设总原则是建立一个能够比较全面反映传染病学英汉双语语言事实的语料库。因此,本語料库建库过程分为以下三个步骤:选择语料、采集加工语料、语料勘误及检索语料、最后将加工好的语料导入以形成语料库。

3.1选择语料

在建设的前期要充分考虑语料库的抽样原则,即什么样的语料方为有效语料。此外还要考虑到如何保证样本分布均衡,要兼顾文体特点、时间跨度、语料属性是否全面等问题, 从而使该语料库尽可能具有代表性和可用性。[2] 语料也要有合理的数量比例, 要如实反映近年来传染病领域英语的横向和纵向发展趋势。[3]所以,选择语料是决定一个语料库是否有意义,建成后能否达到预期应用方向的根本步骤。

因此,语料的选择范围被锁定在包括国内外医学科技类网站、WHO官网、国外传染病学期刊(如:《柳叶刀》(LANCET)、《传染病》(Infectious Diseases)等)、国内外传染病学专业书目(如:《医院感染学》、《传染病百科全书》(Encyclopedia of Infectious Diseases)、《传染病学原理与实践》(Principles and Practice of Infectious Diseases)等)以及高校医学专业部分教材在内的专业资料。本研究选取的语料来源均为医学学科的重要文献和资料,语料来源经过学界专家编辑校正,可确保准确无误、专业性强。

3.2采集加工语料

(1)语料的采集与降噪

在采集语料的过程中会遇到一些难以提取处理的语料来源,对于不同的语料来源,本研究也采用了不同的提取方式。

对于来源为纸质材料的语料(下称纸质语料),先扫描所有纸质材料为PDF格式,然后将其转化为可编辑的TXT文档。对于纸质语料,文档的可编辑转化只能通过OCR进行识别,但此方法适用于文本较少,页面较小的语料来源,因为OCR识别需要依赖于手机或电脑等电子设备,受屏幕大小的限制,导致OCR的识别区域有限、识别的清晰度阈值较大。除上述限制,纸质语料还存在一个弊端,就是要保证扫描清晰度可使识别工具阅读,得到足够清晰的PDF是后续步骤开展的关键。

相较于纸质语料,来自于PDF格式或Word文档的语料可以直接采用文档转换进行采集,一种是通过文档转换器转化,然后经过人工降噪,即对转化后的Word文本进行再加工,删除其中存在的背景、图表、空行和附录等对语料库意义不大的内容,使文本内容更加规范,格式保持一致。此方式比纸质语料采集容易很多,也会大大提高语料的采集效率,但也偶然存在乱码和信息缺失等情况。

因此,本研究采用了上述两种方式结合的方法进行语料采集,保证了两者的互补性,也使得语料来源具有丰富性,更加符合建库原则。

(2)语料的对齐与赋码

在语料的加工处理过程中,对齐与赋码是决定语料在具体应用中能否呈现语言事实的关键。对齐后的语料拥有更强的直观性,在实际应用中会达到事半功倍的效果。

笔者项目组先后试用Trados,ABBYYAligner和雪人CAT进行双语对齐处理,但效果均不尽人意。经过多方比较,最终采取“Transmate+Xbench”模式,虽然处理方法较为繁琐,但处理质量高、效果好。

首先,将采集到的“生语料”导入Transmate进行自动对齐。但计算机的自动识别会存在无法避免的错误及乱码情况,这时就需要将自动识别出现的窜行以及语义紧密段的错误合并和分离等情况进行人工干预,经过手动处理的语料得到了进一步的美化,符合了对齐的标准。再将全部处理好的语料导出为tmx格式,然后用Xbench将tmx格式的语料转码为txt格式,然后按语料的分类建立文件夹分别保存。

对齐之后就要对语料赋码,赋码后的语料拥有了更多的语言信息,更广的应用范围和更高的使用价值。赋码语料库主要有三种赋码形式:词性码、语法码和句法码。本研究主要赋予词性码,并采用学届上接受度较高,实际应用效果好的Treetagger软件进行赋码。赋码后的语料由“生语料”变成了“熟语料”(也称赋码语料),熟语料可以通过Keywords Plus等软件进行语料分析等方向。

3.3语料删重及语料检索

借助Ultraedit和Editplus文本处理器对文本进行整理,利用正则表达删去重复语料,再进行人工复核,做好重复语料的清理工作。至此,得到的熟语料就可以用于检索,进行实际应用。

本研究通过对比试用BFSU_Paraconc、CUC_Paraconc和SADU_ParaConc三款平行語料库检索软件,发现本库更加适合后两者进行检索,其优点如下:支持单文档双语语料检索可自动识别双语保存在单文件中的对齐形式,支持多种编码的纯文本语料检索。经过试用,本语料库可以通过检索,快速分析单词使用场景,例如在遇到“epidemic”这个词的时候,通过查询,可得到图1,2所示结果,因篇幅所限,仅列举部分作为举例。

4.结语

在人们开始发现语料库对语言研究的重要性后,语料库研究在中国已经有了很大的进步。与此同时,也难免存在一些问题,比如:语料库的重复性问题、语料库共享化问题等依然亟待解决、针对个别领域(如医学),国内的语料库资源还比较贫乏,在细化的传染病领域更是少之又少。因此,如何让将传染病学与语料库技术结合是本研究重点解决的任务,也希望本语料库的建成能够满足翻译研究和医学英语教学需要,真正发挥现实作用。

参考文献

[1] Hardie Andrew Lars Borin (ed). 2002. Parallel corpora, parallel worlds. Selected papers from a symposium on parallel and comparable corpora at Uppsala University, Sweden, 22–23 April, 1999. Languages in Contrast. International Journal for Contrastive Linguistics,2005,5(2)

[2] 王连柱.医学英语语料库的建库原则探析[J].新乡学院学报(社会科学版),2009,23(04):131-132.

[3] 章国英.专门用途医学英语语料库构建的意义及实践[J].中国医学教育技术,2014,28(02):146-149.

[4] 施称,章国英.医学英语语料库在ESP课程改革中的应用[J].西北医学教育,2015,23(01):129-132.

该文为2019年北华大学外国语学院国家级大学生创新创业项目 【医学传染病学英汉双语平行语料库建设】(项目号:201910201024)的阶段性研究成果。

猜你喜欢

医学英语传染病
儿童秋冬季传染病的预防
中国传染病十年新趋势
医学英语教学平台的设计理念及RSS技术的应用
图式理论在医学英语阅读中的作用
高职院校医学英语教学现状调查及对策分析
过渡试点课医学英语词汇记忆调查
浅析公共英语与医学英语的互相渗透
传染病
宠物可能带来的传染病