APP下载

层级对应技术在中医汉英电子词典中的应用研究

2020-11-18王萌李涛安王治梅闻永毅

中国科技术语 2020年5期

王萌 李涛安 王治梅 闻永毅

摘 要:在中医走向世界的时代背景下,中医对外传播的进程越来越快。中医翻译在中医药文化“走出去”中起着至关重要的作用,一部能够快速、准确查询中医词汇或术语的电子(在线)词典可以为中医翻译者提供一个便捷的工具,可以更好地推动中医药对外传播。文章对以层级对应技术为核心的中医汉英电子词典的研发进行探索研究,以期为中医电子词典的编纂乃至中医翻译事业的发展做出贡献。

关键词:层级对应技术;中医翻译;汉英电子词典

中图分类号:N04;R277;G255.75 文献标识码:A DOI:10.3969/j.issn.1673-8578.2020.05.002

Abstract: Under the background of Traditional Chinese Medicine (TCM) going out to the world, the transmission process of TCM has become faster and faster. Translation of TCM plays a vital role in the “going out” of TCM culture. An electronic (online) dictionary which can quickly and accurately query TCM vocabulary or terms can provide a convenient tool for TCM translators. This paper focuses on the research and development of TCM ChineseEnglish electronic dictionaries with hierarchical correspondence technology in order to make contributions to the compilation of TCM electronic dictionary and the development of TCM translation.

Keywords: Hierarchical corresponding technique; TCM translation; ChineseEnglish electronic dictionary

习近平总书记提出“深入发掘中医药宝库中的精华,充分发挥中医药的独特优势,推进中医药现代化,推动中医药走向世界”,发展中医、向外推广中医也是中国梦的组成部分。而中医的“走出去”很大程度上依赖于中医翻译,查询词典是翻译过程中必不可少的步骤。

早在1999年,就有人指出现代信息技术使得词典内容、检索方式立体化,多媒体词典集图、文、声、像等不同媒体信息于一身,将词目全面立体地呈现在读者眼前[1]。汉英电子词典无论在内容、检索方式、信息编排、编纂手段等方面都向多样式、多层次的立体化方向靠近[2]国内关于电子词典的研究虽然始于20世纪50、60年代,但在改革开放之后得到了充分重视,80年代后期,中文信息处理领域的专家开始了对机器词典的研究,90年代初面向信息处理的机器词典的。研究正式列入国家七五、八五、九五计划。[3]

如今,随着科学技术的不断进步和互联网的普及,各类电子词典、在线词典甚至在线翻译应运而生(例如有道词典、金山词霸、百度翻译、谷歌翻译等)。王朝晖、余军[4]对“有道翻译”“百度翻译”“谷歌翻译”和“必应翻译”等四大机器翻译引擎的词语翻译质量评估后发现,基于不同知识源的不同机器翻译给出的参考译文各有千秋,最重要的是它们大多没有收录中医专业词汇和术语,所以目前市面上可以用来准确、快捷查询中医术语的电子或在线词典极少。因此,我们尝试开发一款基于层级对应的中医翻译专用词典。此项研究基于2017年大学生创新创业训练计划项目——“层级中医汉英在线词典”项目而展开。

一 设计与實现

1.总体设计

本项目旨在研发一款中医汉英电子(在线)词典,主要是将层级对应技术用于对汉英双语术语词条进行加工,建立一个基本语料库,供用户查询常规型术语,并在此基础上建立一个层级控制系统,再基于一定的层次规则经过短语层次分析器进行分析,从而形成一个动态语料库,可以使基本语料库得到扩充。如图1所示。

2.词典数据库结构设计

词典数据库分为基本语料库和动态语料库。其中,基本语料库主要由人工建立的词库组成。通过相关的编程技术设置标准参数,动态语料库可把符合条件的文本自动扩充至各层级语料库中。

3.词典管理程序设计

运用层级对应技术可合理有序地管理基本语料库以及不断扩充的动态语料库。

4.词典检索(查询)方式设计

此词典将为用户提供多源检索技术,即可使用多种方式进行检索,无论用户搜索词级还是短语级都能够准确无误地检索出相关词条及对应译文。

5.提取汉语和对应译文词条

汉语词条和对应译文词条计划从WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region(WHO版)、International Standard ChineseEnglish Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies(世中联版)、PMPH Terms List (updated 2010-05-18)(人卫版)这三套标准中提取。从实际情况出发,本项目的词条拟定先从PMPH Terms List (updated 2010-05-18) (人卫版)中进行提取。

6.加工词条,建立词库

运用层级对应技术对所收集的汉、英词条进行加工处理,建立词库。

二 层级对应技术及其在词典编纂中的应用

李安兴[5]认为:基于平行语料库的汉英词典编纂研究,要有所创新,就必须发挥语料库信息存储量大、检索便利的优势。为建立一个大容量的语料库,此词典应用了层级对应技术,来合理有序地管理基本语料库以及不断扩充的动态语料库,使之呈现为动态式、增进式的模式,如图2所示。不断扩充的动态语料库展示了一个具有巨大存储量的语料库,且使用多源检索技术可以轻松获得检索结果。

用户输入汉语词条,经过多源检索可进入基本词库,从而输出对应的英语词条。这个基本词库基于层级结构存储方式建立,由层级控制系统包括词级和短语级(短语1级、短语2级、短语3级)控制,也可通过设置参数建立自动扩展系统而自动扩展词库,形成动态词库。以“人参养荣汤——Decoction of Ginseng for Nourishing Vital Energy and Ying”为例,当用户输入“人参”时可出现词级“人参”或“养荣”的对应译文“Ginseng”或“Nourishing Vital Energy and Ying”、短语1级“养荣汤”的对应译文“Decoction for Nourishing Vital Energy and Ying”以及短语2级“人参养荣汤”的对应译文“Decoction of Ginseng for Nourishing Vital Energy and Ying”,如图3所示。

词典编纂所使用的层级对应技术可追溯到Chiang[6]提出的基于层次化短语(hierarchical phrasebased)的翻译系统模型。这种模型最大的优点在于翻译规则能自动从双语对齐语料获得,不需要依赖任何语言学知识。本词典所使用的层级对应技术就是Chiang提出的基于层次化短语的翻译系统模型的一大体现。与层次化短语翻译系统类似,层级对应技术指的是按照一定的规则对中医术语双语语料的词条进行分级(分为词级、短语级),经过加工处理之后可以实现双语在各层级的对应,使用户可以进行多源检索从而获得术语的对应译文。层级对应技术的应用主要体现在层级控制系统和自动扩展系统中。

同时,本项目的词条提取和词库建立的方法是受基于实例的机器翻译方法所启发,基于实例的机器翻译方法是由日本学者长尾真[7](Makoto Nagao)教授于20世纪80年代提出。李沐[8]曾提到这种翻译方法首先利用双语对照文本自动构建知识库或实例库,引入单语语义词典、双语词典,通过类比对源语言句子进行翻译。无须对句子进行复杂的语言分析,可直接利用已有的翻译实例库。

本项目将基于实例的机器翻译方法部分运用到此词典的编纂过程中,但与之最大的不同是,本项目词条的提取和加工处理是人工完成的,而不是自动构建的。其主要操作如下:先从PMPH Terms List (updated 2010-05-18)中提取汉英双语词条,将其输入Microsoft Excel中,运用层级对应技术对词条进行加工,将一个汉语词条分为词级、短语1级、短语2级,然后再给出对应的英语词条(如图3所示),之后把汉语部分和英语译文部分分别保存为两个.txt文件。

在此词典的编纂过程中,我们使用基于实例的机器翻译方法和层级结构存储方式对词条的词级、短语级进行分级处理,建立一个小型的可供查询的双语语料库,如图4所示。在此基础上,通过自主研制开发的专用词典软件(由Wensor闻永毅设计开发)实现词(术语)的查询。

三 后续工作

目前,完成了词条的提取和加工处理,建立了一个小型的语料库(5000词条),成功开发出查词的专用词典软件。下一步我们将在此基础上,将互联网技术和层级对应技术相结合,运用到中医术语语料库及中医网络词典的构建中,将此词典升级为网络(在线)电子词典。为完善和推广本项目所研发的词典,后续还需做以下工作:

1.詞典上线工作

与相关技术人员合作开发现有电子词典(应用程序)的PC端和手机端软件。

2.宣传与推广工作

做好宣传与推广工作,扩大这款词典的使用范围。目前这款词典由于缺乏良好的宣传与推广,仍处于小范围调试阶段,尚不能大范围进行试用。

3.词库扩充工作

后续还需整理其他现存双语术语词条,主要是两套国际标准术语,即WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region (WHO版) 和 International Standard Chinese-English Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies (世中联版)。这两套标准是目前国际认可度较高的中医术语翻译标准。谭耿耿、方刚[9]在对中医术语翻译渠道评估后提出,现代术语检索渠道的可靠性取决于术语翻译的收集来源和翻译技术的发展。目前,尚无线上词典收录两部国际标准,为了保证此词典的专业性、科学性、先进性,有必要把两套国际标准纳入词库。

4.词库升级工作

现存词库有一定的缺陷,对于一些比较长且不能分割的中医术语的查找来说具有局限性。此外,动态语料库的建设需要通过编程技术设置标准参数来完善。

四 结 语

此项目将层级对应技术应用到中医汉英电子(在线)词典的编纂中,运用层级结构存储方式对词条进行加工处理后,建立了词库(基本语料库),并且已经研发出一款可以用来查询中医术语对应英文的应用软件,下一步我们将扩大词库中的词条数量,完善动态语料库,在大量语料库的基础上与互联网技术相结合,将此词典升级为中医网络电子词典。

参考文献

[1] 纪大庆.浅论现代信息技术对语文词典编纂的影响[J].辞书研究,1999(2):75-80.

[2] 廖海宏.试论现行汉英电子词典的分类与性能特征[J].广东广播电视大学学报,2004(1):74-77.

[3] 艾山·吾买尔.多语种—多媒体电子词典资源平台和大型英汉维电子词典的研究和实现[D].乌鲁木齐:新疆大学硕士论文,2007.

[4] 王朝晖,余军.基于 CAT 及语料库技术的电子商务翻译研究[M].厦门:厦门大学出版社,2016.

[5] 李安兴.关于汉英词典编纂方法与理论创新问题的思考[J].中国出版,2010(24):42-45.

[6] Chiang D. Hierarchical PhraseBased Translation.[J].Computational Linguistics,2007,33(2):201-228,42-45.

[7] Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle [M]//Readings in Machine Translation Cambridge: MIT Press, 1984:352-354.

[8] 李沐.机器翻译[M].北京:高等教育出版社,2018.

[9] 谭耿耿,方刚.中医名词翻译术语检索渠道评估[J].传播力研究,2019(18):205-206.