面向翻译管道的术语加工

2019-12-02卡拉·沃伯顿宋楠楠朱波

中国科技术语 2019年5期

卡拉·沃伯顿宋楠楠朱波

摘要：公司跨国经营离不开翻译，翻译质量和速度是获取目标市场份额的关键因素。积极主动地管理术语，包括预处理翻译项目中的关键术语，会产生积极影响。在商业环境中，翻译内容包罗万象，术语来源广泛。以术语提取为基础，采取重用已有词汇的后处理策略，可最大限度提高效率，把术语自动整合到翻译管道中。从语料库中提取用于翻译的术语，导入术语库，用于商业开发。根据工作经验，作者探讨了术语提取的有效方法。

关键词：计算机辅助翻译;术语提取;翻译记忆;词汇;术语;术语数据库

中图分类号：H059;H083 文献标识码：A DOI：10.3969/j.issn.1673-8578.2019.05.003

Processing Terminology for the Translation Pipeline// Kara Warburton，

Translated by SONG Nannan，ZHU Bo

Abstract： Companies must translate their content if they want to operate multinationally. Both quality and speed of translation are key factors in determining market share in the target market. Proactively managing terminology， including pretranslating key terms for a translation project， has beneficial effects on these factors. However， in commercial environments， the volumes of content and required terms are typically large. Therefore， integrating terms into the translation pipeline requires a process that is as automated as possible. Term extraction is the cornerstone of this process， but to maximize efficiency requires a postprocessing strategy that repurposes existing lexical resources. Terms extracted from corpora and subsequently translated should be channeled into the company term base so that they can be leveraged for other purposes. Based on our experiences in one large company， we discussed effective practices for processing extracted terms in this

paper.

Keywords： computerassisted translation （CAT）; term extraction;

translation memory; lexical resources; terminology; term bases

一簡介

产品多元化的大型公司是翻译产业的重要客户。翻译越快，产品面市越早，抢占的市场份额就越大。如今，各大公司都致力于同时上线旗下产品的所有语言版本。提升速度也要保证质量，否则将影响目标市场客户满意度，给公司带来损失。

在压力之下，公司正寻求技术解决方案。哪些工具可减少工作时间，又能保证翻译质量？几十年前，第一种科技工具以计算机辅助翻译（CAT）的形式出现。CAT工具由翻译编辑器和数据库组成，翻译编辑器可查看源句和目标句，数据库保存翻译以便日后重复使用。如今CAT功能日益强大，可用于项目管理、文件管理、术语提取和术语管理等。

虽然CAT转换率更快、一致性更高，但术语数据库（termbase）可获得额外收益。本文将把术语数据库与CAT工具结合，利用术语提取来补充CAT中双语术语的不足。文章将证明术语可以被提取、处理、翻译和重新利用，从而节省商业翻译的时间和成本。

二术语与翻译记忆

大多数CAT工具依赖于翻译记忆（TM）技术，翻译人员不必重新翻译已有句子，节省很多时间。翻译句子时，源句和译文作为一个“翻译单元”存储在数据库中，即TM。每次译者翻译其他句子时，数据库会自动搜寻，看看该句或类似句子是否已存在。如符合，就会显示该句译文，供译者重复使用。历经几十年发展，TM技术已达到“炉火纯青”的地步，目前正寻找获取额外收益的方法。

一些学者认为，术语通常是名词短语（NP），有多种句法功能，如介词补语、主语、直接宾语等。TM针对完整句子运行。查询句子的部分TM，比如搜寻给定术语的翻译，需要大量资源，不切实际。因此，大多数CAT为补充TM，有单独查询术语的功能。许多公司认为有TM就足够，忽略了CAT术语数据库。使用CAT术语数据库，可减少术语使用中的不一致和错误。研究表明，术语错误是译者最常犯的错误之一。

本地化行业标准协会建议在翻译项目之前预处理给定项目的术语，并输入CAT术语数据库中。确保关键术语可自动索引，并预先确定目标的标准译法。双语术语补充TM：译者可同时从TM中看到之前句子译文和术语库中任何匹配的术语。译员如发现TM段之间或TM和术语数据库之间的术语不一致，可实时修复。长此以往，翻译后的新内容和TM会总体改进。

为翻译项目提供预先确定、质量过关的双语术语并不简单。要获得高水平术语，需要采取以下步骤：

（1）获取项目专用语料库;

（2）从语料库中提取术语;

（3）缩减实际术语候选表（清理“噪声”）;

（4）翻译术语;

（5）保留译后术语为将来所用。

每一个步骤都有自己的挑战，本文着重介绍（2）和（3）。

三独立语料库

语料库是进行研究的基础资源，其中存放的是在语言使用中出现过的真实语料，需要经过加工、分析和处理，才能成为有用资源。因此，提供一个合适途径来访问和汇总提取术语的语料库非常重要。许多公司的产品都是零星开发的，生产部门、地理位置、时区和团队各不相同。通常，团队文件保存在本地网络的存储库中，无法轻易进入并提取术语，所需文件也不确定。大型项目有数千个文件，但并不是每个都有用，比如那些不需翻译或重译的文件。当前可直接利用的语料库数量非常有限，这就需要根据需求構建符合要求的独立语料库，以减少问题，提升效率。

四术语提取

由于内容太多，只靠人工提取不切实际，必须借助一些工具。

这些工具主要使用基于统计的方法，基于语法（有时称为基于规则或语言学）的方法，或语法与统计相结合的方法。用统计方法导出所有单词，并注明出现频率。简单的统计方法使用空格建立术语边界，只导出单词单元。复杂的统计方法基于频率，因此可能导出一些多词单元。基于语法的方法利用语法分析器和标记符来识别词汇的形态和语法属性，可以自动归类，考虑句法环境可以更准确地确定术语边界。两者结合的方法是基于语法来准备初始候选词，然后通过统计数据进一步对词频排序。

在产品文本中，经常出现的一个词，无论它是否是传统意义上的“术语”，保持翻译一致性非常重要。比如open和save，它们是软件用户界面的关键选项。传统的术语理论支持名词，可能会忽视动词，因为名词比其他语法范畴更能表达有形的概念。此外，如果是一般词汇，而不是某特定主题领域的词，就不能归类为“术语”，因为传统定义术语是“在特定主题领域指定一般概念”。

如果像open和save这样的单词用多个不同术语表达，可能会对公司形象和产品准确性产生负面影响。事实上，软件广泛使用这些普遍和常见的表达方式表明，有必要将单词的出现频率作为是否纳入“术语”的参考标准。通过观察结果，我们得出结论，频率是术语提取的一个重要因素。

虽然动词是软件用户界面中的关键术语，但通常来说，名词是最常见的形式，能传递更多意义。多词名词性组（以名词为词头的多词术语）非常有价值，不仅是因为许多术语是多词名词性，还因为这种词在目标语言中可以有不同的等价词，词序变化或介词使用很常见。因此，用词性筛选提取名词和动词是有益的，需要一个基于规则的术语提取器。在本文描述的过程中，同时依据频率和词性的混合方法效率最高。

五缩减实际术语候选表

每个术语提取工具都会输出“噪声”，“噪声”是指对当前翻译项目没有帮助的词汇或其他各种字符串。翻译术语列表前，应先去除噪声。本文基于规则来定义噪声。

噪声可以通过以下分类过滤：

（1）通用词汇。它们易于翻译，可以在词典中找到，而且翻译不一致对整体翻译质量几乎没有影响。

（2）不受翻译约束的字符串，如字母数字字符串、标记标签、代码、内部注释等。

（3）重复或同义项（稍后将对此进行解释）。

（4）低频术语，除非它们有一些重要的属性，例如它们是否高度可见（在用户界面或包装材料上等）。

缩减候选表是一个复杂的、多阶段的过程，需要一系列特殊技能。经验表明，完全自动化不切实际，但是，如果没有任何自动化，完全手工也耗时耗力。出于这个原因，我们将缩减过程分解为一系列步骤，其中一些可以自动化。在预翻译对项目有价值的术语时，会产生主观因素。因此，可遵循下列原则：

1.删除通用词汇

从候选表中删除通用词汇可以增加其与翻译项目的相关性。翻译人员可以轻松地翻译这些单词，而且翻译不一致对整体翻译质量几乎没有影响。如果该词在产品中有重要意义则例外，如前面软件用户界面中的单词。通用词汇示例如下：person、page、time、useful

information、correct use、following step。

大多数术语提取工具都可以自动删除虚词（介词、冠词、代词等），所以我们将重点讨论名词和动词。再以软件行业为例，像socks、cookie、mouse、Apple和worm这样的单词具有特殊含义，与字典解释不同，它们需要根据产品进行准确翻译。使用现有单词表作为排除表可能会无意删除这些单词。因此，除非仔细检查过现有排除表，否则不推荐使用。公司可逐步构建自己的通用词汇排除表，这也是我们采用的方法。手动清理时，术语专家每删除一个单词，就自动存储在排除表中，这需要一个程序自动记录删除时的情况。此外，只有在术语专家删除通用词汇时才启用程序，而不是删除其他类型的噪声。否则，该表将被非通用词汇污染，无法在其他需要纯通用词汇列表的应用程序中重新使用。

由于对术语候选词“普遍性”的决定存在主观性，术语专家应定期检查排除表，收回任何可能有价值的术语。此外，由于通用词汇的含义取决于特定领域，在某些情况下排除通用词汇会更精确。

2. 删除专有名词

专有名词应移到单独文件中，因为它们很可能在目标语言中保持未翻译。如果被标注为专有名词，则可以保存在术语表中，以便下游目标语言术语学家能够相应地处理它们。区分普通名词和专有名词需要一个自动词性标注模块。所采取的方法取决于公司中心术语数据库是否允许包含专有名词，因为术语文件最终将被合并到术语数据库中。

3. 删除标记不可译的字串符

有些字符串不用翻译。如软件行业的文件名、编程代码和网站链接之类的机器可读信息。理想情况下，源语料库应该用基于XML索引标记语言编码，比如Darwin信息分类体系结构（DITA）。当源语料库中使用“不翻译”标注时，译员可忽略它们的内容。因此，没有必要在CAT术语数据库中包含这些字符串。

4.过滤前置修饰语

在词汇候选表中，应将具有共同含义的前置修饰语（如first、last、following、correct、next、right、wrong等）从多词单元中删除。比如把next replication 简化为replication，不仅能提供更准确的术语，还可以提高术语在自动检索中的再利用潜力。缩减术语可以和其他复合词搭配，比如last

replication，failed replication。为此，可以创建或从外部获取一组常见的前置修饰语表，在提取过程中自动对应删除。

5.合并近似术语

有些术语仅仅是大小写（如Userid和userid）、连字符（如eCommerce和eCommerce）或者有无空格（如check box和checkbox）的区别，我们将它们称为近似项。有时，候选词的大小写都有效且含义不同（如White House和white

house）。在决定两个术语是否近似时，术语专家需仔细评估，从而删除其中一个或同时保留两者。

CAT术语数据库中不需要近似项。大多数CAT工具的自动索引功能支持模糊查找，如果术语库中没有术语直接匹配，则会自动显示紧密相关的术语。删除近似项可实现部分自动化。编写一个程序，依据公司商定的术语表保留或删除。但是，这种自动化涉及成本，虽节省时间，但可能会误删一些有效术语。在大型项目中，自动化可提高生产率，损失一些有效术语在一定程度上可以接受。

6.删除已翻译术语

先前翻译项目中已翻译术语可减少新项目术语候选表的清理工作。如果译员的CAT工具接入了公司术语库，那么重新翻译已在该术语库中的术语毫无意义。原则上，公司术语数据库中已有术语可以从新候选术语表中删除。这里假设公司术语库中的术语与候选列表中“匹配”术语具有相同含义，否则就需要不同翻译，两者都要保留。如果候选术语和术语库术语都有词性标注，则可以验证两者语法类别是否相同。

确定公司术语数据库中已翻译术语取决于许多因素，包括：

主题领域：如果语料库的主题领域未包含在公司术语库中，则输入的术语与现有术语具有不同含义的可能性更高。

候选术语表大小：当候选表非常大时，目标语言术语学家不可能预翻译所有术语。这时应删除已翻译术语，从而将列表简化为“新”术语，因为至少一些删除的术语在公司术语数据库中具有可接受翻译。

公司术语数据库的翻译数量：与翻译较少的语言相比，有大量翻译语言的匹配术语具有不同含义的风险较低。

从理论上讲，可以考虑用这些因素来制定加权公式，以确定与删除匹配项相关的风险因素。同时，需要进一步研究以确定上述风险因素和公式是否可用于过滤术语候选项。

7.人工进一步整理

完成所有自动步骤后，必须全面清理候选表。删除通用词汇需要在特定步骤中完成，以便可以自动更新通用词汇排除表。我们提到了删除不可翻译的字符串和专有名词，但是，还有清理任务需人工手动改进。

六步骤顺序

这些步骤按以下顺序执行，可最大限度减少人工操作。

（1）删除多词术语中常见的前置修饰语;

（2）删除标注不可译的字符串;

（3）删除已在所有目标语言中翻译的交集词源;

（4）删除同义和近似项;

（5）删除现有排除表中的通用单词;

（6）手動删除其他剩余通用单词;

（7）基于删除项自动更新通用单词排除表;

（8）将专有名词移到单独文件中（基于词性标注和专有名词的排除列表）;

（9）手动删除其他剩余不可译字符串;

（10）手动合并拆分相关复合词;

（11）手动将其他剩余专有名词移动到单独文件中;

（12）删除各种语言的独立翻译术语表。

步骤1～5和7（完全自动化）删除了60%～80%的候选术语，从而减少了人工清理（步骤6、8和9）。统计基于一个包含2000个候选术语的列表，整个过程，包括手动部分，大约需要30分钟，最终得到一个包含100～250个经过验证的词汇列表。

七问题

由于统计方法本身的特点，考量信息较少，只从概率视角来考察词语内部结合强度，进而判断是否是术语，必然造成某些低频术语未被识别;此外，基于统计的方法统计信息有限，忽略了大量语义、句法、词性以及上下文信息，这些信息均对提取术语有很大的帮助。扫描语料库时出现打字和拼写等错误，那么术语候选表将包含这些错误。如果提取时设置一个高频阈值，大多数错误输出时就不会出现。因此，术语提取工具是一种有效的拼写检查工具。术语提取工具把公司术语数据库作为“识别词典”，将公司唯一的术语识别为有效单词，这使得术语提取工具比现有的拼写检查工具更具上下文相关性。

八新术语

如果语料库中有新术语，它们也可能出现在候选术语表中。什么是“新”术语？

在商业环境中，“新”术语是指以前在翻译过程或公司术语数据库中没有考虑到的术语。这种对新术语的解释适用于与术语资源建设有关的专门术语管理，是在现有公司术语数据库中重新使用术语的另一个机会。现有的数据库术语，同样带有词性标注，可以作为“识别表”输入术语提取工具。该工具不像排除表那样排除这些术语，而是使用这个列表来识别已在术语数据库中的语料库术语。这些术语在输出时指定了一个特殊标注。这样，术语专家很容易知道哪些术语是“已知的”，哪些是“新的”，以便进行术语加工。术语专家可以在公司术语数据库中添加可接受的新词，并与产品开发团队一起审查有争议的新词，从而在创建初期进行主动干预。

九翻譯术语并重新利用

最终列表只包含每种语言的新术语（即公司术语数据库中没有翻译的术语），以及词性值和上下文句子等元数据。它们被转换成CAT工具支持的文件格式，然后发送给目标语言术语学家。最终产品是一个翻译后的CAT术语数据库。CAT术语数据库连同要翻译的产品内容一起提供给译员，译员使用TM和术语数据库在CAT工具中翻译。翻译项目完成后，将双语CAT术语数据库导入公司的术语数据库中，如本文所述，在未来的项目中，这些翻译将重复利用。

十迭代改进

近十几年来术语提取方法一直是学者们关注的热点，从双语语言资源中抽取出互为翻译等价对的词语是语言信息处理技术的重要桥梁。提取术语候选表半自动化的清理过程会随着时间推移不断改进。第五节描述了如何筛选术语候选表，未来会越来越自动化。第九节描述了如何重用译后术语。构建专有名词列表（最好在术语数据库中）将迭代改进自动更新的步骤。实践证明，企业特有词典资源可以显著提高词汇提取过程的可行性。

十一结语

本文方法是基于语料库的术语提取和术语标注原则，满足为翻译管道快速提供相关高质量术语的商业需求。文章描述的过程适用于将大量术语丰富的语料库翻译成多种语言的公司，必须仔细权衡一些自动化步骤的误差幅度，以及通过自动化实现的规模经济。这种方法的优点之一是重新利用现有资源，缺点是有些资源语义没有对齐，可能导致处理错误。语料库和术语数据库之间的术语语义对齐需要进一步研究，将风险降到最低，还应该考虑主题字段参数。目前研究以经验性为主，有待实证检验。

参考文献

[1]Ananiadou S， Frantzi K. Statistical Measures for Terminological Extraction＼[R＼]. Working paper of the Department of Computing of ManchesterMetropolitan University， 1995.

[2] Arppe A. Term Extraction from Unrestricted Text ＼[DB/OL＼]. （1995）＼[2012-12-01＼]http：//www2.lingsoft.fi/doc/nptool/termextraction.html.

[3] Cabré M T.TerminologyTheory， Methods and Applications ＼[M＼]. Amsterdam/Philadelphia：John Benjamins Publishing Company， 1998.

[4] Champagne G. The Economic Value of Terminology： An Exploratory Study ＼[EB/OL＼].（2004）＼[2012-12-20＼].Montreal： Guy Champagne Inc.http：//www.termologic.com/EconomicValueTerminology.pdf.

[5] Daille B，Gaussier ， Langé J. Towards Automatic Ext

raction of Monolingual and Bilingual Terminology＼[C＼]// Coling. 94 Proceedings of 15th InternationalConference on Computational Linguistics， 1994（1）：515-521.

[6] Daille B. Qualitative Terminology ExtractionIdentifying Relational Adjectives＼[C＼]// Bourigault D， et al. Recent Advances in Computational Terminology.

Amsterdam/Philadelphia： John Benjamins Publishing Company， 2001：149-166.

[7] Enguehard C， Pantera L. Automatic Natural Acquisition of a Terminology ＼[J＼].Journal of Quantitative Linguistics， 1994， 2（1）： 27-32.

[8] Fang A C， Cao J， Song Y. A New Corpus Resource for Studies in the Syntactic Characteristics of Terminologies in Contemporary English ＼[C/OL＼].（2009）＼[2012-12-10＼]. Proceedings of the 8th International Conference on Terminology and Artificial Intelligence. Toulouse.http：//www.irit.fr/TIA09/thekey/articles/fangcaosong.pdf.

[9] Frantzi K T. Automatic Recognition of MultiWord Terms ＼[D＼]. PhD thesis. ManchesterMetropolitan University， UK， 1998.

[10] Gillam L， Tariq M， Khurshid A. Terminology and the Construction of an Ontology ＼[C＼]// Fidelia I S， Condamines A， Castellvi M. ApplicationDriven Terminology Engineering. Amsterdam/Philadelphia： John Benjamins Publishing Company， 2007（2）：49-73.

[11] Heid U， et al. Term Extraction with Standard Tools for Corpus Exploration. Experience from German ＼[C＼]// TKE 96： Terminology and KnowledgeEngineering. Berlin： Indeks Verlag， 1996：139-150.

[12] Hull D. Software Tools to Support the Construction of Bilingual Terminology Lexicons＼[C＼]// Bourigault D， et al. Recent Advances in Computational Terminology， Amsterdam/Philadelphia：John Benjamins Publishing Company， 2001： 225-244.

[13] ISO 1087-1， quoted from the ISO TC37 Termbase ＼[DB/OL＼]. （2000）＼[2012-12-18＼] .http：//iso.iterm.dk.

[14] Justeson J， Katz S. Technical terminology： somelinguistic properties and an algorithm for identification in text ＼[J＼].Natural Language Engineering，1995， 1 （1）： 9-27.

[15] Nataly K， DePalma D. TheCase for Terminology Management. Common Sense Advisory ＼[EB/OL＼]. （2009）＼[2012-12-20＼].http：//www.commonsenseadvisory.com/Portals/_default/Knowledgebase/ArticleImages/090226_R_terminology_management_Preview.pdf.

[16] LHomme M C. La Terminologie： Principles et Techniques＼[M＼]. Montreal： Les Presses de lUniversité de Montréal， 2004.

[17] LHomme M C， Bowker L. Terminological Relationships and Corpusbased Methods for Discovering Them—an Assessment for Terminographers ＼[C＼]// Bowker L， Lexicography， Terminology， and Translation. TextBased Studies in Honour of Ingrid Meyer， Ottawa： University of OttawaPress， 2006： 67-80.

[18] Lee K， Webster J， Fang A C. eSpatial ML： An EventDriven Spatial Annotation Framework ＼[C＼]// Proceedings of the 24th Pacific Asia Conference on Language， Information and Computation. Sendai， Japan，2010： 223-232.

[19] Li H. Word Frequency Distribution for Electronic Learners English Dictionaries ＼[C＼]// Granger S， Paquot M. eLexicography in the 21st century： New challenges， new applications， LouvainlaNeuve： Cahiersdu CENTAL， Presses Universitaires de Louvain， 2010：203-217.

[20] Li H， Fang A. Age Tagging and Word Frequency for Learners Dictionaries＼[C＼]// Newman J， Rice S， Baayen H， Corpusbased Studies in Language Use， Language Documentation， and Language Learning. Amsterdam： Rodopi Press，

2010：157-177.

[21] Sager J. A Practical Course in Terminology Processing＼[M＼]. Amsterdam/Philadelphia： John Benjamins Publishing Company， 1990.

[22] Warburton K. LISA Terminology Survey Results＼[R＼]. Localization IndustryStandards Association， 2001.

[23] Warburton K. LISA Terminology Management SurveyTerminology Management Practices and Trends＼[R＼] Localization IndustryStandards Association， 2005.

[24] Woyde R. Introduction to SAE J1930. Bridging the Disconnect Between the Engineering， Authoring and Translation Communities＼[EB/OL＼].（2005）＼[2012-12-20＼].LISA Globalization Insider.http：//www.translationdirectory.com/article903.htm.

[25] Zhang X， Fang A. An ATE system based on probabilistic relations between terms and syntactic functions ＼[C/OL＼].（2010）＼[2012-12-24＼].Proceedings of 10th International Conference on Statistical Analysis of Textual Data.http：//lexicometrica.univparis3.fr/jadt/jadt2010/allegati/JADT-2010-1135-1144_155Zhang.pdf.

收稿日期：2019-06-05

基金項目：江苏省研究生教育教学改革课题（JGLX19_019）和南京航空航天大学研究生教育教学改革课题（2018YJXGG19）阶段性成果

作者简介：卡拉·沃伯顿（1963—），女，术语管理学博士，曾任国际商业机器公司（IBM）术语专家、本地化行业标准协会（LISA）术语战略专家。通信方式：

kara@termologic.com。

译者简介：宋楠楠（1994—），女，南京航空航天大学外国语学院2017级硕士研究生，研究方向为英语笔译。通信方式：723203319@qq.com。朱波（1971—），男，南京航空航天大学外国语学院教授，研究方向为翻译学和术语学。通信方式：zhu_bo@126.com。