APP下载

巧用标准题录信息校对企业专业术语

2017-07-24张广庆孙旺先岳琪佳

质量探索 2017年2期
关键词:实词分词术语

张广庆,孙旺先,岳琪佳

(1.青岛市标准化研究院,青岛 266071;2.青岛市建筑节能协会,青岛 266071;3.山东省青岛第五十八中学,青岛 266100)

巧用标准题录信息校对企业专业术语

张广庆1,孙旺先2,岳琪佳3

(1.青岛市标准化研究院,青岛 266071;2.青岛市建筑节能协会,青岛 266071;3.山东省青岛第五十八中学,青岛 266100)

外向型企业编写产品说明书或宣传材料常常需要借助术语中英文对照表,但表中术语的中英文翻译是否准确,却没有恰当的判断方法或标准。基于此,本文借助中国国家标准的中英文题录信息,提出了校对企业术语的参考方法,并通过实验检验了校对效果。

术语;标准题录;校对;术语校对库;术语对照表

随着我国市场经济的不断发展和完善,企业经营的国际化和规范化水平正日益提高。据海关统计,2016年我国货物出口总值达到13.84万亿元人民币,越来越多的中国产品走向世界。企业在出口产品和提供服务中经常使用各类专业术语,通常而言,企业会借助翻译公司或科技翻译软件制作专业术语中英文对照表(以下简称术语对照表),实现产品和服务名称的一致化和标准化[1],并依据术语对照表编写说明书和宣传手册,以帮助客户更容易理解这些产品和服务。术语对照表的重要性可见一斑,但表中术语的中英文翻译是否准确,目前却没有恰当的判断方法或标准。基于此,本文介绍如何利用中国国家标准题录中英文信息,来校对、补充和纠正术语对照表的方法,并通过样本术语的校对数据查看实验效果。

1 校对范围及流程

笔者收集整理了中国国家标准约6.1万条(其中,含中英文题录信息的约4.7万条,仅有中文题录信息的约1.4万条),以此为基础构建中国国家标准中英文术语校对库(以下简称术语校对库)。另采集某企业在用的524条术语,组成样本术语对照表。存放这些信息的数据库,则采用常见的关系型数据库SQL Server。

从术语对照表中,选取术语中文词和英文词,同时匹配术语校对库中的标准题录中文名和英文名,匹配成功说明该专业术语翻译正确,称双语匹配;只选取术语中文词,匹配术语校对库中的标准题录中文名,匹配成功的,称中文匹配;只选取术语英文词,匹配术语校对库中的标准题录英文名,匹配成功的,称英文匹配。术语中文词或英文词与术语校对库匹配成功的数量称匹配度。未实现双语匹配的术语,用其他方法改造后再次匹配术语校对库,称二次匹配;每次去除未实现双语匹配的术语,逐一用其他方法改造后,再匹配术语校对库,称累加匹配。

2 校对方法

利用术语校对库校对这些样本术语的方法有:快速法、单词法、实词法、分词法、英文变形法、综合法。

2.1 快速法

使用关系型数据库中模糊查询语句直接匹配术语的方法。结构化查询语言(简称SQL)是关系型数据库中最常用的查询语言,模糊查询语句的格式通常是“SELECT 字段 FROM 表 WHERE某字段 LIKE 条件”,当“条件”使用通配符“%”时,表示模糊查询。如模糊查询含“标准”字样的题录信息时,SQL语句是“SELECT 中文名字段 FROM 国家标准题录表 WHERE 中文名字段LIKE ‘%标准%’”。该方法的缺点是英文匹配不严谨,如“bus”用“%bus%”查询时,含“bush”和“business”的题录信息也会当成查询结果,产生误匹配。但该方法操作简单、查询快,在本文中除单词法外,均使用本法完成初次匹配。

在术语校对库中使用本法,实现双语匹配的术语有143条,中文匹配的术语有238条,英文匹配的术语有225条,能匹配成功(取消重复计数的)的术语总计288条,占全部术语的55.0%,本法匹配成功的术语超过全部术语的一半。匹配度较高的部分术语见表1。

表1 匹配成功的部分术语

2.2 单词法

术语的中文词按照快速法校对,英文词按照单词形式严格匹配标准题录信息的方法。校对方法是先用快速法将能匹配术语中文词和英文词的题录信息全部找出,再从这些题录信息中挑出能按照单词形式匹配术语英文词。在软件程序中,匹配英文单词的简易算法可以采用该英文单词在题录信息的前后字符均不是英文字母的方式。

本法实现双语匹配的术语有119条,中文匹配的术语有238条,英文匹配的术语有190条,能匹配成功的术语总计276条,占全部术语的52.7%。

2.3 实词法

将术语中文词或英文词中的虚词取消,只校对余下的实词的方法。

在中文语法中,词是由语素组成的最小的造句单位,按词性可以分为实词和虚词。实词指有实际意义的词,包括名词、动词、形容词、数词、量词、代词等;虚词是指没有实在意义的词,包括副词、介词、连词、助词、叹词、拟声词等。未能实现匹配成功的术语中文词取消虚词后再校对余下的实词,可以提高校对成功率。如“标定中”在术语校对库中不能匹配,取消虚词“中”,只匹配实词“标定”,快速法的匹配度可以达到52次。

在英文语法中,实词指在句子中独立担任成分,包括名词、动词、形容词、数词、代词、副词等;虚词指不能在句子中独立担任任何成分,包括冠词、介词、连词、感叹词等。同样的,对于不能匹配成功的术语英文词,也可以取消虚词只校对实词。如”beam off”不能匹配成功,取消虚词”off”后,只匹配实词”beam”,快速法的匹配度是90次。

快速法没有实现双语匹配的术语使用本法进行二次匹配,实现双语匹配的术语合计153条,中文匹配的术语合计249条,英文匹配的术语合计243条,能匹配成功的术语总计305条,占全部术语的58.2%。

2.4 分词法

利用分词技术将术语中文词和英文词分解成相互独立的两组或多组,再进行校对的方法。如将“电磁波”分词为“电磁”和“波”,将”Electromagnetic Waves”分词为”Electromagnetic”和”Waves”,形成两组新术语“电磁(Electromagnetic)”和“波(Waves)”。分解后的术语中文词和英文词都能匹配术语校对库中的中英文题录信息,称双语匹配,任一中文分词能匹配中文题录信息的称部分中文匹配,任一英文分词匹配英文题录信息的称部分英文匹配,全部中文分词都能匹配中文题录信息的称全中文匹配,全部英文分词都能匹配英文题录信息的称全英文匹配。对术语进行分词应遵循一些原则,如中文与英文成对分词原则、已校对成功的英文(或中文)优先分词原则、中文分词换位原则等。

快速法没有实现双语匹配的术语使用本法进行二次匹配,采用全分词匹配方式时,实现双语匹配的术语合计178条,全中文匹配的术语合计295条,全英文匹配的术语合计300条,能匹配成功的术语总计368条,占全部术语的70.2%。

采用部分分词匹配方式时,双语匹配术语数量仍为178条,部分中文匹配的术语合计471条,部分英文匹配的术语合计468条,能匹配成功的术语总计506条,占全部术语的96.6%。

2.5 英文变形法

将英文实词的变形词与术语校对库中的英文题录信息进行校对的方法。英文题录信息中的名词有时会以复数形式存在,使用单词法就不能查询到术语英文词,此时应使用术语英文词的复数形式;同样,术语英文词中属于动词的,如果不能匹配成功,则可以使用该动词的第三人称单数、-ing形式、各种时态词(过去时、进行时、完成时)进行二次匹配。该方法对于1个或2个词语组成的术语英文词较为实用,超过3个词语(含3个)的,因组合出来的变形词较多,不再推荐使用本法,本文没有使用本法做样本库的校对实验。

2.6 综合法

将以上方法中的一种或多种方法采用累加匹配的方式,实现术语双语匹配的匹配度最高的方法。除英文变形法外,将其他方法取得的实验结果统计后,本法实现双语匹配的术语合计187条,中文匹配的术语合计473条,英文匹配的术语合计475条,取消重复计数的术语总计511条,占全部术语的97.5%。

表2列出了以上方法的校对结果。可以看出,综合法合成了其它方法的实验结果,达到最高的匹配效果,虽然双语匹配(187条)占全部样本术语的35.7%,没有超过一半,但中文匹配、英文匹配、合计匹配分别达到90.3%、90.7%、97.5%,匹配度非常高,能实现较好的校对效果。单一方法中,分词法的校对效果最好,合计匹配比例可以达到70.2%(全匹配)或96.6%(部分匹配)。

表2 各种方法校对术语样本库的实验结果

没有实现双语匹配仅能实现中文或英文匹配的术语,通过查找对应的英文题录或中文题录信息,可以纠正翻译不准确的术语,或者作为不同科学领域的术语备用词,完善术语对照表。

3 结语

中国国家标准的题录信息作为权威的中英文对照,不仅可以当做查询常用标准的工具,还能满足企业标准人员编制专业术语对照表的需要。使用常规术语翻译方式翻译的专业术语,通过使用国家标准题录信息进行校对和检查,可以达到纠正和完善这些专业术语的效果。结合使用术语类标准中术语的中英文信息,既能丰富标准工作者在术语领域的应用,也可为开发新式术语工具软件提供数据基础[2]。

[1] 金倩.术语应用标准化建设加快步伐——中国标准术语数据库开发正式启动[J].产品安全与召回, 2000,(3):40-40.

[2] 郭剑.术语数据库建设之我见[J].中国科技术语, 2015,17(5):57-60.

Application of Chinese Word Segmentation in Standard Information Retrieval

ZHANG Guang-qing1, SUN Wang-xian2, YUE Qi-jia3
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Qingdao Building Energy Conservation Association, Qingdao, Shandong 266071, China; 3. Qingdao NO.58 High School Shandong Province, Qingdao, Shandong 266100, China)

Export-oriented enterprises often need to use the terms of the English and Chinese comparison table to write product brochures or promotional materials, but the terms of the Chinese and English translation is accurate or not, there is no appropriate method or standard of judgment. Based on this, with the help of China national standards in English bibliographic information, this paper puts forward a reference method for proofreading enterprise terminology, and proves the proofreading effect through the experiment.

term; standard title; proofreading; terminology library; glossary of terms

G254.37

A

1672-6286(2017)02-0042-05

张广庆(1971-),男,山东巨野人。质量高级工程师,本科,主要从事组织机构代码、软件、信息化、标准等领域研究。

猜你喜欢

实词分词术语
分词在英语教学中的妙用
基于大数据分析的初中文言常用实词确定的研究
——以部编版教材为例
结巴分词在词云中的应用
结巴分词在词云中的应用
文言文实词词义推断的基本策略
文言实词50例
文言实词推断法
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
聚焦现在完成进行时