APP下载

第七届全国机器翻译研讨会机器翻译评测总结

2012-06-28赵红梅吕雅娟贲国生

中文信息学报 2012年1期
关键词:汉英评测英汉

赵红梅,吕雅娟,贲国生,黄 云,刘 群

(中国科学院 计算技术研究所 中国科学院 智能信息处理重点实验室,北京 100190)

1 概述

中国中文信息学会主办的第七届全国机器翻译研讨会(CWMT2011)于2011年9月23~24日在厦门召开。为了全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,按照惯例,本届机器翻译研讨会继续组织了统一的机器翻译评测,以推进参评单位的实质性交流和机器翻译技术的发展。

本次评测由中国科学院计算技术研究所组织,评测重点关注各种语言(包括我国蒙古族、藏族、维吾尔族、哈萨克族、柯尔克孜族的民族语言)到汉语的翻译,评测共包含7个语言对,9个评测项目和4个评测领域(新闻、科技、政府文献和日常用语)。在汉英—英汉新闻方向的评测中,除了英汉新闻的当前(current)评测外,还设置了英汉和汉英新闻的进展(progress)评测。

本次评测采用以下流程:通过网络,评测组织方在评测前一个月向参评单位提供评测训练语料和开发语料,评测时再统一发放测试语料,参评单位在测试语料发放后约三天之内提交系统翻译结果,组织方对翻译结果进行统一测评后,向所有参评单位公布评测结果。

此次评测主要的自动评测指标为BLEU-SBP(Chiang et al.,2008),在汉英方向还采用了WoodPecker评测(Zhou et al.,2008)。

本次评测吸引了国内外19家教育科研机构和企业单位参加,在9个评测项目上共提交了165个系统的翻译结果。为了加强技术交流的效果,评测要求每个参评单位撰写一份评测技术报告。技术上有特点的参评单位在CWMT2011研讨会上就本单位的评测技术情况进行了口头报告。另外,研讨会还设置了评测的海报展示环节,每个参评单位都以海报的形式展示了自己参评系统的技术情况。评测组织方的总结报告(包括各参评单位主系统的系统描述)、各参评单位的技术报告以及研讨会录用的其它论文都被收录进研讨会的论文集并发放给大家。

本次评测在语料提供方面得到了新疆大学等多家单位(详细语料提供单位参见表4.1和表4.2)的鼎立支持。多名业内专家在评测准备会上为CWMT2011评测提出了很多很好的设想和建议。

本文给出了此次评测的组织准备过程、评测结果和分析。文中将列出所有参评单位的名称,但在评测结果中,不会给出对应的单位名称,而是代之以单位的匿名代号。

本文内容仅供研究使用,可以在研究论文中引用,但不可用于任何出于商业目的的宣传活动。在研究论文中引用时,如果没有得到其他单位的许可,不得公开其他单位的评测结果。

2 评测项目

CWMT2011评测项目的设置如表2.1所示。

表2.1 CWMT2011评测项目

本次评测共设置了9个评测项目,涉及到7个语言对,4个评测领域(新闻、科技、政府文献和日常用语)。与往届评测不同的是,本次评测重点关注了各种语言到汉语的翻译,除了汉英、英汉、日汉三个曾经评测过的语言对以外,评测首次增加了民族语言(藏语、蒙语、维语、哈萨克语、柯尔克孜语)到汉语的翻译评测。在汉英—英汉新闻方向的评测中,除了英汉新闻的当前(current)评测外,还设置了英汉和汉英新闻的进展(progress)评测。

3 参评单位和系统

本次评测共有19个单位报名参加,其中国内单位15家,国外单位4家,教育和科研机构16家,企业单位3家。参评单位名单如下:

CNGL,School of Computing,Dublin City University

NTT Communication Science Laboratories

SYSTRAN Software,Inc.

北京航空航天大学计算机学院智能所

北京交通大学

东北大学自然语言处理实验室

富士通研究开发中心有限公司

哈尔滨工业大学机器智能与翻译研究室

内蒙古师范大学

南京大学

西安理工大学

厦门大学

新疆大学

中国科学技术信息研究所

中国科学院合肥物质科学研究院智能机械研究所

中国科学院计算技术研究所智能信息重点实验室

中国科学院软件研究所基础软件国家工程研究中心

中国科学院新疆理化技术研究所

中国科学院自动化研究所

19家单位在9个不同的项目和语言方向共提交了165个系统的翻译结果。表3.1给出了本次评测每个项目的参评单位和系统的数量。

表3.1 参评单位和系统数量

4 评测组织

4.1 评测方法

评测采用目前国际上普遍采用的评测方式:由评测的组织方提供训练和测试数据,参评单位在给定时间内返回翻译结果,再由评测组织方进行评价。

所有评测项目都是对译文质量进行评测,采用自动评测方法。主要评测指标为BLEU-SBP (Chiang et al.,2008),其他自动评测指标包括:BLEU、NIST、GTM、mWER、mPER、ICT,汉英方向还采用了Woodpecker评测 (Zhou et al.,2008)。自动评测的算法(包括WoodPecker)都是大小写敏感的,中文的评测是基于字的,而不是基于词的。

对于每个评测项目,参评单位必须提交一个基本结果(Primary Result),最多可以提交三个对比结果(Contrast Results)。产生基本结果的系统称为参评单位的基本系统或主系统(Primary System),产生对比结果的系统称为参评单位的对比系统(Contrast System)。基本系统中,对于采用基于实例的机器翻译技术或者统计机器翻译技术实现的模块或系统,所使用的训练数据必须限制在评测组织方指定的数据范围之内,不允许使用任何外部数据;对于采用基于规则的机器翻译技术实现的模块或系统,允许采用通过人工方式构造的翻译知识(例如,规则、模板、词典等),但是要在系统描述和技术报告中对于所使用的翻译知识的规模、构造和使用方式等进行说明。对比系统则可以使用任何数据进行训练。参评系统也可以采用系统融合技术,但要求在系统描述中进行明确说明,并在技术报告中给出系统融合前单系统的运行结果。评测组织方在发布评测结果时,也会对采用了系统融合技术的系统进行标注。

4.2 测试数据准备

本次机器翻译的评测语料涉及8个语言方向(汉英、英汉、日汉、蒙汉、藏汉、维汉、哈汉和柯汉)、4个领域(新闻、科技、政府文献和日常用语)。根据国外相关评测及具体分析,我们制订了相应的语料规模。在评测中输入输出文件均采用UTF-8编码(有BOM)以及严格的XML格式。

训练语料中,英文单语语料为路透社的RCV1语料,汉语单语语料为搜狗实验室的搜狗全网新闻语料库SogouCA,双语语料情况见表4.1;开发和测试语料情况见表4.2。

测试语料包括真实测试集及干扰集两部分,干扰集的结果在评判时被舍弃。

所有开发集和测试集均为一份原文、四份参考答案。每份参考答案的原始文本均由四名经验丰富的专业翻译人员各自独立翻译而成。

表4.2 CWMT2011机器翻译评测开发集和测试集情况

为了了解各参评单位的系统进步情况,今年汉英新闻和英汉新闻方向均设置了进展(progress)项目(使用的是CWMT2009的评测语料),另外,英汉新闻方向还设置了当前(current)项目(使用的是2011年新制作的语料),我们在评测结果中对比了进展项目中两年评测的系统变化情况。另外,在汉英新闻方向,我们继续进行了WoodPecker评测,该评测全部采用CWMT2009中WoodPecker评测的测试数据和相关参数。有关WoodPecker评测的详细情况,请参见CWMT2009机器翻译评测报告,该评测报告以及计算所组织的历届全国机器翻译评测的相关资料可参考以下评测网页及相关链接:

http://nlp.ict.ac.cn/new/CWMT/index.php

本次评测中所有项目的参考译文均不提供给参评单位,而是留到下次评测时继续使用,以便了解各参评单位在这一段时间间隔内的技术进步。在参评单位提交评测结果之后、研讨会开始之前这段时间,我们向各参评单位开放了在线评测打分网站,供参评单位进行机器翻译实验时打分使用。

4.3 评测流程

本次CWMT评测采用了网上评测的方式,表4.3 给出了此次评测的流程。

表4.3 CWMT2011评测流程

续表

5 评测结果与分析

本节给出各评测项目主系统在主要评测指标BLEU-SBP上的评测结果,并对评测结果进行了分析。我们在BLEU-SBP的基础上,针对各主系统的翻译结果,进行了结果之间差异的显著性检验——符号检验(Collins et al.,2005),总的做法是:分别以每个主系统为基准系统,测试了所有其他主系统与基准系统结果差异的显著性程度,以此构造了所有主系统翻译结果的差异显著性矩阵,因篇幅有限,本文仅显示汉英新闻进展(progress)评测的差异显著性结果(图1)。详细的评测结果参见CWMT2011机器翻译评测报告(http://nlp.ict.ac.cn/new/CWMT/CWMT2011.php)。

在下面评测结果的图表中,横坐标是该项目各参评单位提交的主系统(用各单位代号来表示),纵坐标是主要评测指标的得分。横坐标中出现的“◆”代表其左边的系统采用了系统融合技术。

5.1 汉英新闻(progress)

图1 CWMT2011汉英新闻(progress)评测结果

表5.1.1 汉英新闻(progress)各主系统2009年与2011年评测结果对比

表5.1.2 汉英新闻(progress)各主系统BLEU4-SBP差异显著性检验结果表(显著标志●,不显著标志○,p<0.05)

分析:从表5.1.1中可以看出,既参加了CWMT2009又参加了CWMT2011汉英新闻评测的单位中,有一半单位的成绩有所提高,例如S5的BLEU-SBP值提升了2.3个百分点,有一半单位因各种缘故成绩有所下降。总的来说,参加评测的汉英新闻评测系统的差异性不大,排在第1名和第9名的系统的BLEU-SBP值的差异只有3个百分点,很多系统间的差异性不显著(表5.1.2)。从评测报告和评测结果来看,绝大多数参评单位采用的汉英机器翻译技术差异不大,各单位系统之间的差距在逐渐缩小。

5.2 英汉新闻

表5.2.1 英汉新闻(progress)各主系统2009年与2011年评测结果对比

分析:从表5.2.1可以看出,在进展(progress)项目中,与2009年相比,2011年英汉新闻领域的BLEU值除个别单位(S7)略有下降外,其他四个单位均有提高。当前(current)项目的评测结果中,横坐标上,除了前两个单位和后两个单位外,中间单位的BLEU值差异基本上不明显(详情可参考CWMT2011评测报告中的显著性检验结果,如图2、图3所示)。

图2 CWMT2011英汉新闻(progress)评测结果(BLEU5-SBP)

图3 WMT2011英汉新闻(current)评测结果(BLEU5-SBP)

5.3 英汉科技

图4 CWMT2011英汉科技评测结果(BLEU5-SBP)

分析:从图4可以看出,英汉科技领域的BLEU值比较高,这可能与领域比较集中(主要集中在计算机和通讯两个领域),测试集与开发集、训练集的语料内容比较一致,训练语料规模比较大(表4.1)有关。

5.4 日汉新闻

图5 CWMT2011日汉新闻评测结果(BLEU5-SBP)

分析:从上图可以看出,日汉新闻领域的BLEU值比较高,各系统间的差异比较显著。此次日汉新闻项目提供的训练语料规模比较大,但内容比较庞杂,与开发集和测试集语料(内容都集中在新闻领域)的相似度并不高,然而,笔者通过对比原文和参考译文发现:日文和中文这两种语言的相似程度非常高,这可能是该项目BLEU值较高的主要原因。

例如,原文:国家開発銀行が今回香港で発行したCDは、主に機関投資家を対象としたもので、個人投資家は購入できない。

参考译文之一:中国开发银行这次在香港发行的CD,主要以集团投资家为对象,个人投资家不得购入。

5.5 藏汉政府文献和蒙汉日常用语

分析:

从图6可以看出,藏汉政府文献领域的BLEU值很高,各系统间的差异很显著。我们分析BLEU值偏高的原因,发现:1)评测语料主要来源于政府文献,领域相对集中,固定表达多,且使用频率高;2)相对于其它民语来说,训练语料较多(表4.1)。这两个原因有可能是藏汉政府文献BLEU值偏高的主要原因。

从图7可以看出,蒙汉日常用语领域的BLEU值很低,各系统间的差异不太显著。我们考察了一下各参评单位提交的翻译结果,从翻译质量上来看,各个系统还很不成熟,译文中漏译现象比较严重,命名实体普遍没有翻译出来,译文长度偏短。

5.6 维汉新闻

图8 CWMT2011维汉新闻评测结果(BLEU5-SBP)

分析:从图8可以看出,维汉新闻领域的BLEU值较高,各系统间的差异比较显著。我们考察了评测语料及翻译结果,发现和藏汉政府文献翻译的情形类似,维汉新闻的测试语料和训练语料主要来源于中国政府发布的官方新闻,领域比较集中,固定表达多且使用频率高,而且测试语料与训练语料相似程度高,从而导致系统译文的质量比较好,BLEU值比较高。

5.7 哈汉和柯汉新闻

分析:从图9和图10可以看出,哈汉和柯汉新闻领域的BLEU值也比较高,各系统间的差异不太显著。与维汉新闻翻译的情形类似,哈汉新闻和柯汉新闻的测试语料和训练语料主要来源于中国政府发布的官方新闻,而且测试语料与训练语料相似程度比较高,所以得分较高,而且柯汉新闻更有相当一部分(超过1/3)的测试语料和训练语料来源于政府颁布的一些法规和条例,领域更加集中,这也许可以说明为什么柯汉新闻的翻译效果更好。

5.8 各评测项目情况对比及总体分析

图11 CWMT2011各评测项目对比

图10横坐标中从左至右分别对应着表2.1中从上到下九个评测项目,其中英汉新闻包括两个子项目:英汉新p代表进展(progress)项目,英汉新c代表当前(current)项目。纵坐标为BLEU-SBP的数值,其中汉英的评测指标是BLEU4-SBP,其他是BLEU5-SBP。

总的来看,评测BLEU-SBP得分比较高的项目有:臧汉政府文献、维汉新闻、日汉新闻、柯汉新闻、英汉科技和哈汉新闻;评测得分比较低的项目有:汉英新闻和蒙汉新闻。

通过对参评系统所采用的技术以及翻译结果的分析,我们发现:

1)统计机器翻译技术在本次参评的系统中占主流地位。参评系统绝大多数采用了统计机器翻译技术(66个主系统中有62个采用的是纯统计机器翻译技术)。与以往相比,本次评测更多单位采用了基于句法的统计机器翻译模型(包括基于形式句法的层次短语模型),这表明更多的单位掌握了这项技术。

2)规则和统计相结合的系统在评测中表现出一定的优势。参评系统中只有少量系统(4个主系统)结合了规则式方法和统计式方法,但是均取得了不错的效果。例如,S18采用的是在比较成熟的规则式系统的翻译结果上运用统计式方法进行后编辑,在汉英新闻的评测项目中其BLEU值排名第一;S11采用的方法是,在基于统计和基于规则这两类机器翻译多引擎的翻译输出的基础上,进行系统融合,其在英汉科技领域提交的翻译结果BLEU值排名第一。(另外还有一个单纯的规则系统作为对比系统,在其所在的评测项目组中成绩不太理想。)

3)系统的翻译质量取决于多种因素。总体来说,源语言与目标语言相似程度越高(如日汉新闻),评测的领域越集中,测试语料与训练语料/开发语料的相似程度越高(如藏汉政府文献、维汉新闻、柯汉新闻、英汉科技等),训练语料规模越大(如英汉科技、藏汉政府文献),参评系统采用的技术越先进,参评系统的成熟度越好(包括对一些细节问题的处理,如:对评测语料的前期处理、对翻译结果的译后处理、对命名实体的处理,以及系统开发者的技术熟练程度等),系统表现越好。

6 总结

CWMT2011评测主要侧重于其他语种到汉语的评测,共设立了9个评测项目,其中包括汉英双向的进展性评测,新增了五个语言对的评测,新增的评测主要是民族语言到汉语的评测。此次评测的评测项目和参评单位的数量都位居历届全国机器翻译评测之首。

从评测结果来看,虽然一些项目的语种和领域是参评单位从未接触过的,但不论是从自动评测的结果(BLEU值等)还是从笔者人工考察的译文质量来看,机器翻译的效果都超过了我们的预期,这充分证明了统计式机器翻译技术强大的适应性。但是也存在着一些问题,例如,汉英新闻的翻译,通过进展性评测,我们发现结果喜忧参半(大约有一半单位成绩有所提高,还有大约一半的单位在后退或者止步不前),希望这个问题引起大家的重视。

评测的成绩取决于多种因素,包括源语言与目标语言的相似程度、评测领域的集中程度、测试语料与训练/开发语料的相似程度、训练语料的规模以及参评系统采用的技术和成熟度等。但是评测的结果不是我们评测的真正目的,我们的目的是通过评测这个手段,给大家提供一个技术交流的平台,让大家及时发现问题,跟踪最新的机器翻译技术,互帮互学,共同前进,推动我国机器翻译事业稳步向前发展,最终达到利益大众的目的。

CWMT2011机器翻译评测能得以顺利进行,得益于各同行单位和同仁的大力支持,没有大家在评测语料上的无私奉献和在评测组织上的宝贵意见,这么大规模评测的实施是无法想象的。我们在此对所有为CWMT2011评测提供评测语料、参加CWMT2011评测、关心和支持CWMT2011评测的单位和同仁表示最诚挚的感谢!

CWMT2011研讨会已初步确定了以后CWMT机器翻译评测每隔两年举行一次,下一次机器翻译评测的时间定在2013年,我们热忱地欢迎各同行单位届时踊跃报名参加评测,也期待着各参评单位在CWMT2013中再创佳绩,将我国机器翻译的研究和开发应用推向一个新的高潮!

[1]刘群,赵红梅.第五届全国机器翻译研讨会(CWMT2009)评测报告[R].第五届全国机器翻译研讨会(CWMT2009),2009年10月16~17日,南京.

[2]赵红梅,吕雅娟,贲国生,等.第七届全国机器翻译研讨会(CWMT2011)评测报告[R].第七届全国机器翻译研讨会(CWMT2011),2011年9月23~24日,厦门.

[3]David Chiang,Steve DeNeefe,Yee Seng Chan,et al.2008.Decomposability of translation metrics for improved evaluation and efficient algorithms[C]//Proc.EMNLP 2008,pages 610-619.

[4]Michael Collins,Philipp Koehn,Ivona Kuerová.2005.Clause restructuring for statistical machine translation[C]//Proc.ACL 2005,pages 531-540.

[5]Ming Zhou,Bo Wang,Shujie Liu,et al.2008.Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points[C]//Proc.Coling 2008,pages 1121-1128.

猜你喜欢

汉英评测英汉
从构词词源看英汉时空性差异
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
攻坡新利器,TOKEN VENTOUS评测
核心句理论在英汉视译断句技巧中的应用
汉英中型语文词典义项精细度对比研究
汽车德汉英图解词典(五)
英汉汉英商务口译学习词典编纂原则
汽车德汉英图解词典(一)