APP下载

基于熵模型的英汉人名对齐

2016-05-04刘颖曹项

中文信息学报 2016年3期
关键词:音译词典语料库

刘颖,曹项

(清华大学 中文系,北京 100084)

基于熵模型的英汉人名对齐

刘颖,曹项

(清华大学 中文系,北京 100084)

该文使用熵模型来对中英文双语语料进行人名对齐。熵模型综合利用双语人名词典、双语姓氏词典、词汇对齐概率、中英文人名的共现特征、基于最小编辑距离的音译相似度和基于语音匹配的音译相似度。实验结果表明,基于熵模型的中英文人名对齐在大规模语料库的实验中达到了较好的人名对齐正确率和召回率。我们分析了人名对齐存在的主要错误,并针对主要错误给出了可能的解决方案。

人名对齐;熵模型;音译相似度; 最小编辑距离;词典

1 引言

中英文命名实体对齐尤其是人名的对齐一直是自然语言处理中一个非常重要的课题,它对于机器翻译、跨语言信息检索的发展具有重要作用[1]。

目前,基于双语语料库的命名实体对齐主要有基于音译的方法、基于双语平行语料库的方法和基于双语可比较语料库的方法。

基于音译的统计首先从双语语料库中对齐的命名实体对或双语词典中学习带有概率的音译规律,然后利用学习的知识对新的命名实体进行排序,从而产生最优翻译。基于音译的统计方法把一种语言的命名实体A翻译到另一种语言命名实体B的主要思路是: 首先把命名实体A转换成其发音,然后把A发音转换成B的发音,再把B发音转换成命名实体B。Kevin Knight[2]把英语命名实体翻译成日语的命名实体。首先把英文短语转换成英文发音序列,然后把英文发音序列转换成日文发音序列,再把日文发音序列转换成日文片假名。Bonnie G S[3]改进了文献[2]的方法并把阿拉伯语命名实体翻译成英语。Helen M M[4]建立了英语音节规则、英文音素串与中文拼音音节对应规则和中文拼音生成规则,综合运用词的翻译、二元概率模型和最优搜索从收音机播放的汉语故事中检索英文命名实体。Yaser Al-Onaizan[5]把阿拉伯命名实体翻译成英语,利用英语词概率、英语词发音概率、英语发音转换成阿拉伯书面语的概率以及英语词转换成阿拉伯字符序列的概率。Yuqing Guo[6]把音译过来的汉语人名转换成汉语拼音,然后把汉语拼音转换成相应的英语子音节,再把英语子音节转换成英语人名。Chun-Jen Lee[7]使用音译模型从双语语料库中抽取音译对,该方法不使用语音词典,也不需要人工给出双语词对的语音相似度,模型中的参数值从双语人名列表中自动学习得到。Li Haizhou[8]和Asif Ekbal[9]采用联合信源信道模型(n元音译模型),以因素为基础来计算中英文间的翻译概率。庞薇[10]研发了一种基于WFST加权有限状态转换器的人名翻译系统,以字符串转换和发音转换等为基础进行人名翻译。基于统计的音译方法处理非音译命名实体(例如,Jackie Chan(成龙))有困难,并且准确率较低。

基于平行语料库的统计方法主要从双语语料库对齐的命名实体及上下文统计多个特征,然后综合利用这些特征对齐新的命名实体。一般统计的特征包括: 音译相似度、共现特征、互信息、对齐概率和语义相似度等。Fei Huang[11-12]提出的命名实体翻译模型,把语音相似度和语义相似度相结合。语音相似度是根据表面字符串音译模型来估计,语义相似度是根据上下文向量语义模型来估计。陈怀兴[13]对源语言进行命名实体标注而对目标语言不标注,并利用隐马尔科夫模型来进行命名实体对齐。陈钰枫[14]对汉英双语对齐的句子,分别识别出其中包含的汉英命名实体,再把意译特征、音译特征和共现特征结合到对齐模型中进行命名实体对齐。基于平行的双语语料库统计方法可获得高质量的命名实体翻译,但大规模的双语平行语料库比较缺乏。

目前可利用的非平行双语语料库主要是可比较的双语语料库和两个单语言语料库。可比较的双语语料库指的是互不为翻译但讨论的是相同或相关主题的双语文本。基于可比较的双语语料库统计方法主要利用实体间、实体的上下文以及实体的关系来发现其他实体间的翻译。Jinhan Kim[15-16]从可比较的语料库中抽取命名实体翻译,把跨语言命名实体间的语音相似度、命名实体上下文间的相似度、命名实体间关系的相似度和命名实体关系上下文的相似度结合起来,形成一个整体的图映射方法。Taesung Lee[17]把双语命名实体的种子翻译评分、命名实体的语义关系相似度评分和命名实体的相似文档对的评分结合起来,通过迭代方法抽取命名实体翻译结果。Gae-Won You[18]利用音译相似度从搜索引擎搜索的两个单语语料库抽取命名实体关系图,然后通过确定命名实体关系图中的匹配映射来发现其他命名实体的翻译。张永臣[19]首先利用双语普通词典和词典中的词在语料库中出现的频率选择种子词,然后利用词汇与种子词在双语非平行语料的共现关系建立向量空间,并根据向量相似度来抽取专业领域双语词典。可以获取大规模的非平行双语语料库,但由于两个语料库的实体及实体关系不是严格的一对一关系,导致该种方法的实体翻译准确度不高[20-21]。

由此可见,对命名实体对齐,因命名实体的音译特征比较显著,大部分命名实体翻译中均运用了不同种类的音译模型或音译相似度[22]。但Fei Huang[12]、陈钰枫[14]指出不同类别的实体倾向于不同的对齐形式,人名对齐主要是音译形式,地名和机构名的对齐是意译和音译形式的组合。陈钰枫[14]进一步针对LDC机构发布的汉英双语命名实体语料库(LDC 2005T34)进行统计,发现人名翻译对音译词占100%,地名翻译对音译词占89.4%,机构名翻译对音译词占12.6%。本文在他人研究的基础上,使用熵模型进行英中人名对齐。熵模型综合利用人名词典、姓氏词典、词汇对齐概率、中英文命名实体的共现特征、基于最小编辑距离的音译相似度和基于Metaphone 语音匹配的音译相似度六个特征。本文熵模型的主要特色是综合了音译、统计和词典等三大类适用于人名对齐的特征。每一类特征中又分别采取两种方法来取长补短: 词典特征采用了人名全名词典和常见姓氏词典;统计特征综合了人名共现信息和上下文信息;音译特征运用了基于最小编辑距离的音译相似度和基于Metaphone的音译相似度。词典特征可以有效地对齐常见的中英文人名,同时对语料库中未识别出的人名和识别错误的人名进行补充和修正。音译特征符合了绝大多数中英文人名对是以音译为主的现象,从发音相似角度发现互为翻译的人名。统计特征综合考虑了词语对齐过程中的统计和上下文等信息,两个词的上下文信息越相似,两个词的语义越相近。

本文主要内容安排如下: 第二部分介绍英中人名对齐过程。第三部分介绍熵模型。第四部分介绍实验过程、实验结果、结果分析、错误类型分析和可能的解决方案。最后给出结论。

2 英中人名对齐过程

本文主要探讨由英文人名到中文人名的对齐。基于熵模型的英中人名对齐步骤:

(1) 对英中双语语料库进行标序号处理和拆分。

(2) 对中文进行分词,并对中英文进行人名识别。

采用斯坦福大学命名实体识别程序NER*http://nlp.stanford.edu/software/CRF-NER.shtml对英文人名进行识别。采用中国科学院计算技术研究所研发的ICTCLAS系统*http:// ictclas.nlpir.org/对汉语进行分词和词性标注,同时也会识别出人名命名实体,如nr代表人名、nr1代表汉语姓氏、nr2代表汉语名字、nrj代表日语人名、nrf代表音译人名等。

人名识别可以提高汉语切分、词性标注、词语对齐、句法分析以及机器翻译的准确率。 张华平实现的基于角色标注的中国人名识别提高了ICTCLAS的切分正确率1.41%[23]。本文中人名识别可以提高人名对齐的准确率。

进一步利用人名词典和姓氏词典对NER和ICTCLAS系统识别的结果进行修正和补充。

(3) 从经过处理的中文语句中筛选、提取生成与英文人名相对应的中文人名候选。

英文人名被识别后,对于含两个或三个标注为PERSON(中间不含逗号、顿号等标点符号) 的英文人名,则把它们合并作为一个人名对待。例如,Francis/PERSON Harvey/PERSON可以合并成Francis Harvey/PERSON。对于拼音人名,姓氏首字母一般都大写,名字可能有一个字或多个字。名字为一个字时,名字的拼音首字母大写;名字为多个字时,名字的第一个字首字母大写,第二个字首字母可以大写也可以小写。此外遵照西方传统,有些个别语料中也会把名字放在姓氏的前面。例如,Yang Lijun,Yang LiJun,Yang Li Jun,Yang Li-Jun,Yang Li-jun,Lijun Yang,LiJun Yang,Li Jun Yang,Li-jun Yang,Li-Jun Yang。所有这些情况都合并成一个人名。

中文人名组成规律有“姓+名,姓,名,前缀+姓,姓+后缀,姓+姓+名”等多种情况。对于句子中只出现单独的姓或单独的名,则直接可以与英文的人名对齐。对于“姓+名,前缀+姓,姓+后缀,姓+姓+名”四种情况,则把它们合并作为一个完整的人名与英文的人名对齐。

对于边界识别错误的中文人名,需要进行边界修正。

例如,洛/b 夫/n 乔伊/nrf,/wd 居/v 无/v 定/v 所/q,/wd 被/pbei 控/v 谋杀/vn。/wj

Lovejoy/PERSON,of no fixed abode,was charged with murder.

Lovejoy和“洛夫乔伊”这对人名在中文中只识别对了“乔伊”部分,我们借鉴了蒋龙[20]提出的方法来对人名识别错误的边界进行修正。首先,估计与英文人名相对应的中文人名长度,我们把英文人名进行音节分解,如“Smith史密斯”有“S”,“mi”和“th”三个音节,其对应的中文名字的最大长度应为音节数目3,最小长度应为元音的音节数目1。而Lovejoy的最大长度是4,最小长度是3,我们以识别出来nrf的“乔伊”为中心,向左侧和右侧自动延伸1或2个汉字,从而形成长度为3至4的符合要求的候选词,如“夫乔伊”和“洛夫乔伊”等。

(4) 用GIS算法[24]对熵模型参数进行迭代训练。采用Och开发的YASMET*http://www-i6.informatik.rwth-aachen.de/web/Software/来训练。

(5) 用训练过的熵模型对中文人名的候选词进行排序,从而输出最优的英中人名实体对。

3 熵模型

我们采用熵模型对英汉人名进行对齐。最大熵原理是Jaynes E T[25]提出的,其主要思想是: 在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。Berger Adam L[26]将它应用于自然语言处理中来建立语言模型。熵模型一个最为重要的优点是可以将各种不同信息的知识运用到同一个模型中,从而解决一些相对复杂的问题。目前熵模型已广泛应用于自然语言处理中,比如文本分类、切分和词性标注、词语对齐、短语对齐和机器翻译等,并在这些方面取得了令人满意的结果。英中人名对齐的概率公式为式(1)[27]。

(1)

其中CN是中文人名候选词,EN是英文人名,i为熵模型特征数量,取值范围为1~6,F1到F6为六个特征函数,依次为人名词典、姓氏词典、基于GIZA++的词汇对齐概率、中英文命名实体的共现特征、基于最小编辑距离的音译相似度和基于Metaphone语音匹配的音译相似度。

英中人名对齐的最大熵模型为(2),根据(2),我们可以得到熵值最大的中文人名。

(2)

为了获取熵值最高的n个(记为top-n)结果,我们使用熵模型式(3)。当n=1时,式(3)就是式(2)。

(3)

3.1 人名双语词典

我们通过词典进行匹配查询。

(4)

(1) 常见的通过英文音译的中文人名,约800条,如约翰(John)、史密斯(Smith)等;

(2) 中文知名人士词典及其译文,约200条,如胡锦涛(HuJintao)和贾宝玉(JiaBaoyu)等;

(3) 英文知名人士词典及其译文,约100条,如巴菲特(Buffett)、奥巴马(Obama) 等。

3.2 双语姓氏词典

我们对中文名字的首字进行匹配查询。

(5)

式(5)表示: 如果(CN,EN)的姓出现在双语姓氏词典D2中,则特征函数F2(CN,EN)赋值为1,否则为0。姓氏词典共400多条,例如,赵(Zhao)、王(Wang)和李(Li)等。

3.3 基于GIZA++的词汇对齐概率

GIZA++是GIZA的改良版*http://www-i6.informatik.rwth-aachen.de/web/Software/,采用了IBM公司提出的五个模型和隐马尔科夫模型,可以从句子对齐得到双语词汇对齐的概率。

(6)

其中,P(CN,EN)是根据GIZA++得到的中文翻译候选词CN与英文人名EN对齐的概率,如John—约翰 1;John—时约 5.72726e-08等。GIZA++词汇对齐考虑了词汇之间一对一、一对多和多对一等情况,同时考虑了词汇对齐的位置和语言模型。语言模型中考虑了上下文的情况。

3.4 共现特征

语料库中人名共现特征对于命名实体的识别和对齐也有重要意义。中英文名字在一个中英文句对中的共现次数也可以成为其是否为翻译等价对的特征之一,本文使用的共现频率特征如式(7)所示。

(7)

其中,f(CN,EN)是中英文人名同时在中英句对中共现的次数,f(EN)是英文人名EN在所有双语句对中出现的次数,f(CN)是中文人名CN在所有双语句对中出现的次数。F4(CN,EN)综合了条件概率P(CN|EN)和P(EN|CN)。

3.5 基于最小编辑距离的音译相似度

关于英文人名和中文人名的音译相似度,我们借鉴并改进了Gae-won You[18]的编辑距离。其基本原理就是将中文名字转换成拼音序列,与英文名字的字母序列进行比对,并计算出由中文名字拼音序列转换成英文名字字母序列的编辑距离,由此得出中英文人名从发音角度的相似度概率。

采用式(8)来计算中文名字CN和英文名字EN的发音相似度概率。

(8)

CPY是将CN转换成标准普通话的拼音序列。Num(x)是计算x的字符个数。ED(EN,CPY)是指从EN到CPY的最小编辑操作数量,包括插入、删除及替换等。例如,对中英文名字对“比尔·盖茨 — Bill Gates”,CPY=bi er gai ci,EN=Bill Gates,EN和CPY的最小编辑距离ED是5,最佳的编辑路径是Bill—Bi er,ED为2;Gates—gai ci,ED为3。“比尔·盖茨 — Bill Gates”的发音相似度为1-5/9=0.44。如果英文人名是按照中文拼音直接翻译而来,则其最小编辑距离为0,音译相似度为1。例如,胡锦涛—Hu Jintao,音译相似度为1。如果两个相同长度的名字之间没有任何相同字母,F5=0。而按Gae-won You[18]的公式则为1/2。这是我们对基于最小编辑距离的音译相似度的改进。

另一方面,由于辅音在发音中占据很重要的角色,而元音在发音过程中存在不稳定性[22]。我们也从辅音字母的角度来考察英中人名的相似程度。

3.6 基于语音匹配的音译相似度

Lawrence Philips[28]开发了Metaphone语音匹配系统*http://en.wikipedia.org/wiki/Metaphone,主要通过单词的英文发音对单词进行检索,被广泛应用于英文拼写错误检查中。2009年Metaphone更新了最新版本Metaphone 3,优化了对英文和与英文近似语言的语音解码,同时加强了对美国常见人名姓氏的解码,把准确度从Double Metaphone的89%提高到了Metaphone 3的99%。

Metaphone通常采取16个符号—0、B、F、H、J、K、L、M、N、P、R、S、T、W、X、Y,字符0代表th,X代表sh或ch,元音A、E、I、O、U只有在词首时才被保留,其他情况下删除。

基于Metaphone 语音匹配的音译相似度计算公式为(9)。

(9)

中文名字CN通过拼音转换得到拼音序列CPY,再把拼音序列CPY输入到Metaphone系统中得到结果CPYM字符序列。ENM字符序列则是把英文单词EN直接通过Metaphone系统解码得到的。把中英文名字转换得到的这两串字符序列求交集后得到的字符个数乘2,再除以CPYM与ENM的字符个数之和得出其相似度值。比如史蒂芬·乔布斯(Steve Jobs),转换后的CPYM为XTFN KBS,ENM为STFN JBS,所以ScoreMP(CN,EN)=2×5/(7+7)=0.72。

4 实验与结果分析

4.1 实验语料和评价标准

本文的语料库是一万对英中文双语句对语料库,包括训练语料9 000句对,测试语料1 000句对。其中英文人名的翻译等价对(Colin—柯林)约占59.1%,中文拼音(温家宝—Wen Jiabo)的翻译等价对占32.6%,中英文拼音和译名混合的翻译等价对(成龙—Jackie Chan)约占1.8%,日韩等其他语言中英文人名翻译等价对约占2.4%(福井—Fukui),其他情况约占4.1%。

本文采用正确率(P)、召回率(R)和F值三个指标来对人名对齐进行评价。为了评价熵模型和其特征结合的效果,引入top-n 评价标准。P(top-n)是指经排序后的前n个中文人名候选词中含正确翻译的人名占所有人名对的比例。

4.2 实验结果及分析

我们采用词典和基于GIZA++词汇对齐概率作为我们的对齐基准系统。表1给出了使用熵模型分别在 top-1、top-3和top-6下的正确率,从第二行到第四行分别给出熵模型不同特征及特征组合下的正确率。通过实验,当同时运用六个特征时,式(3)中的权重分别为:1=0.21,2=0.12,3=0.19,4=0.10,5=0.23,6=0.15,此时最大熵模型的正确率最高。

从表1可以看出以下三个规律:

(1) 当top-n中的n相同时,利用词典和GIZA++的英中人名对齐正确率最低,随着特征的增加,正确率逐步增加,同时考虑六个特征的正确率最高。

(2) 当使用的特征相同时,随着top-n中的n增加,正确率也增加。

(3) 把词典、熵模型的各种特征相结合的人名翻译准确率最高。

表2给出了在取不同特征及特征组合下基于最大熵模型的英中人名对齐的正确率、召回率和F值。从表2可以看出,随着特征的增加,正确率、召回率和F值也逐步增加。

表1和表2说明了我们选取的这些特征对于提高英中人名对齐的正确率、召回率和F值是有效的,也就是这些特征对于对齐英中人名确实是有帮助的。英中人名全名词典包含了人名翻译的正确信

表2 基于最大熵的英中人名对齐的P、R和F值(%)

息,是人名对齐的基础。姓氏双语词典可以有效地给出人名中的部分信息,可以用来确定人名的界限,然后再根据英文人名的音节来判断汉语人名的最小和最大长度,从而可以找出中文人名的界限。基于GIZA++的词汇对齐不但考虑了英中文人名互为翻译的概率、人名翻译的位置信息,同时考虑了上下文信息(后一个词汇的对齐与前一个词汇对齐的位置和翻译都是有关系的),这些信息对于判断英中文人名翻译是很有帮助的。基于共现特征不但考虑了给定英文人名的英中人名条件概率,同时考虑了给定中文人名的中英人名条件概率。这个特征对于两者高频共现比较有效。鉴于英中人名绝大多数从发音上都是相似的,音译相似度从两个角度考虑了英中人名的发音相似与否,从人名发音的层面给出了英文人名与中文人名之间存在的内在语言学联系信息。

4.3 英中人名对齐的错误类型分析

英中人名错误主要分四个类型: 语料预处理错误、双语语料中只含有单语言的人名、边界修正后仍存在错误以及熵模型排序错误等。

(1) 预处理错误,主要包括: 切词错误、词性标注错误、人名未被识别出来或人名识别错误等。

例1 该/rz 隐/v 对/p 弟弟/n亚伯/nrf 说/v : /wm “/wyz 我们/rr 到/v 野外/s 去/vf 吧/y。/wj ”/wyy

该句中,“该/rz 隐/v”被切分和标注错误。

例2 人名未被识别出来。

例如,Lady Capulet looked down and stared at Juliet/PERSON in horror.

Capulet这个人名未被识别出来。

例3 人名被识别出错误。

例如,The hostility that many Americans felt toward Freud/LOCATION is real.

英文中Freud被错误地识别成地名。

例4 其他非人名被识别出人名。

例如,Poor/PERSON Ladawn/PERSON is a bleeding heart.

Poor被错误标注成人名。

(2) 双语语料本身不存在人名对齐。英文句子中出现人名,中文句子中没有与之对应的人名,而只出现了代词。或者,中文句子中出现人名,英文中没有与之对应的人名。

例5 我/rr 还/d 会/v 给/p 你/rr 写信/vi 的/ude1。

I’ll write to you again,Laura/PERSON.

中文中没有与Laura相对应的人名。

(3) 通过中文人名识别边界修正后仍然存在错误。

例6 卡布利特/nrf 夫人/n 往/p 下/f 看/v,/wd 然后/c 惊骇/a 地/ude2 凝视/v 茱/x 丽/ag 叶/ng。/wj

中文人名“茱/x 丽/ag 叶/ng”识别错误,同时这三个字都没有被识别成人名用字导致边界修正模块也失效。

(4) 熵模型排序出现错误。

(a) 一小部分英中人名不是根据发音翻译的,并且在双语语料库中出现次数又很少,词典中又未收录该双语人名。英中人名不符合音译规律导致熵模型中的两个音译特征值比较小,频率小导致两个统计特征值很小,未在词典中出现导致两个词典特征为0。从而6个特征的特征值都很小或为0。

例7 如Ayumi Hamasaki—滨崎步,英文是通过日文发音翻译过来,而中文译名却是从日文意译而来。

(b) 从双语语料库中获取的人名翻译与标准不一致。这主要是因为一部分英文人名有多个译文,都是根据发音翻译过来的。例如,Emily根据双语语料的中文翻译是“艾米莉”,而用来计算准确率的翻译是“艾米丽”。

(c) 最大熵排序出现问题。

例8 吉姆/nrf ·/w 贾/nr1 木/ng 许/v 的/ude1 《/wkz 破碎/v 之/uzhi 花/n 》/wky 紧/d 随/v 其/rz 后/f ……。

“贾”字被识别成姓氏nr1,边界修正后提取到了“贾木”“贾木许”“贾木许的”等翻译候选词,但熵模型排序未能将正确翻译 “贾木许”排在首位。

从上所述,导致英中人名对齐错误主要在于汉语切词和词性标注、英中人名识别、人名有多个译名、双语语料不存在人名对齐、人名边界修正错误和熵模型排序等方面存在错误。其中,主要错误在于英语和汉语人名识别错误以及熵模型排序错误。为进一步提高人名对齐正确率和召回率,需要提高中文切词、词性标注和人名识别的正确率。 针对ICTCLAS系统和斯坦福大学命名实体识别程序NER识别的错误人名,采用李中国和刘颖提出的边界模板和局部统计相结合的方法来进一步提高人名识别准确率[29]。对于熵模型排序错误,需进一步增加词典的规模,进一步增加双语语料库的规模,同时利用大规模语料中正确的人名对来自动训练六个特征的权重,使得人名对齐的正确率进一步提高。

4.4 熵模型的优势

(1) 熵模型利用了两种类型的音译特征,更突出了音译特征。这样可以对绝大多数以音译为主的英中人名翻译提供有力的数据支持。我们针对人名来进行对齐,就是因为对于人名、地名和机构名,音译和意译占的比例差距很大,并且不同的双语语料三者所占的比例可能会有所不同。因此应该根据各自不同的规律给出适合三者的不同特征。

(2) 我们首先利用双语人名词典和姓氏词典来进行人名识别后的重新矫正和补充,然后利用双语词典来进行人名对齐。原因在于人名识别是人名对齐的基础,人名识别的准确率高,人名对齐的准确率才有可能高。双语词典对于人名识别的一些错误可以有效地进行改正,对于没有识别出的一些人名和姓氏可以进行适当的补充,从而适当地扩大人名对齐的空间。姓氏列表与根据英文人名音节长度判断的中文人名的最小和最大长度相结合提供了更多中文人名的候选,为进一步利用熵模型中的其他特征提供了比较有效的搜索空间。

(3) 熵模型中利用了六个特征,既有语言学层面的特征(两个词典),也有统计层面的特征(两个统计层面的特征—基于GIZA++的词汇对齐和共现特征),也有与人名对齐紧密联系的两个音译特征。而从我们的实验中可以得出,我们所利用的这些特征对于人名对齐的确都是有帮助的。

(4) 我们综合利用了词典和双语平行语料。词典是人名翻译的基础,尤其对于比较特殊的人名翻译,放在词典中比较有效。根据双语平行语料进行的词语对齐准确率比较高,但大规模的高质量的双语平行语料库比较缺乏。

下一步的工作是构建大规模的高质量的双语平行语料库和从其他角度(例如,网络挖掘)来获取更多的人名翻译。

5 结论

本文提出的基于熵模型的中英文人名对齐,综合了人名词典、姓氏词典、词汇对齐概率、中英文命名实体的共现特征、基于最小编辑距离的音译相似度和基于Metaphone 语音匹配的音译相似度六个特征,达到了较好的人名对齐及翻译效果。把词典、词汇对齐、音译相似度结合起来可以融合每种特征的优势,三种特征结合使得人名翻译准确率最高。本文对实验产生的结果及对齐错误进行了深入的分析,为进一步改进熵模型和提高英中人名对齐正确率奠定基础。

[1] Stephen Wan,Cornelia Verspoor. Automatic English-Chinese Name Transliteration for development of Multilingual Resources [C]//Processings of Coling-ACL 1998 : 1352-1356.

[2] Kevin Knight,Jonathan Graehl.Machine transliteration[J]. Computational Linguistics. 1998,24(4): 599-612.

[3] Bonnie Glover Stalls,Kevin Knight. Translating names and technical terms in Arabic text[C]//Proceedings of the Workshop on Computational Approaches to Semitic Languages.1998: 34-41.

[4] Helen M.meng,Wai-Kit Lo,Berlin Chen et al. Generating phonetic cognates to handle named entities in english-chinese cross-language spoken document retrieval[C]//Proceedings of the Automatic Speech Recognition and Understanding. 2001: 311-314.

[5] Yaser Al-Onaizan,Kevin Knight. Translating named entities using monolingual and bilingual resources[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. 2002: 400-408.

[6] Yuqing Guo,Wang Haifeng. Chinese-to-English Backward Machine Transliteration[C]//Proceedings of the International Joint Conferences on Artificial Intelligence on Nature Language Processing. 2004.

[7] Chun-Jen Lee,Jason S. Chang,Jyh-Shing Roger Jang. Extraction of transliteration pairs from parallel corpora using a statistical transliteration model[J]. Information Sciences. 2006,176(1): 67-90.

[8] Li Haizhou,Zhang Min,Su Jian. A Joint Source-Channel Model for Machine Transliteration[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics. 2004: 21-26.

[9] AsifEkbal,Sudip Kumar Naskar,Sivaji Bandyopadhyay. A Modified Joint Source-Channel Model for Transliteration[C]//Proceedings of the Coling/ACL 2006 Main Conference Poster Sessions.2006: 191-198

[10] 庞薇,徐波.基于多模型融合的人名翻译系统[J].中文信息学报,2009,23(1): 44-49.

[11] Fei Huang,Stephan Vogel,Alex Waibel. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization[C]//Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-language Named Entity Recognition. 15: 9-16.

[12] Fei Huang,Stephan Vogel,Alex Waibel. Improving Named Entity Translation Combining Phonetic and Semantic Similarities[C]//Proceedings of the Human Language Technology Conference and the 3rd Meeting of the North American Chapter of the Association for Computational Linguistics. 2004: 281-288.

[13] 陈怀兴,尹存燕,陈家骏.一种命名实体翻译等价对的抽取方法[J].中文信息学报,2008,22(4): 55-60.

[14] 陈钰枫,宗成庆,苏克毅.汉英双语命名实体识别与对齐的交互式方法[J].计算机学报,2011,34(9): 1688-1696.

[15] Jinhan Kim,Long Jiang,Seung-Won Hwang et al. Mining Entity Translations From Comparable Corpora: a holistic Graph Mapping Approach[C]//Proceedings of the 20th ACM international conference on Information and knowledge management. 2011: 1295-1304

[16] Jinhan Kim,Seung-won Hwang,Long Jiang,Young-In Song,Ming Zhou. Entity Translation Mining from Comparable Corpora: Combining Graph Mapping with Corpus Latent Features[J]. IEEE Trans. Knowl. Data Eng. 2012,25(8): 1787-1800.

[17] Taesung Lee and Seung-won Hwang. Bootstrapping Entity Translation on Weakly Comparable Corpora[C]Proceedings of the The 51st Annual Meeting of the Association for Computational Linguistic. 2013: 4-9.

[18] You Gae-won,Hwang Seung-won,Song Young-in,Jiang Long. Nie Zaiqing. Efficient Entity Translation Mining-A Parallelized Graph Alignment Approach[J]. ACM Transactions on Information Systems. 2012,30(4): 1-23.

[19] 张永臣,孙乐,李飞等.基于Web数据的特定领域双语词典抽取[J].中文信息学报,2006,20(2): 16-23.

[20] 蒋龙,周明,简立峰.利用音译和网络挖掘翻译命名实体[J].中文信息学报,2007,21(1): 23-29

[21] 郭稷,吕雅娟,刘群. 一种有效的基于Web的双语翻译对获取方法[J].中文信息学报,2008,22(6): 103-109

[22] 赵明明,洪宇,姚建民,朱巧明. 基于音译和网络的命名实体翻译方法研究[C]//第六届全国信息检索学术会议论文集. 2010: 357-366

[23] 张华平,刘群.基于角色标注的中国人名自动识别研究[J].计算机学报.2004,Vol.27,No.1: 85-91.

[24] J. N. Darroch,D. Ratcliff. Generalized Iterative Scaling for Log-Linear Models[J]. Annals of Mathematical Statistics. 1972,43(5): 1470-1480.

[25] Jaynes,E.T. Information Theory and Statistical Mechanics[J]. Physical Review.2009,106(4): 620-630.

[26] Berger,Adam L,Stephen A. Della Pietra,Vincent J. Della Pietra. A Maximum Entropy Approach to Natural Language Processing[J]. Computation Linguistic. 1996,22(1): 39-71.

[27] Franz Josef Och,Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C]//Proceedings of the 40th Annual meeting of the Association for Computational Linguistics. 2002: 295-302.

[28] Lawrence Philips. Hanging on the Metaphone[J]. Computer Language. 1990,7(12): 38-45.

[29] 李中国,刘颖. 边界模板和局部统计相结合的中国人名识别[J]. 中文信息学报,2006,20(5): 44-50.

Entropy Based English-Chinese Person Name Alignment

LIU Ying, CAO Xiang

(Department of Chinese Language and Literature, Tsinghua University, Beijing 100084, China)

Entropy model is used to align English-Chinese person name for English-Chinese parallel corpus. The model makes use of person name dictionary, surname dictionary, word alignment probability, co-occurrence feature, transliteration similarity based on minimum edit distance and transliteration similarity based on Metaphone. The experimental results show this method can achieve better precision and recall rate for large parallel corpus. We also investigate the alignment errors in English-Chinese person names and suggest possible solutions.

person name alignment; entropy model; transliteration similarity; minimum edit distance; dictionary

刘颖(1969—),副教授,博士,主要研究领域为自然语言处理。E⁃mail:yingliu@tsinghua.edu.cn曹项(1987—),硕士,主要研究领域为自然语言处理。E⁃mail:yingliu@tsinghua.edu.cn

2014-01-09 定稿日期: 2014-03-28

国家自然科学基金(61171114);教育部自主科研项目(20111081010);教育部回国人员启动项目(20101021603)

1003-0077(2016)03-0052-08

TP391

A

猜你喜欢

音译词典语料库
平行语料库在翻译教学中的应用研究
清末民初音译元素名规范方案用字探析
《语料库翻译文体学》评介
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
谈谈我国传统文化中一些词语的翻译(三)
夏译汉籍中的音译误字
基于字形与语音的音译单元对齐方法
语篇元功能的语料库支撑范式介入