基于子词的历史典籍术语对齐方法

2016-05-04车超郑晓军

中文信息学报 2016年3期

关键词：音译典籍分词

车超，郑晓军

(1. 大连大学先进设计与智能计算省部共建教育部重点实验室,辽宁大连 116024;2. 大连交通大学机械工程学院，辽宁大连 116028)

基于子词的历史典籍术语对齐方法

车超1，郑晓军2

(1. 大连大学先进设计与智能计算省部共建教育部重点实验室,辽宁大连 116024;2. 大连交通大学机械工程学院，辽宁大连 116028)

由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法，使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题，该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一起出现的字作为子词，使用子词对典籍进行分词，解决了缺少古汉语分词算法的问题。针对典籍术语的多义性，根据典籍术语的音译模式制定音译特征函数，并结合其他特征使用最大熵模型来确定术语的翻译。在《史记》双语平行语料上的实验表明，使用子词的方法远远优于未使用子词的方法，而结合三种特征的最大熵模型能有效的提高术语对齐的准确率。

子词；术语对齐；最大熵模型；音译特征

Sub-Word Based Translation Extraction for Terms in Chinese Historical Classics

1 引言

典籍作为中华民族五千年文明和智慧的结晶，是现代中华文化的源头。将这些优秀的典籍翻译为英文，推广给全世界，是向外传播中华文化，提高中国文化软实力的重要途径。典籍翻译中最耗时和最有挑战性的工作是典籍术语的翻译。在有些情况下，译者高达60%的实际翻译时间花在了术语翻译的查询和研究中。本文研究基于双语语料的历史典籍术语对齐方法，试图自动获取大量术语翻译对，帮助历史典籍的翻译。

历史典籍中的“术语”是指历史典籍中的官职名称、封号、谥号、地名、人名等固定称谓，与现代汉语的命名实体有着相同的特点与性质。因此，本文将历史典籍术语对齐等价为命名实体的对齐问题。基于双语平行语料的对齐方法根据对齐的过程，可以分为两大类: 一类是对称方法[1-3]，这类方法分别在源语言和目标语言中识别出命名实体后，再建立它们之间的对齐关系。另一类方法是非对称的方法[4-7]。只识别出源语言命名实体，然后在目标语言中确定它们的对应关系。由于上述方法都需要对汉语进行分词，而目前的古汉语分词方法较少[8]，古汉语分词的标注语料也较少[9]，导致现有的分词算法无法应用在古汉语分词上。为了避开分词，一种思路是将汉语中的每个字看作一个词[10]，来对齐实体。但这种方法会增加很多候选实体，增加了计算量，忽略掉很多有意义的组合信息。近年来，在分词方法中出现一种基于子词的方法[11-12]，不仅能够有效利用字本身的上下文特征，而且能够有效融合字与词的组合特征。因此，本文将中文分割为“子词”，作为对齐的基本单位，提出一种基于子词的最大熵模型来进行术语对齐。该方法将频繁在一起出现的字抽取出来作为子词，使用子词对古汉语进行切分，保留了字与字的组合信息，解决了缺乏古汉语分词算法的问题。同时，针对典籍术语音译的不同模式制定音译函数，并结合其他特征使用最大熵模型获取术语的翻译对。

2 子词的获取与筛选

本文方法使用的子词分为两字子词和三字子词。三字子词是在两字子词基础上获得的，所以先介绍两字子词的获取。

2.1 两字子词的获取

获取两字子词最常见和最简单的方法是直接选取在一起出现次数较多的字符对作为子词，但这种方法不仅会忽略低频词，而且会造成标记跨越问题。为此，本文采取多种统计信息相结合的方法来获取子词。目前，判断二元关联程度的统计方法主要有: 互信息法、t检验法、χ2检验法和似然假设检验法。互信息法适合衡量二元独立性，而不是依赖性；t检验法的前提是要求字频服从正态分布；χ2检验法对频繁二元组的检验能力较强，但对低频二元组的计算存在偏差[13]；似然假设检验法对低频二元组的检验能力强，但是计算高频二元组时，会出现浮点数溢出的现象。为此，本文对高频字使用χ2检验法判断其是否组成子词，对低频字使用对数似然比的方法判断是否组成子词。

2.2 三字子词的获取与筛选

由于很多两字子词是从同一个三字词中分割得到的，如果只使用两字子词，会把一个完整的术语分为两个词，在后续的术语对齐阶段，对齐模型必须找到这两个词才能对齐成功，增加了对齐模型出错的几率。例如，“未央宫”分割得到“未央”和“央宫”两个子词，这些子词会把“未央宫”分为“未央”和“宫”，对齐模型如果遗漏了其中的一个词会发生对齐错误。如果“未央宫”作为一个词对齐，就比较容易对齐成功。所以我们将首尾相连的子词合在一起组成三字子词，避免对完整术语的分割，提高对齐的准确率。但是上述做法也会引入一些错误的子词。古汉语中有些动词和助词如“曰”、“会”，经常和人名、地名结合在一起使用。使用统计信息获取子词时，这些词会和人名、地名连接在一起组成子词，如“李克曰”、“会垓下”。这些经常与人名、地名一起出现的词，我们称为黏连词。黏连词和术语组成子词，会导致对齐错误，且很难更正。为了避免上述问题的发生，本文对常和人名、地名一起出现的动词和助词进行总结，建立黏连词表，凡是子词中出现黏连词的，都将其从子词列表中删除。

3 历史命名实体对齐模型

3.1 对齐方法的框架

给定双语对齐语料，要抽取中英文术语对的步骤如下:

(1) 将中文句子按子词分割，若句子中包含子词，子词算作一个词，不是子词的字符，每个字符算作一个词，对双语对齐语料进行英文到中文的词对齐。

(2) 在英文句子中识别出英文术语。

(3) 对英文命名实体中的每个单词找到对齐概率大于某一阈值的中文词语作为其对齐的中文词语，将中文词语根据其在句子中出现的位置组成候选术语。

(4) 根据最大熵模型，计算每个候选命名实体的对齐概率值，选取概率最大的候选命名实体作为英文命名实体的对应翻译。

上述(3)中，由于子词包含多个字符，英文术语的不同单词对齐的子词之间有可能有重复的字，所以不能直接用组合子词的方式来构建候选术语翻译。本文根据与源术语中各个单词对齐的词语在目标句子中出现位置来截取字符串作为候选术语翻译，其具体过程为: 假设源术语在句子中的位置为i1到i2，则对应的目标术语在句子中的起始位置为jmin=mini1≤i≤i2{j=ai}，结束位置为jmax=maxi1≤i≤i2{j=ai}，选取jmin到jmax之间的子词组成的短语作为候选术语翻译。

3.2 最大熵模型

(1)

(2)

本文的最大熵模型使用YASMETFS软件包*http: //www-i6.informatik.rwth-aachen.de/web/Software/YASMET.html进行参数训练。

3.3 翻译特征函数

对齐概率是构建命名实体的基础，本文在IBM模型1的基础上构建了词汇对齐特征如式(3)所示。

(3)

其中p(J|I)表示长度为I的术语e对应的目标术语长度为J的概率。该概率应该通过双语术语列表进行统计计算得到。但是目前没有关于历史典籍的术语列表，本文的语料规模太小，一些概率值很难进行平滑。但是我们观察双语平行语料发现，源术语中实词的个数与目标术语中字符个数大体相等，根据此规律，对长度概率的计算方法如式(4)所示。

(4)

其中Len(e)表示e中动词、名词等实词的个数，冠词、介词等停用词不算在其中，有连接符“-”的词算两个词，例如，Len(“the Marquis of Huai-yin”)= 3，其中的”the”,” of”不算，“Huai-yin”算作两个词。

3.4 音译特征函数

历史典籍中很多术语中包含地名、姓氏，而地名、姓氏大多是音译的，所以历史典籍术语翻译中音译现象特别多。历史典籍中的音译方法与现代汉语中的音译方法完全不同。现代汉语中的音译是从英语翻译到汉语，其过程是由英语读音找到近似的汉语拼音，再由汉语拼音转化为汉语。而历史典籍中音译是从汉语翻译到英语，直接由字的汉语拼音作为翻译，如图1所示。

图1 现代汉语命名实体与历史典籍术语的音译过程对比

因为历史典籍中术语的音译过程与现代汉语的巨大不同，不能借用现代汉语的音译特征函数。考虑到历史典籍术语音译一般遵循固定的模式，我们根据固定模式制定音译特征函数。根据对术语翻译的观察，主要有两类音译模式: (1)术语中每个字都翻译为汉语拼音，这种模式多应用于人名或地名的翻译，如(“萧何”，“Hsiao Ho”)；(2)汉语命名实体中某个固定称谓进行意译，其他的字符音译，如(“齐桓公”，“Duke Huan of Ch’i”)。本文使用音译单词在英文术语中的比例作为音译特征值，考虑到第二种音译模式，进行意译的固定称谓，也算作音译。定义音译函数如式(5)所示。

(5)

其中:Len(e)含义如式(4)，Npinyin(c,e)表示英文术语e中含有中文术语c中字符对应汉语拼音的个数，含有“-”的拼音单词算作两个，Ntitle(c)表示中文术语c中含有固定称谓的字符个数，是否含有固定称谓通过查询人工建立的固定称谓列表来判断。

3.5 同现特征函数

由于历史典籍术语的多义性，术语与其翻译不一定有严格的同现关系，但是错误的翻译与术语肯定没有同现关系。所有同现关系虽然不一定能帮助准确识别正确的翻译，但是同现关系肯定能筛选出错误的翻译。本文在定义同现特征时，既要考虑同现次数在中文术语中出现的比例，又要考虑在英文术语中出现的比例，同现特征定义如式(6)所示。

(6)

其中，Fre(c,e)表示中文术语c和英文术语e一起出现的次数，Fre(c)和Fre(e)分别表示中文术语c、英文术语e出现的次数。

4 实验结果及分析

4.1 实验设置

为了验证本文的术语对齐方法，使用《史记》及其美国汉语家Burton Watson的《史记》节译本构建的对齐语料进行术语抽取。我们对《史记》中《秦始皇本纪》《秦本纪》《项羽本纪》《高祖本纪》《吕后本纪》建立包含4144句对的双语对齐语料。由于本文先识别出英文术语再在中文中获取其对应翻译，对绝大部分术语都能找到其翻译，所以本文方法的准确率和召回率相差很小，所以本文只使用准确率作为评测指标，其定义如式(7)所示。

(7)

其中:Ncorrect表示算法翻译正确的术语对个数，Ntranslate表示算法计算出结果的术语对个数。

Burton Watson的《史记》节译本中将所有的术语翻译的首字母为大写，所以在识别英文术语时比较简单，直接把所有大写单词提取出来并进行简单验证就可以作为术语。按照大写规则提取后再经人工筛选，共从英文翻译中提取出641个术语。本文仿照命名实体的分类，将历史典籍术语分为人名、地名、组织名和其他。值得注意的是，我们将官职归为了组织名，因为官职名不具体指某个人，而是表示某个组织的领导，和组织的关系更大，所以把它归为组织名。其他是指除了人名、地名、组织名之外的其他术语，主要包括时间，如“初刻”等。本文各种类型的术语数量如表1所示。

表1 各类型术语的数量

4.2 实验结果及分析

(1) 子词的作用

为了验证子词对术语对齐的作用，本文对使用子词和未使用子词的对齐方法进行了对比。由于同现特征对子词有一定的优化，本文主要对使用翻译特征和音译特征的最大熵模型进行测试。使用与未使用子词的最大熵模型的准确率对比结果如表2所示。

表2 使用与未使用子词的最大熵模型准确率(%)对比

由表2的对比结果可以看出，使用子词后显著地提高了正确率，准确率提高30%左右。在术语的几种类型中，对地名的准确率提高的最多。通过结合表3，我们分析发现，地名中的两个词作为一个搭配出现的可能性更大，容易被作为子词抽取出来，体现出子词的作用。基于子词的方法对其他类型的术语没有提升，主要是因为其他类型的术语在语料中出现的次数较少，同时术语中的两个字作为搭配出现的频率也很少，所以无法作为子词抽取出来。基于子词的方法就不能提高准确率。

为了探讨使用子词能够提高对齐准确率的原因，本文使用子词后将对齐结果由错误更正为正确的术语翻译对抽取部分放在表3中。由表3可以看出，直接使用字来构成术语翻译时，经常会遗失术语中的个别字造成术语翻译错误。尤其是对于字数比较多的中文术语，遗漏的可能性更大。造成这种现象主要原因在于，词汇对齐方法使用多个词的对齐概率乘积作为短语的对齐概率，在词对齐概率较小的情况，一个短语中含有的词越多，短语的对齐概率越小，所以对齐方法倾向于词较少的短语，这就造成了经常遗漏字的现象。基于子词的对齐方法将频繁出现的字放在一起组成子词进行对齐，子词中包含字与字之间的组合信息，减少了遗漏字的现象。

表3 未使用子词方法对齐错误的术语

(2) 各种特征函数的作用

本文选用IBM model 4作为基准方法与本文的最大熵方法进行对比。为了对比各种特征函数的作用，本文在词汇对齐特征的基础上分别加入音译特征和同现特征与基准方法对比，各种特征函数的对齐结果如表4所示。同时，为了比较本文方法与基准方法的不同，将使用三种对齐特征的本文方法与基准方法进行了详细对比，见表5。

表4 各种特征函数的对齐结果(%)

表5 本文方法与基准方法对齐结果对比

由表4的对齐结果可以看出，在使用子词之后，即使作为基准方法的IBM Model 4也达到了将近80%的准确率。从整体来看，使用三种特征的本文方法比基准方法准确率高6%。从表5来看，本文方法在基准方法的基础上修改了65个对齐结果，将其中44个错误结果修改为正确结果，将八个正确结果修改为错误结果，21个结果仍旧是错误的。本文方法修正的结果大部分是正确的，且正确率优于基准方法，这说明三种对齐特征的加入能有效提高对齐效果。

在最大熵模型使用的几种特征函数中，由于人名和地名大量的使用了音译，音译特征对人名和地名的对齐最有效。例如，“General Li”使用词汇对齐特征的结果为“郦将”，因为“郦将军”翻译为“General Li”符合“固定称谓意译+个别字音译”的翻译模式，可以认为是音译。使用音译特征之后，找到了正确的翻译“郦将军”。“Feng Chieh”使用翻译特征的结果为“劫“，使用音译特征之后更正为完整的对齐结果“冯劫”。由以上结果可以看出，音译特征可以帮助补充完整遗失词语的对齐结果。音译特征对组织名的翻译没有任何提升效果，是因为组织名如“the Privy Treasurer”等几乎不使用音译，所以音译特征对组织名的翻译不起作用。

同现特征对组织名的翻译作用最大，这主要是有两个原因造成的。一方面，本文的同现特征是和翻译特征和音译特征结合在一起使用的，很多人名和地名的翻译使用音译特征和同现特征都能找到，所以使用音译特征后，给翻译特征提高准确率的余地很少。而组织名中音译较少，更便于发挥同现特征的作用。另一方面，组织名中含有的词语较多，相比词语较少的人名和地名，同现特征更为明显，同现特征函数的取值更高。例如，“the Excellent Scion”使用词汇对齐和意译特征的对齐结果为“冠军”，由于“卿子”也和“the Excellent Scion”一起出现，所以加入“同现特征”后的对齐结果为“卿子冠军”。

由表4可以看出，所有的对齐特征都未提升其他类型的术语的对齐精度，其他类型的术语一共有三个，对齐错误的有两个，分别是“the Day of Concealment”和“the Wang Sacrifice”，由于这两个短语出现的次数较少，这两个术语在词汇对齐阶段就出现错误，正确中文术语翻译中的有些词语并未出现在候选词语中，所以后续的步骤中，最大熵模型使用什么特征也无法获取正确的中文翻译，其他类型的术语的准确率一直未改变。

5 总结

本文针对历史典籍的术语对齐中存在的问题，提出了一种基于子词的最大熵模型进行术语对齐。该方法使用子词来分割中文句子，解决了没有古汉语分词算法的问题。针对历史典籍术语的多义性，使用包含翻译特征、音译特征和同现特征的最大熵模型进行对齐。在《史记》平行语料上的实验结果表明，基于子词的方法远远优于不使用子词的方法，最大熵模型使用的各种特征对不同类型的术语都有效果。

由实验结果分析可以看出，术语对齐受词对齐结果的影响很大，词对齐结果不正确，后续无法抽取英文正确的翻译。此外，本文双语平行语料的规模较小，获取的历史典籍术语数目不多。所以本文以后的工作，一是要提高词对齐的正确率，二是自动获取更大规模的双语平行语料。

[1] Huang Fei，Vogel Stephan，Waibel Alex. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization[C]//Proceedings of the Workshop on Multilingual and Mixed-language Named Entity Recognition，Sapporo，Japan，2003: 184-192.

[2] 陈钰枫，宗成庆，苏克毅. 汉英双语命名实体识别与对齐的交互式方法[J]. 计算机学报，2010，34(9): 1688-1696.

[3] Yufeng Chen，Chengqing Zong. A Semantic-Specific Model for Chinese Named Entity Translation[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing，Chiang Mai，Thailand，2011: 138-146.

[4] Y. Al-Onaizan，K. Knight. Translating named entities using monolingual and bilingual resources[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics，2002: 400-408.

[5] R.C. Moore. Learning translations of named-entity phrases from parallel corpora[C]//Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics，2003: 259-266.

[6] Chun-J en Lee，Jason S Chang，Jyh-Shing R. Jang. Alignment of bilingual named entities in parallel corpora using statistical models and multiple knowledge sources[J]. ACM Transactions on Asian Language Information Processing (TALIP)，2006，5(2): 121-145.

[7] 陈怀兴，尹存燕，陈家骏. 一种命名实体翻译等价对的抽取方法[J]. 中文信息学报，2008，22(4): 55-60.

[8] 杨志胜，基于字根法的古汉语分词模型[D]. 天津大学硕士学位论文，2007.

[9] 留金腾，宋彦，夏飞. 上古汉语分词及词性标注语料库的构建——以《淮南子》为范例[J]. 中文信息学报，2013，27(6-15).

[10] Donghui Feng，Yajuan Lv，Ming Zhou. A new approach for English-Chinese named entity alignment[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP)，Barcelona，Spain，2004: 372-379.

[11] 赵海，揭春雨. 基于有效子串标注的中文分词[J]. 中文信息学报，2007，21(5): 8-13.

[12] 黄德根，焦世斗，周惠巍. 基于子词的双层 CRFs 中文分词[J]. 计算机研究与发展，2010，(5): 962-968.

[13] 王素格，杨军玲，张武. 自动获取汉语词语搭配[J]. 中文信息学报，2006，(06): 31-37.

[14] Franz Josef Och，Hermann Ney. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics，2002: 295-302.

CHE Chao1,ZHENG Xiaojun2

1. Key Laboratory of Advanced Design and Intelligent Computing(Ministry of Education),Dalian University,Dalian, Liaoning 116024,China;

2. School of Mechanical Engineering,Dalian Jiaotong University,Dalian,Liaoning 116028,China)

It is difficult to extract term translation pairs from the parallel corpus of historical classics due to lack of proper word segmentation for ancient Chinese. In this paper we introduce a term alignment method using maximum entropy model based on sub-words. In our approach,we first extract word pairs as sub-words by chi-square statistics and log-likelihood ratio test, and apply them to segment Chinese. Then we build transliteration features according to the transliteration model of classics terms, and perform term alignment through maximum entropy. The use of sub-words addresses the lack of word segmentation method for ancient Chinese and the maximum entropy model integrating three kinds of features deals with the polysemy of terms. The experiments on the parallel corpora ofShiJishow the effectiveness of the sub-words by a large improvement in performance compared to the IBM Model 4.

sub-words; term alignment; maximum entropy model; transliteration