汉藏短语对抽取中短语译文获取方法研究

2011-06-14诺明花刘汇丹丁治明

中文信息学报 2011年3期

诺明花，吴健，刘汇丹，丁治明

(1. 中国科学院软件研究所，北京 100190；2. 中国科学院研究生院，北京 100049)

1 引言

本文工作核心是要针对特定领域汉藏多策略机器辅助翻译系统(MSCT_CAT)构建短语对齐库的需求，获取藏文译文。MSCT_CAT是基于实例的辅助翻译系统，它通过检索实例句子库，短句库和短语库来提供相似的参考译文。

基于短语的统计机器翻译的优势在于短语能够抓住局部上下文的依赖关系。迄今为止，已经出现了多种短语抽取方法[1-8]。其中，有些计算复杂度太高，代价很高；有些模型依赖于词对齐的结果，有些依赖于句法分析结果，对资源的要求很高。本文要从汉藏对齐语料中抽取互译短语对。由于藏文自身的繁杂性及使用范围相对较小的特点，加之当前藏文信息处理技术还在起步阶段，藏语语料库建设，自动分词标注等与机器翻译相关的基础研究尚未形成系统。GIZA++等开源词对齐工具对训练语料库规模有一定要求，特定领域汉藏句对齐语料规模有限，汉藏词对齐正确率为进一步做短语抽取而言不可取。因此，考虑目前还没有词性、句法层面上加工过的语料，汉藏短语获取方法一定摆脱对词对齐、句法分析等资源的依赖。

本文获取的短语是广义上的，它是由若干个单词组成的语块。MSCT_CAT的短语库只要有汉语短语以及它的藏文译文即可以转成TMX库，以供检索和返回短语译文用。本文的思路是先从句对齐双语语料中获取有效汉语语块，对包含待译语块的句对求交集，得到候选译文，最后经过后处理得到汉藏互译语块并保持到短语库中。

2 翻译基本模型

王辰[9]提出了一种基于序列相交的短语译文获取方法，该方法不依赖于额外资源信息的特点正符合目前藏文资源匮乏，可以借鉴到MSCT_CAT的短语库构建模型中。

本节先分析藏文短语类型，再介绍TIA译文获取模型。为了使用词序列相交方法，汉藏两种语言的文本都需要分词。本文使用斯坦福的中文分词开源项目和中国科学院软件研究所多语言信息处理研究室开发的藏文分词模块分别对汉藏单语语料进行分词。

2.1 藏文短语类型

在藏文实际文本中，从不同层面来分析短语特性时可以得出以下结论。

• 其次，汉藏互译对之间对应关系有两种形式；经过分析收集的汉藏句对齐语料发现双语短语中的汉语单词既有只有一种译文的，也有两个或以上的译文的。一个原文短语对应一个译文较常见，这里不举例说明，这种现象本文称为一词一译，简称一对一(1-1)。由于翻译机构的地域性或者上下文意译，同一个中文有不同译法，类似一词多义，这种现象本文称为一词多译，简称一对多(1-n)。

2.2 藏文短语译文获取模型

汉藏双语句对词序列相交的示例见表1。

表1 汉藏双语句对词序列相交示例表

从以上分析可以得出两个句对SPr与SPt相交公式，表示如下：

Q={Q1,Q2, …,Qk} 为句对SPr和SPt中汉语句子CSr和CSt的交集，Q中包含Qi(1≤i≤k)待翻译的中文短语；T={T1,T2, …,Tg} 为SPr和SPt中藏文句子TSr和TSt的交集，T中肯定包含Qi的译文，可以通过汉藏词典确定 (Qi,Tj)汉藏互译对。

待翻译中文短语由多个汉语单词构成，表示如公式(2)：

Qi中任意单词Qi+θ(1≤θ≤l)在词典中查找，如果词典中有译项计数并保存到一个链结构L中，一定会存在某个Tj+ω能够满足Tj+ω∩L≠ Ф的条件，保留为候选译文。当Qi中有未找到译项的Qi+θ时，设定一个阈值(本文取0.66)，对待译汉语语块中查词典成功率大于阈值的保留译文，对小于阈值的候选译文进一步计算其在序列相交过程中累计的频次权值，保留权值高的候选，丢弃权值低的候选译文。最终保留的Tj+ω(1≤ω≤g)构成Qi的译文Tj。Tj可以是连续的，也可以是非连续的。

3 藏文短语译文获取

本文提出藏文词串频率统计算法(简称TSM)和藏文词串序列相交算法(简称TIA)两种方法获取短语译文。TSM可以满足短语连续性，但是只能抽取1-1的短语对。而TIA可以弥补TSM的不足，能够抽取1-n的汉藏短语对。TIA使用的语料为汉藏句对齐双语语料库，将通过汉藏词序列相交模型，获取1-n的汉藏互译短语对。

3.1 藏文词串频率统计算法

先简单描述一下词串频率统计算法思想。给定一个待翻译汉语语块Q，TSM需要解决怎样确定Q的译文P。TSM算法目标是获取1-1的互译对。为了算法描述便利，先假定部分符号表示。

•SP表示语料中所有包含Q的句对集合;

•Sn表示SP中句对数;

•TSS表示SP中藏文句子集;

•CS表示公共子串。

以上符号通用于3.1节和3.2节。TSM算法生成公共子串CS过程描述如下：

1. 从TSS中，任选一个藏文句子TS。

2. 为TS建立一个单词列表WL，并保留TS中的词序。

3.WL中词在TSS范围内以句子为单位做词频统计。

4. 标记所有满足词频为Sn的单词，获取CS的集合，用ICS来表示。

5. 使用双语词典过滤ICS中与Q不相关的公共子串，用UCS表示。

6. 按照WL中词序恢复CS的邻接性和连续性。

7. 使用TSW过滤模块过滤CS边界高频干扰信息得到译文P。

藏文词串频率统计算法抽取到的1-1互译对(Q,P)能够很好地满足MSCT_CAT构建短语库的需求。TSM算法只适合1-1的连续和非连续短语抽取，然而以下两个因素导致汉藏语料中存在汉语短语有多种译法的情况，降低TSM的召回率。

• 短语中部分汉语单词可以对应意义相同的多个藏文单词，不同的译者选择不一致。

• 根据上下文意译时，藏文格特征和后修饰特征[12]引起中心词之外的部分不一致。

3.2 藏文词串序列相交算法

为了提高召回率，TIA重点解决1-n的短语对抽取问题。汉藏词序列相交模型中提到，对包含Q的汉藏句对计算公共子串确定P后可以获取汉藏短语对(Q，P)。从公式(1)得知，句对的序列相交由若干个藏文公共子串CS组成。将为每个CS构造一个树结构T的话，句对的序列相交可以组成一个森林。T由中心节点和修饰节点两种节点组成。表2给出两种节点各个字段及功能，以便后续算法描述。

表2中的中心节点用来存储藏文句子取交后的CS的所有中心语，用ITN表示，修饰节点记录与其相关联的中心节点的修饰语，用SYN表示。因此，T的根节点是tag域为1的ITN节点，T的叶子是next域为空的ITN节点。对某个ITN来说，syn域指向左节点，next域指向右节点。CS中某个中心节点的左子树是由其在语料中出现的所有格特征和后修饰特征通过SYN的next域链接而成的链表SL。

表2 公共子串树节点各个域及功能表

由公式(2)，Q由若干个词Qi(1≤i≤l) 组成。取交过程中Q的所有候选译文均保存为表2的节点，生成树T或森林F。T或F中并不是所有节点组成最终译文，通过确认过程满足以下两个条件的节点才会被选为最终译文的一部分。

1) 译文中一定包含任意Qi(1≤i≤l)的译文；

2) 所有候选译文的支持度和等于Sn。

TIA算法核心是为已知的汉语语块Q构建公共子串森林F，以及遍历F来确认Q的最终译文P。构建F的过程描述如下：

TIA构建F的过程

1. Choose any two sentencesTS1andTS2fromTSSat random.

2. CalculateTS1∩TS2results, denote asIL.

3. FilterILby dictionary (D) in terms ofQ, get sublist ofIL, denotes asSL.

4. Construct forestFofSL, based on table 3.

5. for eachTSinTSS-{TS1,TS2}

6. for each treeTinF

7. ifTScontainsTthen

8. plus 1 tofreqfor all nodes inTand exit.

9. if (TScontains parts ofT) & (TScontains qualifierSfor the rest parts ofT)& (S∉SL) then

10. newly-built aSYNand assign theSto field syn and exit.

11. end for

12. end for

以上取交过程生成一个森林F。下一步是通过遍历F确认Q的译文P。P是CS的集合，藏语译文确认过程描述如下。其中用A，B，C，D分别将P标记为1-1，1-n,，连续或非连续短语等短语类型。

TIA藏语译文确认过程

1. inttn=0,i=0.

2. for eachTinF

3. for eachtwinT

4. iffreqequalsSn

5. addtwto{Pi} andi++.

6. else if sum offreqinSLequalsSn

7. add sy_tw ofSLto {Pi} and

i++.

8. else

9. discardT.

10. end for

11.tn++

12. end for

13. iftn==1

14. (Q,P) are marked asA

15. Iftn>1

16. (Q,P) are marked as B

17. Ifi==1

18.Pis marked asC

19.elseifi> 1 then

20.Pis marked asD

可以示例说明藏文译文确认过程。假设，在汉藏平行语料中有50个句对包含待翻译语块Q，取交后获取两个公共子串CS1和CS2。为CS1和CS2构建树结构，分别用T1和T2表示，如图1。

图1 译文确认过程

待译语块Qi的译文Tj的确认过程是对由T1和T2组成的森林的搜索过程。在图1 中，T1的根节点W11的freq域值等于50，因此被标记为最终译文的组成部分。W12_sy1是W12的修饰语，同时W12_sy1和W12的freq域值的和等于50，因此词组[W12,W12_sy1] 被接受。W13的freq域为50，它被接受为最终译文的组成部分。W14的freq域值小于50，从而被丢弃。同样原理，W21和W22被接受。Qi的最终翻译译文Tj是由两棵树T1和T2对应的字符串中所有被接受并标记的节点序列的集合，P={W11[W12|W12_sy1]W13,W21W22}。

因为使用了公共子串树和森林结构，TIA既能抽取1-1短语，又能抽取1-n短语。同时TIA也不会遗漏非连续短语，能够满足藏文短语的连续性。从而可以满足MSCT_CAT的短语库构建需求。

4 实验

实验数据是汉藏法律法规和公文报告等特定领域语料。汉语语料通过网上下载处理得到，藏文语料由西藏翻译局提供。收集到的原始语料通过篇章对齐和句子对齐后，最终形成短语对抽取模块可以处理的五份汉藏语料，语料的统计数据见表3。表中，最后一列短语对数为计算召回率时人工确认的平行语料中所含的短语对数量。

表3 语料信息

4.1 藏文短语连续性验证

在实验中，对五组语料分别用TSM和TIA进行短语抽取之后，采用计算机辅助人工的方法判断互译对正确与否，实验的准确率(P)定义为：

召回率(R)定义为：

TSM算法简单，容易实现。它抽取的连续短语准确率较高。TSM抽取的1-1连续短语(C)和非连续短语(D)统计结果见表4。TIA算法因为考虑到同一个中文单词的不同表示以及藏文的格特征和后修饰特征，准确率没有TSM好，但也能满足系统需求。TIA抽取的连续短语和非连续短语统计结果见表5。表4和表5中D表示不连续(Discontinuous)，C表示连续(Continuous)。

表4 TSM抽取结果

表5 TIA抽取结果的连续性统计表

数据表明，两种算法抽取的短语召回率都很低，TIA与TSM比较召回率明显提高，原因有以下几点： (1)汉藏词典数据稀疏问题。虽然算法中采用阈值和短语频次权值来保留部分候选译文，无法彻底解决数据稀疏问题。(2)汉藏分词粒度不一致，一些汉语两词组成的短语在藏文中对应一个词，不再是短语。(3)汉语有效语块是从单语语料中抽取的，只要有实际意义就可取。藏文是SOV型语言，其中部分汉语语块在平行语料中失去了句法特征，所以很难找到译文。(4)语料中1-n短语对的存在造成TSM的召回率明显不如TIA的好。

4.2 藏文短语对应关系验证

为了证明TIA算法抽取1-n短语对的有效性，分析TIA从五组语料中抽取到的短语对的汉藏对应关系。表6给出汉藏短语对应关系分布情况及准确率和召回率。

表6 TIA抽取结果的对应关系统计表

很显然，语料中非连续藏文短语和1-n的藏文短语均不能忽略不计。TIA可以抽取连续和非连续的短语。同时，它能抽取1-1和1-n的汉藏短语对。TIA算法获取的短语译文准确率达81%。

实验结果分析得知，由于数据稀疏问题，语料1和语料4中低频短语对(在语料中出现次数很少)较频繁出现，从而导致语料1和语料4的准确率在同组试验中低于其他语料。低频短语在序列相交过程中携带了额外的与译文无关内容，这些干扰信息使准确率降低。设定频率限度可以提高准确率，但会损失召回率。从表3可以看出，语料5在五组语料中句对数最多；每组实验结果中，语料5的准确率最佳，这表明通常语料变大可以提高覆盖率，较高的覆盖率能提高准确率。

5 结束语

在目前汉藏语料资源匮乏、语料处理技术不成熟的前提下，本文提出获取藏语译文的方法。依据包含待翻译汉语语块的汉藏句对公共子串的思想，分别尝试藏文词串频率统计算法和藏文词串序列相交算法获取待译汉语语块的译文。

然而，文章提出的方法召回率太低，这是下一步研究的重点。提高召回率后，可以将抽取的短语融入翻译模型中进行实际翻译工作。目前收集的汉藏平行语料中存在数据稀疏问题，TSM和TIA都是依赖于统计的，对数据稀疏问题无可奈何。改进语料覆盖率有利于扩建汉藏短语库。

[1] Daniel Marcu, William Wong. A Phrase-based, Joint Probability Module for Statistical Machine Translation [C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Morristown, NJ, USA. Association for Computational Linguistics, 2002:133-139.

[2] Dekai Wu.Stochastic inversion transduction grammars and bilingual parsing of parallel corpora [J].Computational Linguistics， 1997，23(3):377-403.

[3] Ying Zhang,Stephan Vogel, and Alex Waibel.Integrated phrase segmentation and alignment algorithm for statistical machine translation [C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering.Beijing,2003：567-573.

[4] Ying Zhang, Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model [C]//Proceeding of ACL Workshop on Building and Using Parallel Texts. Ann Arbor.2005:159-162．

[5] H Kaji, Y Kida, and Y Morimoto. Learning Translation Templates from Bilingual Text[C]//Proceedings of the 14th International Conference on Computational Linguistics. Nantes, France. 1992:672-678.

[6] Franz Josef Och,Hermann Ney.The alignment template approach to statistical machine translation[J].Computational Linguistics,2004,30(4):417-449.

[7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics. Ann Arbor.2005:263-270.

[8] 何彦青,周玉,宗成庆，等.基于“松弛尺度”的短语翻译对抽取方法[J].中文信息学报,2007,21(5):91-95.

[9] 王辰,宋国龙,吴宏林，等.基于序列相交的短语译文获取[J].中文信息学报,2009,23(1):39-43.

[10] 周季文,傅同和.藏汉互译教程[M].北京:民族出版社,1999.

[11] 张怡荪.藏汉大辞典[M].北京:民族出版社,1993.

[12] 陈玉忠，李保利，俞士汶，兰措吉. 基于格助词和接续特征的藏文自动分词方案[C]//第一届学生计算语言学研讨会论文集.北京，2002.