基于近义词扩充的非通用语翻译评估

2021-08-27马文倩王丽清陈宝童

计算机技术与发展 2021年8期

马文倩，王丽清，王娟，陈宝童

(云南大学信息学院，云南昆明 650091)

0 引言

BLEU算法常用于机器翻译质量的评估[1]。它使用候选翻译中一个词或n个相连的词(n-gram)在参考译文中的出现次数作为基本的衡量标准。但其评估准确度过度依赖于参考译文的质量、规模和覆盖面，因此在参考译文不足或未覆盖全部可能的正确翻译的情况下，会因评估误判而导致低分，这在非通用语翻译的评估中尤为突出。对此，R.Guimarães等人提出考虑了文本中单词语义的自动评估翻译差异的方法[2]，Samiksha Tripath等人提出基于句子嵌入的机器翻译评估方法[3]。此外，将句子级的话语结构[4]以及神经网络[5]用于机器翻译的评估，都在语义和语法方面取得了一定的进展。此外，还可采用引入相同含义的不同翻译来增加参考译文的方法，帮助提升准确度。但如果参考译文全部使用人工翻译，则存在主观性强[6]、成本高和重复使用性低[7]等缺点。

为此，有学者提出使用已有的同义词库，在BLEU评估过程中加入同义词替换和浅层解析模块[8]，或者平滑处理[9]来克服这一缺点的方法。但很多情况下没有现有的同义词或近义词库，需要通过近义词提取技术首先构建词库[10-11]。针对这一问题，R. Wang等人提出了一种亲密关系概念来对文本中的近义词进行发现和排序[12]；合并wordnet等英语资源，并从中提取的方法，也被用于找出目标语言中给定单词的近义词[13]；还有，数据概念模型[14]以及神经网络[15]也有被用于解决近义词提取问题的先例。

文中在对泰语进行BLEU质量评估中，为解决评估误判和泰语参考译文不足的问题，将泰语语料库用深度学习模型进行词向量训练，引入word2vec中的近义词提取方法，找到字典中泰语单词的近义词。然后据此通过参考译文的近义词替换，生成多参考译文用于评估。该方法对于使用了与参考译文中不同表达方式而被误判低分的问题，得到了修正。实验结果表明，这种方法可以快速、高效地扩充参考译文，并且能有效地提升BLEU算法的准确度，可用于快速扩充参考译文和非通用语等语料不足的翻译评估。

1 基于近义词扩充的翻译评估

1.1 实现思路

BLEU算法的基本思想是：用候选译文中的每个n-gram和参考译文中的相匹配，将所有参考译文中单个出现此n-gram的最大数量作为此n-gram的最大匹配数量。将参考译文中所有匹配到的n-gram数量除以所有n-gram的数量，作为长度为n时的BLEU精确度得分。BLEU的计算公式如下：

(1)

式中，pn为上述长度为n时的BLEU的精确度得分，wn为pn的权值，BP(brevity penalty)为短句惩罚因子，当候选翻译长度大于最相近参考译文长度时，BP=1，否则BP=exp(1-最相近参考译文长度/候选译文长度)。根据以上公式可知，参考译文的数量及表达方式的覆盖程度，对BLEU评估结果影响较大。为使评估结果效果更好且更符合人的判断，在BLEU评估算法的参考译文输入阶段与评估阶段之间，加入语料库训练、近义词提取及参考译文生成阶段，在输入单个或少量参考译文后，先对参考译文中的近义词进行替换及扩充，将扩充后的参考译文集，再用于下一阶段的评估工作。

在翻译中，由于更多地依赖翻译者的学识、理解、表达和语言应用能力，因此，翻译的结果往往呈现多样化，并且没有绝对的最优。另一方面，每种语言在不同的文化背景下，对事物的理解与表述方式不同，使用符合当地背景的近义表达，更能体现地域和文化的差异，也更接近于一个最优表达。所以，文中在近义词的生成和提取中，选择使用GloVe模型训练目标语言的语料库，学习目标语言的表达和语法特征，进而提取出基于目标语言文化背景下的近义词。

1.2 GloVe模型和近义词提取

GloVe模型使用大量语料库构建词的共现矩阵，即词i在中心词j的环境下出现的次数，记为矩阵的元素Xij而构成矩阵。然后基于全局词汇共现的统计信息来学习词向量，旨在将词进行向量化表示，并尽可能地了解每种语言中的语义和语法关系。

具体的代价函数[16]为：

(2)

其中，wi和wj为单词i和单词j对应的词向量，词汇表的总量表示为N，bi和bj为定义的偏差项，权重函数f必须具备以下三个特点：(1)为避免随着词汇共现次数增大，出现权重下降的情况，f必须为非减函数；(2)当两词汇共现次数为0时，权重大小也应为0，即f(0)=0；(3)为避免加权过度，当一个词汇出现频率过高时，加权函数给予这个词汇的值应相对较小。

考虑到在实验室环境下GloVe模型用时更短且效果更好，但没有可用的查找近义词模块，该文将GloVe模型训练出的泰语词向量转为word2vec可读取格式，再利用gensim完成批量收集近义词的工作。

根据GloVe模型局部上下文窗口的特点，假设利用近义词替换得到的参考译文不仅可以提高待评估句子的准确率，而且可以在一定范围内保证句子的流利性，并在下文中将对此观点进行阐述和实验证明。

1.3 参考译文的扩充

由于泰语和汉语的语法特征相似[17-18]，因此可以将GloVe训练时产生的词频字典文本进行清洗和词性标注后提取出所有名词、动词、形容词和副词，并对应进行替换，而达到扩充参考译文的目的。现有的训练词向量的模型认为语料库越大、质量越高，则训练出的词向量效果越好。由于收集到的泰语语料库质量和大小有限，因此对得到的每个原词生成10个近义词文本进行抽样检查，观察近义词与原词间的余弦值后，设置阈值对近义词文本进行批量筛选。最终留下相似度高的近义词，并用于下阶段的参考译文生成。

经过近义词筛选后，在上文中收集到的近义词文本中，每个原词对应的近义词数量常常是不等的，且在语料库足够大、质量足够高时，可能会训练出更多的质量较高的近义词。为保证收集到的近义词文本的全面性，可更改Wordvec参数生成需要数量的近义词。这样，就会产生每个原词都收集到10个甚至是更多的近义词。所以，排除取相邻词之间的所有近义词的组合这种可能会产生参考译文和花费时间都呈指数级增长的与初衷相悖的方法，而选择每次只替换一个近义词生成参考译文。

1.4 基于近义词扩充的BLEU评估算法

基于近义词扩充的BLEU评估算法流程如图1所示。

图1 基于近义词扩充的BLEU算法流程

文中所研究的评估算法将用于基于短句子的翻译及评估，所以使用n等于1和n等于2的加权平均值乘以惩罚因子作为评估标准。在实验中，将n=1和n=2的权值分别设置为0.4和0.6，希望在提高准确度的同时，可以尽可能保证句子的流利性。在加权平均的情况下，BLEU计算公式等价于几何平均值。为了保证该方法在提高准确度的同时，也在一定程度上保证参考译文的流利性，将n=2时的权重设置为比n=1时高。如果n=2时的精度为零，则说明参考译文的流利性较差，所以通过该设置，保证分数高的参考译文可以同时在准确度和流利性方面得到兼顾。

2 实验和结果分析

2.1 语料库构建和数据预处理

为获得用于近义词提取的训练预料，首先对爬取的部分高质量泰语新闻文本(54M)和下载的wiki数据泰语网页镜像数据(1.3G)进行清洗和分词。图2是mysql数据库中的高质量泰语新闻文本部分截图。

图2 部分数据截图(1)

然后，按1.3节中描述的近义词扩充方法，将GloVe训练时产生的词频字典文本进行清洗和词性标注，提取出所有名词、动词、形容词和副词，再用阈值提取出最相似的不超过10个近义词，用于参考译文的扩充生成。

扩充前的参考译文(部分)如图3所示。

图3 部分数据截图(2)

提取并筛选后的近义词部分词表如图4所示。

图4 筛选后部分近义词词表

使用近义词文本对原参考译文扩充后，生成的多参考译文部分如图5所示，可以看到标号为153的句子得到了扩充。

图5 扩充后的参考译文部分截图

2.2 实验过程

从原有的中泰黄金测试集语料库中，选取200对长短、领域不同对照文本作为实验原数据。将中文文本通过不同渠道分发给志愿者或借助第三方机器翻译工具取得多组人工或机器翻译的泰语翻译结果。

大多数译者认为评分高的一组比评分低的一组误差较大，少部分译者认为两组都有误差且程度相同。然后，将误差大的一组记为A组，误差小的一组记为B组。

再使用基于近义词替换的BLEU评估方式对这两组翻译再一次进行评估，得到第二次的评估结果，将两次评估结果进行对比分析。

2.3 实验结果分析

实验结果对比如表1、图6和图7所示。

表1 A、B组使用文中方法前后结果对比

图6 A组翻译使用文中方法前后对比

图7 B组翻译使用文中方法前后对比

为了更清晰地呈现评估值在两种不同算法中的差异，采用均值平滑，即取第一句和之后每十句算出前面的均值并在图中标出。得到的A组与B组结果分别如图8和图9所示。

图8 采用均值平滑后A组翻译对比

图9 采用均值平滑后B组翻译对比

图中可以看出，A组翻译和B组翻译都有不同程度的提升。且对于长度与领域不同的翻译任务，同一组翻译结果的提升程度稳定，可以在提升准确度的同时，有效反映这组翻译的综合水平。

从图8、图9与表1的实验结果可知，使用基于近义词替换的BLEU改进算法前后，A组翻译评估结果平均提升了0.06，B组翻译平均提升了0.04。且A组与B组的平均评分差从0.104提高至0.115，提升了10.6%。针对实验结果不理想的情况，对实验过程进行分析，得出的原因如下：

高质量的大型语料库对模型的训练结果有积极的作用，文中实验采用的语料库的一部分是从wiki数据下载的镜像，数据库的平衡性较低。由于语料库的平衡性和规模性的问题，可能出现Word2vec计算出的余弦相似度较高，但质量较低的近义词。阈值是抽样观察近义词文本后设定的，主观性较强，不能有效筛选出所有的高质量近义词。近义词提取的字典文件使用了GloVe训练结果中的词频统计文件，直接筛选出所有动词、名词、形容词和副词。这样筛选后的字典文件过大，即近义词替换过程中需要替换的词较多，这导致了B组评估分数同样提升。

由于评估过程中的参考翻译并不是单纯的越多越好，普通的近义词并不能拉开优秀译者与普通译者之间的评估分数。通过观察、分析扩充后的参考翻译，发现一些常用的词被多次替换，这样在提升A组这种质量较高的翻译评估分数的同时，也提升了B组的评估分数。因此，在字典文件筛选过程中不仅要考虑语法特性，留下特定词性的单词，还要考虑优秀译者的翻译习惯，筛选出优秀译者习惯使用的词语，再进行替换。

3 结束语

以泰语为例，结合深度自然语言处理模型，提出了一种针对非通用语翻译评估的精确度提升方法，并通过实验证明该方法可以在一定程度上提升因为参考译文不足而被误判低分的译文的BLEU评分。针对实验结果不理想的情况做出分析和说明，分析表明，单纯地替换参考翻译中所有的近义词后的评估结果并不能完全达到预期。在近义词生成阶段还需要进一步完善。可以在训练过程中使用高质量的语料库提升提取的近义词质量，或是对近义词文本进行筛选留下优秀译者习惯使用的词语，以此对算法进行进一步改进。基于该文的后续工作，该方法着重考虑了短句子的精确度提升，即只考虑了n等于1和2时的加权计算，如果想进一步考虑n-gram取到3或4的情况可以直接在BLEU评估时调整参数计算,或者在训练阶段自定义字典，训练出连续两个词或三个词的近义词。不过这需要训练的语料库较大，有待后续条件具备时进一步研究。