面向教学的英蒙机器翻译系统的研究

2018-11-16张利峰胡其吐

科学与财富 2018年28期

张利峰胡其吐

摘要：本文主要研究面向蒙语授课小学生学习的英蒙机器翻译软件的设计与实现。本研究试图通过计算机自然语言处理技术给出解决方案，以期对蒙授学生的英语学习和辅导具有辅助支持作用。本软件的实现为蒙古语授课小学生改进学习外语起到辅助作用。关于蒙古语授课学生学习方面的网络资源很少，尤其是外语方面的，所以本翻译系统丰富了蒙古语授课学生学习外语的渠道与方法。

关键词：机器翻译；小学英语；蒙古语；教学

中图分类号：TP391.2 文献标识码：A

本论文获得内蒙古自治区蒙古语言文字信息化专项扶持项目"英蒙机器翻译及教学平台建设"资助，项目编号：MW-MGYWXXH-009

本项目获得内蒙古自治区蒙古语言文字科研资助项目“蒙汉文牌匾翻译标准与规范化网络平台研究”资助，项目编号：MW-YB-2016025

1 蒙英机器翻译研究现状：

因为国内蒙古文普遍使用的是传统蒙古文，与蒙古国使用的蒙古文有所区另，因此本研究着眼于传统蒙古文的英蒙翻译软件开发问题。相对中英机器翻译系统研究而言，英蒙机器翻译系统研究起步较晚，从业专业人员很少，但近年来也取得了一些重要的成果。2000年，以内蒙古大学敖其尔教授《英一蒙机器翻译系统的研究》著作发表为标志，著作中，介绍了基于模板的英蒙机器翻译相关理论，给出了基于模型的蒙古文生成方法。另外还有吉日木图先生和王斯日古楞老师同样使用基于模板的方法并综合其它研究方法讨论了英蒙机器翻译系统相关问题。以上学者进行的研究及给出的解决方案主要针对的是一般的英蒙机器翻译系统，所涉及的面较广，语境的复杂度也相当高。从面向英语教学的专业翻译角度上看，由于学习中有其需要考虑的一些特殊问题，这些研究对解决蒙语授课学生学习英语软件的开发尽管有其重要的指导借鉴作用，但不能完全照搬。从发展水平上看，基于学习需求的英蒙机器翻译软件研制，国内开展的相关工作尚在起步阶段，还有许多深入细致的研究工作要做。

本软件旨在面向蒙语授课学生的英文学习提供工具性的支持，是学习者和指导者传统的查阅词典学习方式的一个补充。软件开发先从面向蒙语授课小学生学习的英蒙机器翻译工具的设计与实现（以小学三年级为例）起步，待积累经验、试用评价、软件成熟，可后继研发面向蒙语授课其他学段学生的英蒙机器翻译系统。

2 研究思路

基本思路：收集并查阅相关文献；在课程专家的支持下，到蒙语授课小学进行现场调研；以小学生英语课程标准和学习需求为依据整理翻译系统所需语料并开发软件。软件的研究和开发主要涉及三个组成部分，一是；语料整理部分，二是；机器翻译研究部分，分别说明如下。

2.1 语料整理

语料的整理是机器翻译研究中最基本也是最重要的工作，语料整理的质量直接影响下一步机器翻译软件开发的质量。语料的整理分为二步来完成：

①在具有多年英语教学经验的教师（课程专家）的指导协助下，收集和整理所需课本、课外资料和相关信息，并将这些资料根据幼儿、小学各年级不同种类进行划分。

②将划分好的资料录入计算机。

2.2 机器翻译软件

借鉴中英等其它大语种的机器翻译理论和开发经验，参考已有英蒙机器翻译软件的研究成果，规划英蒙机器翻译系统。具体实现方法。

①准备语料（此步在上一个工作中完成），对语料进行一些必要的处理。

②使用SRILM训练语言模型。

③用Giza++生成翻译模型：词语对齐；词典概率评分，既利用MLE计算词语的翻译概率；短语抽取；短语评分，既生成phrace-table，亦即翻译模型。

④训练重排序模型。

⑤训练生成模型。

⑥创建解码器所需的相应配置文件。

⑦使用Moses进行解码，生成小学三年级英——蒙翻译软件。

3 双语语料库的结构设计

双语平行语料库是指用A语言写成的源语文本和用B语言翻译的译文组成的文本集合。双语对齐即“在双语文本中找到互为翻译的源文和译文片断”。语料库的结构设计较为简单，无需定义复杂的数据字段以及数据的约束、安全性与完整性，只需定义相互对齐的英语句子字段和蒙古语句子字段即可。

4 蒙古文相关关键技术

因为蒙古文是一种黏着性语言，其形态变化、动词时态变化等都较丰富，构词和构形基本上在词根或词干后加不同的附加成分来实现的，所以蒙语的词汇量可以说是非常大的，因为同一个词在不同上下文中可能会有十几种甚至几十种的形态变化。这对双语语料的建立带来了非常大的挑战，因为语料再多也不可能涵盖蒙古文的所以词汇，所以我们在建立双语语料时也尽量考虑蒙语变形所带来的影响及如何提高语料的使用率。另外，因为蒙语有第4，5元音和第6，7元音等的形相同音不同的现象，除了元音以外还有一些辅音也有这种情况，这导致了虽然某些词外形看起来一样，但实际上音不同的现象，而且这些音的机器内码是不一样的，这导致了计算机在识别这些词时会认为是两个词，但实际上有可能就是一个词。比如这个词输入成urluge和orluge形都一样，但是内码确不同。这种现象因为录入人员对蒙语正确读音的掌握程度和录入习惯不同而不同，尤其内蒙古东西部蒙古语的读音差距较大也导致这种现象非常普遍。这也对语料库建立产生很大的影响，而且在后续的查询与翻译当中也会产生非常大的影响而降低翻译准确率。为此本文提出一些改善英蒙机器翻译方法，以此可以提高翻译的准确率，具体做法如下：

4.1 建立规范的英蒙对齐语料库

标点符号的处理：将设计好的对齊语料库中所有符号前后都要增加空格，以便于在训练语料时能够区分符号与前后词是否为一个词还是两个词。特别注意的是，有些字符是由两个符号组成，如“《”，此类符号原则上不可拆分，所以对两个挨着的字符不做空格增加处理。

空格的处理：对语料库中多余的空格全部删掉，保证语料中不会出现连续的两个空格。另外，由于蒙文语料中可能会存在蒙文空格。蒙文空格是将蒙古文词与各助词相连接的一种符号，主要是为了表现蒙古文的词与格助词之间的空格不与词与词之间的空格不同。事实上，为了更准确的进行翻译，保留蒙文空格存是一种正确的选择，这样的话匹配出来的文本更接近自然翻译结果，但是由于蒙文格助词众多，如果接在蒙古文的所有符合条件的词后面，那将大大地增加未登录词（因为每加一个格助词即可认为是一种新的单词），这样一来将对语料库量的要求将会非常的高所以在较少的语料库下能够获得更高的翻译质量需要将所有蒙文空格转变成普通空格，之后再把全部的连续两个空格简化为单空格。

4.2 蒙古文的校对

因为本次针对的是较小范围的语料库，所以校对工作全部由人工完成。

4.3 蒙古文的音与形的统一化处理

为了在小的语料下获得最大的翻译能力，本文使用了蒙古文音形统一化处理方法来解决蒙古文形同音不同的问题。也就是把第4，5元音和第6，7元音等同形字全部统一成一种形，这样处理后即有助于相对扩大语言模型量，也容易处理蒙古文的查询问题。

4.4 语言模型的建立方法

语言模型对于一个基于统计规则的翻译系统来说至关重要，所以具有丰富而涵盖面广的语言模型才能够大力提高翻译质量。语言模型的建立包括蒙古文语言模型的建立与英文语言模型的建立。因为英语的语料库非常多，而且比较重要的语料库均已开放，所以我们只要将此语料库下载后使用训练软件进行训练后生成英语语言模型即可，所以不作详细介绍，本文中将较详细地说明蒙古语言模型的相关理论基础及建立方法。

本翻译系统采用n-gram方法建立了蒙古文语言模型，n-gram方法又称为N元模型。此方法适用广泛且技术较为成熟。N元模型指的是在计算语言学领域和概率模型中使用的一种方法，N元就是在一条句子中连续的N个元素。一个N元可以是任何字符的组合。然而，我们蒙古语中所指的N元以一个词为界限，也就是以空格为一个界限，获取N个元素。此时获取的N个元素不一定全部是词，也可以是标点符号或格助詞等其它形式。N元一般都是从文本或语料中获取。一个N元的元素值为1的可称为“一元模型”，元素值为2的可称为“二元模型”，元素值为3的可称为“三元模型”，以此类推可有“四元模型”，“五元模型”，本系统选用了“三元模型”作为语言模型。

5 搭建英蒙互译机器翻译辅助教学系统

虽然基于短语的机器翻译系统并不要求双语语料中语言的特性，任何两种语言均可被训练成机器翻译系统。但是由于蒙古文本身的特性，在建立语言模型和翻译模型时均与其它语言有所不同。

软件的搭建核心部分是利用了Moses机器翻译软件，Moses是法老软件的升级版本，所以在原有版本的基础上增加了许多新的功能。是由基于短语统计方法的机器翻译系统，是由亚深工业大学（德国）、爱丁堡大学（英国）等八家单位合作开发的。2006年这八家单位在约翰霍普金斯大学召开研究会进行研讨并且花费了六周的时间共同开发了这一系统。系统框架和核心部分全部用C++语言写成，而且开发完后将软件源代码公开了，以便其它研究人员可以研究与利用，此软件可以运行在Linux平台和Windows平台上，目前领导者是Philipp Koehn。Moses软件最初是在Linux系统上开发的，但它可实现跨平台运行。所以我们为了得到最大的兼容性，将操作系统选用Linux内核的Ubuntu12系统。如果要在Windows上安装，需要安装Windows下的Cygwin系统，并在Cygwin下进行编译即可获得Wiindows下可运行的软件。

5.1 语料的准备

双料语料库在建立翻译平台时使用，库中文本必须是蒙文与英文对齐的句子。

此处我们将利用前面准备好的英蒙对齐语料库。虽然语料库已经录入完成，但是为了适用于Moses软件，我们还需要对这个语料库进行相应的整理，具体整理过程为：

a）标记化：此步骤的功能是为词和符号之间添加空格。虽然英文的标点符号很容易被判断，但是蒙文的标点符号较难判断，因为库函数中均不存在标点符号判断的函数，所以在开发标记化工具时需要对蒙文进行特殊处理，通过内码一个字一个字地判断其是否为标点符号，是否需要增加空格等。

b）大小字母的统一化：此步骤主要针对的是英文，因为蒙文没有大小写之分。大小写统一化的目的是降低数据稀疏，以便从较小的数据中获得更多的对齐短语等

c）清理数据：较长的句子和空的句子将被删掉，因为它们在语料训练中导致程序错误，另外将非对齐的句子也被删掉。

5.2 训练语言模型

语言模型是用于较流畅地输出，所以要建立在目标语言上，此处为蒙古文。我们使用IRSTLM建立语言模型。但是由IRSTLM是面向大语种，或者可以说是研宄者或使用较多的语种的，但是由于使用传统蒙古文的人较少，而且语料也较难获得，所以此软件中并没有对传统蒙古文进行优化，所以我们需要对此软件进行一定的修改，从而使语言模型的建立更为优化。

5.3 训练翻译模型

翻译系统的最核心工程是进行翻译模型的训练。翻译模型必要通过“词对齐”词组抽取及评价” “创建词汇化的重新排序表”和“建立Moses的配置文件”等过程后才能够达到正常使用的程度。虽然这些过程比较多，但是我们可以通过GIZA++一步完成所有过程。

6 结论

（1）为蒙古语授课小学生改进学习外语习惯起到辅助作用。

（2）本翻译系统实现了在线翻译，所以丰富了蒙古语授课学生学习外语的网络资源。因为关于蒙古语授课学生学习方面的网络资源很少，尤其是外语方面的。

由于本人的理论水平有限，实践经验的不足，以及受研发时间的限制，本翻译系统有待于补存与完善。本人将在以后的工作与学习中从以下几点继续迸行探讨与研究：

（1）语料库的局限性：语料库的规模小。只可满足小学三年级学生的学习范围，且对于基于统计规则的翻译模型而言，语料的规模会影响系统的翻译质量。所以扩大语料库是一项长期而基础的工作，应将语料库完善至可满足小学其他年级、中学各年级、以至于到大学。

（2）软件功能的局限性：翻译系统实现了核心功能，即在线翻译。在此基础上软件应增加以下提高学习质量与兴趣的功能，如语音功能、游戏功能等，语音功能可使系统发出标准的读音（包括蒙古语与英语），而增设一些猜字词的小游戏可提高学生的学习兴趣。

参考文献

[1] 敖其尔，从英文到蒙文的机器翻译.内蒙古大学学报（哲学版），1988，第三期：39-50.

[2] 王斯日古楞.基于混合策略的汉蒙机器翻译及相关技术研究[D].呼和浩特：内蒙古大学（博士学位），2009.