APP下载

神经机器翻译综述

2019-01-22高明虎于志强

关键词:源语言目标语言语料

高明虎,于志强

(云南民族大学 信息与网络中心,云南 昆明 650500)

机器翻译是在保持语义一致性的基础上,利用计算机软件实现两种语言的转换的过程,属于计算语言学(computational linguistics)的子领域,将人工智能与自然语言处理相结合是其重要的研究内容.自20世纪40年代机器翻译任务产生以来,机器翻译大体经历了2个阶段:早期的基于规则的机器翻译(rule-based machine translation)和近期的统计机器翻译(statistical machine translation,简称SMT).自2014年将神经网络研究用于机器翻译以来,采用端到端的神经机器翻译(neural machine translation, NMT)[1-2]获得了迅速发展.它采用一种全新的方法体系,直接使用神经网络实现源语言文本到目标语言文本的映射.与统计机器翻译不同,由于神经机器翻译不再需要进行词对齐、短语切分等步骤[3],也无需句法分析等语言学知识支持.具有人工成本低、开发周期短的优点,并且较好的克服了统计机器翻译所面临的语义表示、错误传播等问题,成为Google、百度等国内外公司在线机器翻译系统的核心技术.

1 经典机器翻译模型

经典机器翻译模型大体历经了2个发展历程:基于语言规则的机器翻译(1949—1992)和统计机器翻译(1993—2016).语言学家认为语言的表述是有规则可依的,因此基于规则的机器翻译是由语言学专家先总结出不同自然语言之间的转换规律,再以规则形式表示翻译知识,最后由计算机进行规则的执行.由于有语言学专家的深度参与,句法、词法和语义等深层次自然语言特性可以被充分挖掘,但由于自然语言的灵活特性,基于规则的机器翻译面临着规则提取困难、程序开发难度大、人工成本高等困难.

随着互联网的兴起和硬件运算能力的大幅提升,基于统计特性的统计机器翻译得到重视,并在20世纪90年代后开始成为机器翻译的主流模型.统计机器翻译采用数据驱动的方式,在大规模多语言文本数据上自动训练数学模型,通过数学模型对翻译过程进行描述.其基本思想是通过统计方法获取源语言与目标语言之间的翻译规律,用以指导隐结构(词语对齐、短语抽取、短语概率、短语调序等)的构成来实现翻译,翻译过程如下:

统计机器翻译通过建立概率模型来计算F到E的概率,从而进行翻译.自面世以来,统计机器翻译取得了巨大的成功,2006年Google推出了 Translate翻译平台,它的推出标志着在商业应用上,数据驱动的统计机器翻译取代了基于语言规则的机器翻译成为翻译系统的主流.尽管如此,统计机器翻译仍面临着翻译性能严重依赖于对齐特性等隐结构获取难度大、局部特征难以捕获全局依赖关系、不易调序影响翻译流畅度等难题.

2 神经机器翻译模型

2.1 神经网络的发展

神经网络最开始是受生物神经系统的启发,为了模拟生物神经系统而出现的. Pitts[4]于1943年最早提出了神经网络数学模型,为了让计算机能够更加自动且更加合理的设置权重,1957年,Rosenblatt[5]提出了一种最简单的神经网络——感知机(Perceptron)算法.该算法使用特征向量来表示的前馈式人工神经网络,它是一种二元分类器,为单层的人工神经网络.1969年,Marvin Minsky 和 Seymour Papert证明感知机不能解决简单的异或(XOR)等线性不可分问题,使得人工神经网络发展进入了低潮.到20世纪80年代末,随着分布式表达和反向传播算法[6]等算法的提出,神经网络的研究才迎来了第二次兴起.近年来,神经网络应用于图像识别、语音识别等领域取得巨大成功,在自然语言处理任务上(如语言模型、句法分析、序列标注等任务[7]),神经网络的应用也有很好效果.

2.2 神经机器翻译基本思想

学术界很早就提出了将神经网络应用于机器翻译的思想,20世纪90年代,Castano等利用小规模平行语料实现了基于神经网络的翻译方法[8],但由于平行语料规模和硬件计算能力限制,未能取得超越性的效果.深度学习热潮兴起之后,神经网络常被用于结合统计机器翻译用于词语对齐、依存分析、规则抽取等任务中.

2013年,Kalchbrenner 和Blunsom[9]重新总结并提出了基于神经网络的翻译方法,引起了学术界的关注.随后, Sutskever[10]、 Cho[11-12]、 Jean[13-14]等人各自实现了完全基于神经网络的机器翻译模型.

神经机器翻译的基本思想与统计机器翻译相同,即概率最大化.在翻译建模上不借用其他手段,只采用神经网络实现源语言到目标语言的转换.与统计机器翻译的离散表示方法不同,神经机器翻译采用连续空间表示方法(continuous space representation)表示词语、短语和句子.在翻译建模上,不需要进行词对齐、 短语抽取、短语概率计算、最大熵调序等统计机器翻译的处理步骤,而是完全采用神经网络完成从源语言到目标语言的映射,神经机器翻译通常采用编码器-解码器(encoder-decoder)框架实现源序列到目标序列的转换[2].其中编码器读取源语言输入“x1”、“x2”、“x3” 、“x4”, 输出固定维度的语义编码向量C; 解码器读取该向量,解码生成目标语言词语序列“y1”、“y2”、“y3”, 如图1所示.

与统计机器翻译相比,基于编码器-解码器框架的神经机器翻译无需人工设计定义在隐结构上的特征来描述翻译规律,而是直接从训练语料中学习特征.因此规避了由于自然语言的高度复杂性带来的大量的特征设计工作.

2.3 神经机器翻译各种类型及其特点

神经网络依据拓扑结构特点可以分成多种类型,如前馈神经网络,卷积神经网络(convolutional neural network),循环神经网络等.以下对近年来在机器翻译、摘要抽取、序列标注、情感分类等自然语言处理任务上常用的神经网络进行了分析.

2.3.1 循环神经网络

循环神经网络(recurrent neural network,RNN)是目前神经机器翻译所采用的主流网络结构,它将隐状态在相同的网络层次中循环传递,因此具有序列化结构的自然语言句子可以作为它的输入[15-16].循环神经网络的结构如图2所示.

x= {x1,x2,…,xT}表示输入的源语言序列,每个时间步t的隐藏状态由以下公式进行更新:

ht=f(ht-1,xt,θ).

其中,f为非线性函数,ht-1为前一时刻的隐状态,Xt为t时刻的输入,θ为网络参数.网络通过如下进行更新:

at=Wht-1+Uxt+b

;

ht=tanh(at)

;

ot=Vht+c

;

循环神经网络适合处理变长序列数据.理论上能够捕捉到所有之前时刻的隐状态,这在一定程度上解决了长距离依赖问题.

2.3.2 循环神经网络变型

从理论上讲,循环神经网络可以通过充分训练得到的参数解决长距离依赖问题,但实际效果并不理想.原因在于训练的过程中采用反向传播(backpropagation through time, BPTT)[17]来进行误差的传递,从而调整网络参数,在实际应用中会产生梯度消失问题[18].长短时记忆神经网络(LSTM)[19]是循环神经网络的变形结构,引入了门控的概念,通过遗忘门、输入门和输出门进行信息选择和更新,具有与循环神经网络相似的结构和优点,且性能更好.

门限循环单元(gated recurrent units, GRU)[11,20]将长短时记忆循环单元的输入门和遗忘门合并成更新门(update gate),又引入了重置门(reset gate),用更新门控制当前状态需要遗忘的历史信息和接受的新信息,用重置门控制候选状态中有多少信息是从历史信息中得到.该结构是对长短时记忆神经网络的简化,效果与后者相近,并降低了计算量.

前馈神经网络中,矩阵相乘是时间复杂度较高的部分.简单循环单元(simple recurrent unit,SRU)[21]对网络结构进行改进,门计算只依赖于当前输入的循环,使模型只有逐点矩阵相乘的计算依赖于之前的时间步.从而减少了计算量,能够让网络更容易的进行并行化.

递归神经网络(recursive neural network,recursive NN)是循环神经网络的变形结构,以树形结构进行组织,通常用于表示自然语言句法结构[22].

循环神经网络及其重要变型的不同之处如表1所示.

表1 循环神经网络及其重要变型的差异

2.3.3 卷积神经网络

卷积神经网络(convolutional neural networks,CNN)在图像分类中取得了巨大成功,在处理图像时,实际是以像素作为输入.与图像任务不同的是,NLP任务的输入基本上是矩阵形式的句子或文档.矩阵的每一行是一个向量,本质上是序列化的输入.卷积神经网络常被应用到文本分类中,比如情感分类、信息识别、主题分类中.由于卷积操作过程会丢失一些词的位置信息,因此在处理序列化输入的任务方面,例如翻译、词性标注和实体抽取时效果不是很理想.但近期很多研究通过融入位置等信息[23],在保持了卷积神经网络的并行能力的同时,加强了对序列化输入的处理.

3 总结及展望

目前,神经机器翻译取得巨大成功,在很多语言对上的效果已经超越统计机器翻译.从2014年开始,产出了大量的科研成果与实际产品.由于研究时间较短,该翻译模型仍然存在许多值得更加深入探索的问题,以下几点有可能成为未来研究集中方向.

1) 提高翻译框架可解释性.基于编码器解码器结构的神经机器翻译,实现了源语言到目标语言的直接翻译,但是相比统计机器翻译,神经机器翻译过程更类似于在黑盒中运行,难以从语言学的角度对翻译过程进行解释.已有研究证明,可以从可视化[24]、隐含句法结构信息抽取[25]等角度对翻译过程进行分析, 以此改正翻译错误,是神经机器翻译未来重要的研究方向.

2) 外部知识融入.与统计机器翻译相比,神经机器翻译结果在句子的流畅度上有较大提升,但是与语法句法等语言学想关的翻译错误仍会在神经机器翻译中出现,因此,融合语言学知识对于神经机器翻译性能的提升至关重要,这一点在资源稀缺型语言和特定领域的翻译任务中尤为迫切,语言学知识包括词汇、句法、语义等不同粒度的知识,词汇级知识包含词素、词性标注、分词标记等.句法级包括短语树、依存树和谓词框架等.语义级别包含词义推导、语义树等.融合更加丰富的外部知识是神经机器翻译重要研究内容,也是提高翻译性能的重要方法,有待深入研究.

3) 多语言机器翻译.翻译系统学习一种通用的表征,其中不同语言中具有相同意义的句子都以类似的方式表示,这些为多语言之间的迁移学习研究提供了良好的基础.在多语平行语料,或者多语可比语料基础上研究基于神经网络的多语言机器翻译,对低资源语言甚至资源丰富型语言的翻译都具有学术价值和实用价值,是自然语言处理研究的一个重要方向.

4) 多模态翻译.传统神经机器翻译过程中,文本翻译过程与翻译场景等信息是相互独立的,因此,导致神经机器翻译的结果往往不够智能,不能自适应的产生适合翻译场景的文本翻译结果.然而相同场景中的图像、文本信息属于异类信息,彼此之间存在巨大的语义鸿沟,因此将对齐后的多模态特征融入神经机器翻译网络,实现多模态神经机器翻译,是提升翻译效果乃至实现智能翻译的一个值得探索的方向.

神经机器翻译代表了一种全新的机器翻译模型,目前在主流语言对上的性能已经超越统计机器翻译,成为当前的主流技术.神经机器翻译能够从平行语料中直接学习特征,应用难度较低,并且能够通过长短时记忆和注意力等机制有效处理长距离依赖问题.虽然该方法在资源依赖、训练算法、可解释性等方面存在不足之处,但是在未来必将获得长足的发展.

猜你喜欢

源语言目标语言语料
基于归一化点向互信息的低资源平行语料过滤方法*
中国大学生对越南语虚词的误用
林巍《知识与智慧》英译分析
浅析日语口译译员素质
教材插图在英语课堂阅读教学中的运用及实例探讨
以口译实例谈双语知识的必要性
《苗防备览》中的湘西语料
从目的论角度看《红高粱》中文化负载词的翻译
国内外语用学实证研究比较:语料类型与收集方法
Reliability assessment consideringdependent competing failure process and shifting-threshold