神经机器翻译的词级别正则化

2021-06-22邱石贵章化奥段湘煜

厦门大学学报（自然科学版） 2021年4期

邱石贵，章化奥，段湘煜，张民

(苏州大学计算机科学与技术学院，江苏苏州 215006)

神经机器翻译(neural machine translation，NMT)将机器翻译任务视为一种序列到序列转化问题，其端到端的建模过程在2014年由Sutskever等[1]提出，该方法采用编码器解码器框架，不依赖人工定义的特征，在短句上的性能十分优越.2015年Bahdanau等[2]在此基础上引入注意力机制，使得翻译性能获得显著提升，并且超越了传统的统计机器翻译(statistical machine translation，SMT).2017年，由Vaswani等[3]提出的Transformer模型更是在翻译性能和速度上进一步得到提升；该模型仅通过注意力机制进行建模，将输入的源语言句子通过编码器编码成上下文内容的中间表示，基于这些句子的中间表示，解码器逐词地生成目标语言的译文.

相比于传统的SMT，NMT是端到端的训练，全局只优化一个目标，并且不需要人工定义特征的过程，对于上下文信息的学习和利用更加充分，深度神经网络对于文本特征强大的学习能力很大程度上得益于网络模型的大规模可学习参数，但正因为其庞大的网络结构带来的拟合能力造成了NMT模型在训练数据规模远小于模型复杂度的场景下，容易出现过拟合的现象，导致模型的泛化能力不足，进而影响其翻译性能[4].

为了有效阻止NMT过拟合，提升模型泛化能力，比较简单直接的做法为增加训练数据，但高质量的平行语料的获取费时费力，因此考虑通过数据增强技术来对原始数据进行扩展.这在图像处理领域的应用是比较常见的，但对于文本数据而言，其离散的特性以及句法上的约束，导致文本处理的方式不能直接借鉴诸如图片裁剪、图片旋转等方式，否则句子本身的信息会被破坏，因此，文本数据的增强技术还需要更多地探索和实践[5].除了数据增强，正则化技术也是有效阻止过拟合，提高模型泛化能力的方法.正则化技术通常是在兼顾模型性能的前提下约束模型复杂度的一种技术，模型对于训练数据的细节过度学习主要是因为模型过于复杂，所以通过一定的技术来削弱模型的学习能力或者简化模型的结构是合理的[6].正则化技术的实现可以从两个角度进行考虑：1) 通过简化模型结构获得一个对数据稍微欠拟合的模型，以此保证模型的泛化能力并且防止过拟合，类似的方法有Srivastava等[7]提出的失活率(dropout)方法.dropout方法通过随机地把网络中的部分神经元的输出置为0来简化网络，从而减少模型对于某些特征的依赖，使得模型的泛化性更强，现已成为训练深度网络的通用技术.2) 通过减少数据的细节或者削弱监督约束来干扰模型对于数据特定细节的学习，如Szegedy等[8]提出对输入数据信息进行加噪或者采用标签平滑(label smoothing,LS)的技术[8]，通过对多分类任务中的监督标签进行加噪，减少真实标签类别在计算损失函数时的权重，这样模型就不会过度地向正向标签和负向标签差值最大的方向学习，尤其在训练数据较少的情况下，能够有效抑制过拟合问题.Cheng等[9]提出在模型输入上添加小干扰，进行对抗稳定训练来提高模型泛化能力；Wang等[10]提出通过对模型源端和目标端输入句子的单词位置采样后，采用随机单词替换的方法来进行干扰.

由于文本数据离散的特性，每个单词在句子中扮演着不同的语义角色，所以相比于对句子整体进行干扰，对单词进行干扰会更加灵活并且更具针对性；此外，词级别干扰可与采样机制结合，使干扰更具随机性.因此本研究采用词级别正则化(word-level regularization,WR)技术.具体地，通过对NMT模型的编码器和解码器两端的输入句子进行词粒度级别的干扰，减少训练数据的细节，并且削弱监督信号的约束，从而抑制模型对训练数据的过度学习、防止过拟合，并重点研究如何给予输入句子单词合适的干扰.

1 WR

本节介绍WR的整体框架和3种干扰策略.WR的目标是通过干扰策略，对NMT编码端和解码端的输入句子造成干扰，其总体框架如图1所示.其中，X是输入到编码器中的源语言句子的向量表示，Z是输入到解码器的翻译过程中已经生成的目标单词序列的向量表示(在训练阶段作为监督信号，是目标句子y右移一个单词的单词序列)，Y是目标句子的向量表示.

图1 WR的结构示意图Fig.1 Structure diagram of WR

对于模型的输入句子X=[x1,x2,…,xn]，定义一个句子长度n的概率向量r，服从概率为p的多元伯努利分布，与句子长度无关.在训练过程中，若单词对应的rw为1则对该单词进行正则化操作，若为0则不执行任何操作，解码端输入Z的操作同理.计算过程如下：

rw～B(1,p)，

(1)

(2)

1.1 SNP

大量文献表明在神经网络中加入随机噪声是减轻过拟合、提升泛化能力的有效方法[11-13].由于本研究关注的是WR方法，所以考虑在输入单词的词嵌入上加入噪声来模拟输入干扰：

(3)

其中：e(xi)代表单词xi的词嵌入向量，向量是以均值为0、标准差为σ采样的高斯噪声，是加噪后的词嵌入向量.使用这个方法既可以限制输入文本的信息量，又可以保留大部分语义信息；但是考虑到深度神经网络强大的建模能力，其本身具有很强的抗干扰能力，因此加入高斯噪声对模型产生的干扰程度比较小.

1.2 SSR

受随机单词替换方法[9-10]的启示，本研究采用相似词替换进行语料扩充，在训练过程中动态地进行采样和替换，替换候选词也随着参数更新的过程不断变化.给定单词xi，计算xi与词表中其他单词的余弦距离作为相似度：

(4)

(5)

其中:ϑ为服从均匀分布的采样函数，即从若干候选单词中等概率地选择一个单词；T表示选择相似度最高的k个候选单词；S表示计算给定单词和词表其他任意单词的相似度;cos(e(xi),e(x))表示xi与x之间的余弦相似度;Vxi是去除xi的词表.词表大小一般是几万，在这样大的空间内采样相似词的不确定性很高，因此计算相似度最高的前k个候选词，然后根据均匀分布采样一个候选词进行替换.SSR采样与候选词列表如表1和2所示，可以看出：通过本方法计算的相似词与原词的关联性较高，替换之后不会对句子的句法结构造成很大影响；但会出现个别不相关的干扰词，如候选词gement与his完全不相似.

表1 SSR示例Tab.1 Example of SSR

表2 候选词列表示例Tab.2 Example of candidates list

1.3 SUM

高斯噪声和相似词替换都面临着搜索空间大、干扰不确定性高的问题，因此提出了一种更为软性的干扰策略，即用标识对原单词进行掩码：

(6)

其中，R为替换函数，即将给定单词替换成，是机器翻译模型用于替换未登录词的特殊符号，使用该符号替换被采样的单词.该方法受到掩码语言模型[14]的启发，BERT[15](bidirectional encoder representations from transformer)中的掩码语言模型任务(masked language model，MLM)将句子中15%的单词用[mask]符号替换掉，然后利用上下文去预测被[mask]的单词.而SUM策略就是在模拟这个过程，充分利用句子的上下文信息来表征单词，并且由于作为词表里的单词是一个可学习向量，编码器根据上下文对其进行编码得到中间状态，能够很好地表示句子的信息.不同于掩码语言模型，SUM策略的目的是为了限制模型对一些信息过度依赖，从而实现WR.SUM策略示例如表3所示.

表3 SUM示例Tab.3 Example of SUM

1.4 训练优化目标

WR对编码器和解码器的输入进行干扰，减轻过拟合，但由于干扰程度的随机性和不确定性，容易破坏句子的语义信息.为了使模型学习到更好的句子表征，本研究引入生成对抗(GAN)思想，使用一个线性判别器C，对中间状态H(x)进行判别是否被正则化.此处H相当于GAN中的生成器，生成模型输入对应的中间状态，也对应本文中的编码器和解码器.整体框架如图2所示.判别器C的目的是区分被正则化和未被正则化的单词，而生成器H的目的则是制造难以被C区分的中间状态.对抗损失的计算方法如下：

图2 对抗优化目标的结构示意图Fig.2 Structure diagram of adversarial optimization

(7)

其中，θmt为翻译模型的参数，θC是判别器的参数.在训练过程中判别器和生成器可以相互得到提升，这样NMT模型可以获得更好的表征能力，并且即使被干扰，生成的中间表示依然能够保留原句的大部分信息.最终的损失函数是翻译和对抗目标的线性组合，使用参数λ控制两个损失比例，如式(8).

L(θmt,θC)=Lmt(θmt)+λLadv(θmt,θC).

(8)

Lmt(θmt)=L(X,Y;θmt)=

-∑(X,Y)∈SlogP(Y|X,Z)，

(9)

其中，Lmt为NMT模型的损失函数，P表示概率.

2 实验和结果

为了验证WR方法的有效性，选择标准的Transformer模型分别在小规模、中小规模和标准规模数据集上进行实验.因为导致过拟合的主要因素是模型复杂度和数据规模，其中模型参数规模在应用词正则化后并无明显差距，所以通过控制数据规模进行方法验证，分别选择小规模、中小规模和标准规模数据集进行实验.不选择大规模数据集，一方面可以更好地观察WR方法对性能的影响；另一方面，大规模数据下模型不易甚至不会出现过拟合问题，这样可以避免失去过拟合问题的研究对象.此外，为了验证WR在更多网络层数和参数的模型上是否有效，本研究设计了12层编码解码结构的Transformer模型实验.

2.1 实验数据

小规模数据集选自IWSLT’14(2014 International Workshop on Spoken Language Translation，http:∥workshop2014.iwslt.org/)德语-英语平行数据集训练德语-英语和英语-德语两个翻译系统，包含平行语料17万句，利用MOSES(http:∥www.statmt.org/moses/)的处理脚本(https:∥github.com/moses-smt/mosesdecoder/scripts/tokenizer/tokenizer.perl，https:∥github.com/moses-smt/mosesdecoder/scripts/training/clean-corpus-n.perl)进行分词和过滤句子长度超过175的句子，得到16万句的平行数据，按照22∶1 的比例划分训练集和验证集，测试集则取自IWSLT14.TED.dev2010、IWSLT14.TED.tst2010、IWSLT14.TED.tst2011、IWSLT14.TED.tst2012、IWSLT14.TEDX.dev2012，共6 750句.并对英语和德语数据进行联合字节对编码(byte pair encoding，BPE)，获得联合词表，词表大小为1万.

中小规模数据集选自WMT’18(2018 Third Conference on Machine Translation，http:∥www.statmt.org/wmt18/)英语-土耳其语平行数据集训练英语-土耳其语和土耳其语-英语两个翻译系统，包含训练语料21万句，同样进行分词和过滤处理，验证集为newstest2016，测试集为newstest2017.英语语料和土耳其语料使用联合BPE处理，获得大小为4.9万的联合词表.

标准规模数据集选自语言数据联盟(Linguistic Data Consortium, LDC)的中文-英语平行数据集训练中文-英语翻译系统，其中训练集包含125万句，使用NIST06(1 664句)作为验证集，使用NIST02、NIST03、NIST04、NIST05和NIST08(分别包含平行句对878，919，1 788，1 082，1 357句)作为测试集.同样采用BPE技术限制词表的大小，不同的是中文和英文语料是分开处理，其中中文词表为4.2万，英文词表为3.1万.

2.2 实验参数

实验采用的是基于Pytorch实现的fairseq[16]框架，使用Transformer作为基准系统，其结构包含6(或12)层编码器和6(或12)层解码器，前馈层和中间层分别为512维和2 048维.对于正则化技术，采用标准dropout方法和LS方法进行模型训练，并将对应参数设置为0.3和0.1.对于本研究提出的WR方法，源端和目标端采样概率分别为ps=0.1和pt=0.3，SNP策略使用高斯噪声的标准差σ=1，SSR策略的候选词数量k=20.在3种干扰策略上均应用对抗训练，其中SNP与SSR的λ=1，SUM的λ=0.01.

LDC中-英的测试集包含4个参考译文，因此本文使用脚本multibleu.pl(https:∥github.com/moses-smt/mosesdecoder/scripts/generic/multi-bleu.perl)测试其双语互译评估(bilingual evaluation understudy,BLEU)值，而对于IWSLT’14英语-德语、IWSLT’14德语-英语、WMT’18英语-土耳其语、WMT’18土耳其语-英语系统，则使用SacreBLEU计算BLEU值.在解码时，集束搜索的大小均设为10.

2.3 主要结果

采用6层编码解码结构的Transformer作为基准系统，在应用不同的干扰策略后，小规模数据集英语-德语和德语-英语两个翻译方向的实验结果如表4第2和3列所示.可见模型在不同的干扰策略下BLEU值都有不同程度的提升，其中SSR策略和SUM策略的提升最为明显，这两种策略在英语-德语翻译语向的BLEU值分别有0.95和1.00个百分点的提升，在德语-英语翻译语句上分别为1.25和1.44个百分点的提升.

表4 不同干扰策略下6层编码解码结构的Transformer的BLEU值Tab.4 BLEU values of Transformer with 6-layer encoding and decoding seructure using different disturbance strategies %

中小规模数据集英语-土耳其语和土耳其语-英语两个翻译方向的实验结果如表5第4和5列所示.和英语-德语和德语-英语实验结果类似，SUM策略的提升最为明显，在英语-土耳其语上和土耳其语-英语任务上BLEU值分别有0.98和1.55个百分点的提升.在标准规模数据集的中文-英语任务上，3种策略同样给系统带来了类似的提升，尤其是SUM策略使BLEU值获得了平均1.42个百分点的提升，其结果如表5所示.

表5 不同干扰策略在中文-英语任务中的BLEU值Tab.5 BLEU values on Chinese-English task using different disturbance strategies %

上述结果表明：1) WR方法针对过拟合问题导致的泛化能力不足，在数据规模以及语言类型上具有通用性，即不管是小规模、中小规模和标准规模数据集都能够起到积极的正向作用；同时对相似语种的翻译任务(如英语和德语)或者不相似语种的翻译任务(如中文和英语)，WR方法都具有相当充分的包容性.2) WR方法的3种干扰策略的干扰程度是SUM>SSR>SNP，本研究通过实验验证了SUM策略可以扩展到其他任意特定符号，并不仅限于这一符号.如在词表中加一个特定符号进行遮罩也能够获得相似的结果，其思想是将许多复杂句子细节通过一个特定符号统一处理，以此达到削弱句子特异性的目的.3) 3种策略中，只有SSR策略是基于语言知识的针对性进行干扰，因为SSR是对语言相关性类似的单词进行替换，所以理论上应该会比SNP和SUM更好，但是实验结果一致说明SUM策略的提升最为明显.为此，通过分析和验证后发现SSR策略存在两个影响性能的方面：1) 检索相似单词的时候，不相关的单词会严重破坏句子本身，这主要是语言模型的学习不够好所致；2) BPE将一些单词分成了若干子词，导致部分单词被替换成了一些并没有具体意义的单词.通过过滤掉这些BPE导致的特殊情况，SSR策略的性能能够与SUM策略相当.

12层的Transformer模型的英语-土耳其语和土耳其语-英语实验结果如表6所示，相比于6层编码解码结构的Transformer模型，需要训练的参数更多，模型复杂度更高，而英语-土耳其语平行数据集是中小规模数据集，即模型复杂度和数据规模，相比于标准Transformer更加不匹配，也就意味着模型更容易出现过拟合问题.从表6的结果可以看到，WR依然能够有效缓解过拟合问题，提升模型泛化能力.这也更加有力地验证了以上关于WR方法的3个结论.

表6 不同干扰策略下12层编码解码结构Transformer的BLEU值Tab.6 BLEU values of Transformer with 12-layer encodingand decoding structure using different disturbance strategies %

3 模型分析

3.1 消融分析

本研究旨在设计一种如dropout和LS一样简单且通用的正则化方法，为此设计在英语-土耳其语平行数据集上的对比实验.Baseline系统是没有应用dropout、LS以及WR的fairseq框架实现的Transformer模型，讨论3种正则化方法对模型的影响，结果如表7所示.Baseline系统和标准Transformer(含dropout和LS)的BLEU值(英语-土耳其语)相差7.23个百分点，不同的正则化技术对系统的性能有不同程度的贡献，dropout>WR>LS.dropout和LS能成为网络训练的标准配置也体现了其不可替代性，但是不管是单独的WR，还是配合dropout和LS的WR都能够对系统起到积极的影响，进一步提升了系统性能.这是因为WR的干扰策略能够给予模型类似于dropout和LS的影响：WR对于NMT模型编码端输入的干扰提升了模型对文本的表征能力；而对于解码端输入的干扰则同LS一样，削弱了监督信号的影响，提升了模型的泛化能力.

表7 dropout、LS和WR消融实验的BLEU值Tab.7 BLEU values of dropout,LS,WR ablation experiments %

3.2 模型泛化分析

困惑度(perplexity,PPL)是衡量语言模型收敛情况以及模型好坏的指标之一.它的主要思想是通过一句话中所有单词的联合概率来估计这句话的合理性.计算公式如下：

(10)

其中,P(S)是计算给定句子S的困惑度函数，S=[w1,w2,…,wN]代表一个句子，N是句子长度.模型在给定测试集上的句子获得的概率越大，说明模型对于测试集的结果越准确，相应的PPL越小，可以有效地反映模型是否出现过拟合.图3(a)～(c)分别为模型在训练过程中所有轮次的损失变化曲线、验证集的PPL变化曲线和BLEU值变化曲线.相比于Baseline系统(标准的Transformer)，采用WR的模型在训练过程中，损失不会下降到Baseline水平，同时在验证集上获得更低的PPL，其中SUM和SSR策略随着训练进程的推进，不会出现和Baseline一样的回升趋势，并且BLEU值也高于Baseline，证明本研究提出的WR干扰策略SUM和SSR更不容易出现过拟合的情况，且模型的泛化能力得到了提升.

图3 土耳其语-英语翻译任务所有轮次的训练损失(a)、验证集PPL(b)、验证集BLEU值(c)Fig.3 Training loss (a),valid PPL (b),and valid BLEU values (c) over epochs on the Turkish-English translation task

3.3 采样概率分析

NMT模型包含编码器和解码器，编码器端和解码器端的采样概率ps和pt是影响模型性能的重要因素.为了分析两端的采样概率对模型的影响，进行不同采样概率的对比实验，Baseline系统选择标准的Transformer模型.

固定目标端采样概率pt=0.3，控制不同源端采样概率ps(0,0.05,0.10,0.15,0.20,0.25)进行实验，结果如图4(a)所示.

固定源端采样概率ps=0.1，控制不同的目标端采样概率pt(0,0.1,0.2,0.3,0.4,0.5,0.6,0.7)进行实验，结果如图4(b)所示.

从图4可以看出：1) 源端对于采样概率的变化相比于目标端更加敏感；2) 采样概率并不是越大越好，模型的性能整体上均随着目标端和源端概率的增加呈现先增后降的趋势；3) 对于不同的干扰策略，最佳的采样概率也不一样，三者对于模型的干扰程度也决定了最佳采样概率的峰值；4) SUM策略随目标端采样概率增加呈现最明显的下降趋势，SSR策略随源端采样概率增加呈现最明显的下降趋势，因此在3种策略中SUM策略和SSR策略的干扰程度明显大于SNP策略.

图4 源端和目标端采样概率对翻译性能的影响

3.4 优化目标分析

在训练的过程中，本研究应用对抗损失目标，见式(8).为了分析对抗损失对模型性能的影响，本研究对含有对抗目标的模型和不含对抗目标的模型进行对比实验，结果如图5所示.其中，Baseling为标准的Transformer，NoLadv和withLadv分别表示标准的Transformer+WR不采用和采用对抗损失的方法.可以看出：在WR的3个干扰策略上应用对抗优化目标都获得了BLEU分数的提升，证明了该损失目标的有效性.其中SSR受到对抗目标的影响最大，BLEU差值在0.7个百分点左右；而SNP和SUM相较于没有使用对抗损失的模型BLEU值均提升了约0.2个百分点.

图5 对抗优化目标的影响Fig.5 Impact of adversarial objective

4 结论

针对NMT模型因为数据规模和模型复杂度不匹配造成的过拟合和模型泛化能力不足问题，本研究提出了WR技术，并采用不同的干扰策略SNP、SSR和SUM.该方法具有简单和通用的特性，通过在小规模、中小规模、标准规模数据集上设计的实验，以及针对模型泛化能力和性能等方面的分析实验验证了该方法的有效性，即WR能够有效地防止模型过拟合，提升模型的泛化能力，并进一步提升模型性能.与已有研究工作相比，本研究提出的WR方法能够给予模型源端和目标端更有针对性的干扰策略，主要体现在词级别的干扰对于两端的影响各不相同，并通过添加对抗目标来提高模型的在干扰情况下的表征能力.而在未来的工作中，将更多考虑干扰策略中结合语言学知识，达到对特定单词的针对性干扰，同时提高方法的可解释性.