一种增强机器阅读理解鲁棒性的上下文感知多任务学习框架

2023-07-15陈羽中

小型微型计算机系统 2023年7期

张睿,陈羽中

(福州大学计算机与大数据学院,福州 350116) (福建省网络计算与智能信息处理重点实验室,福州 350116)

1 引言

机器阅读理解(Machine Reading Comprehension, MRC)是自然语言处理的一个重要方向,它以问答的形式考察模型对文本语义的理解程度[1].在抽取式阅读理解任务[2]上,给定文章与相关问题,MRC模型需要预测答案片段在文章中的开始、结束位置.

随着深度学习的发展,出现了许多端到端的机器阅读理解模型,它们的典型架构包括编码层、交互层、输出层[3-6],它们在SQuAD1.1[7]、RACE[8]这样的阅读理解数据集上取得了优秀的表现.随着预训练语言模型的发展,基于预训练语言模型的MRC模型[9-12]能够得到更充分的文本表示信息,它们在SQuAD1.1、SQuAD2.0[13]等数据集上的表现已经可以与人类媲美.但在AddSent[14]、AddOneSent[14]这样的关于SQuAD1.1的对抗数据集上,许多模型的鲁棒性并不好,包括QANet、BERT等.Jia等[14]将基于特定规则生成的与原问题有很多共同词的句子作为干扰句插入到文章的末端,这些干扰句不会改变问题的答案,人类能做出正确的回答,但MRC模型会受这些干扰句的影响给出错误的预测,从而表现大大降低.这是由于抽取式阅读理解任务只预测答案片段的起、止位置,很容易导致模型在训练中陷入数据集的表面偏差,仅通过简单地对齐文章和问题之间的词来回答问题,而忽略了文章的真实语义信息.现在,越来越多的工作开始关注阅读理解模型的鲁棒性[15-17].

现有方法[14,15,18-27]主要有从通过生成对抗样例进行数据增强、对抗训练、模型增强等方面来增强MRC模型的鲁棒性.

构造生成对抗样本来训练模型是最直接的方式,一些工作[14,15,18]通过设计相关的规则来生成相应的对抗样例,如词替换、插入句子、打乱文本顺序等,进行数据增强来提高模型的鲁棒性.但考虑到所有的攻击类型从而设计规则生成对抗样本是不现实的,当模型面对其他类型的对抗样本时表现还是会降低.

在训练方法上,结合对抗训练来提高MRC模型的鲁棒性也是一种有效的方法[20,21],并且还能提高模型的性能.这些工作通常以添加正则项训练目标的方式来对文本进行基于梯度的对抗训练、虚拟对抗训练,但由于多了在对抗样本上反向传播的步骤,因此它们大大增加了训练时间.

除此之外,还有工作通过改进模型结构来增强MRC模型的鲁棒性.在模型的输入端,Min等[22]先用句子选择器选出与问题最为相关的几个句子作为关键句子的最小集合,再将它们输入进模型训练.但由于干扰句本身与问题存在许多共同的词,因此模型不能很好地过滤掉干扰句.还有一些方法通过引入外部知识到模型中间的表示中来增强模型的鲁棒性[23-25],但这些方法很依赖外部知识库的质量,且仍然依靠浅层的词匹配来预测答案.另外,一些工作以多任务学习的方式在预训练语言模型下游微调任务来提高MRC模型的鲁棒性.QAinfomax[26]提出引入互信息任务到问答模型中来避免模型陷入数据集的表面偏差,但它随机打乱原样本来构建负样本的方式会引入过多的噪声,从而难以训练得到更鲁棒的判别器,并且基于交叉熵的正负例判别方式对语言模型的表示能力和鲁棒性提升有限.反事实变量控制(Counterfactual Variable Control, CVC)[27]问答模型则将因果推理的思想结合到MRC模型中,它由鲁棒分支和捷径分支组成,在BERT下游进行多任务学习,主要思想是保留鲁棒分支的可靠预测,而减少捷径分支学习到的文章与问题之间的推理捷径,但该方法降低了模型的泛化能力.简而言之,基于模型增强的方法存在鲁棒性与泛化能力难以同时保证的问题,模型本身还有改进的空间.

为了解决以上问题,本文观察人类做阅读理解任务的过程,人类通常会在文章中找出问题相关的关键片段来缩小答案范围——往往答案就包含在这种关键片段中,并且结合问题来辨析关键片段与干扰句,从而排除干扰句,给出正确的答案预测.针对现有MRC模型存在的问题,受人类做阅读理解任务的启发,本文充分利用答案与其上下文之间的语义关系来解决数据集的表面偏差对模型预测答案产生的负面影响,提出了一个端到端的多任务学习框架ASMI,并设计了两个辅助任务加强模型的性能和鲁棒性.本文贡献可以总结如下:

1)提出了一种端到端的神经网络框架ASMI,它模拟人类做阅读理解的方式,在SpanBERT下游将问答任务联合两种辅助任务进行多任务学习,在保证模型的泛化能力的基础上,进一步显著提高了MRC模型的鲁棒性,避免模型依靠简单的词匹配来预测答案.

2)首次提出利用答案上下文预测任务ASCP来提高MRC模型的鲁棒性.为了有效利用答案与上下文之间的语义关系,本文设计了上下文注意力机制来预测答案上下文的软标签[28],从而利用答案上下文信息辅助问答任务来确定答案,并排除干扰句对模型的影响.

3)提出了增强的答案与上下文之间的互信息估计任务MIAC来提高MRC模型的鲁棒性.利用多层Transformer[29]所提取的高层语义特征来估计和最大化答案与上下文之间的互信息,并提出了一种新的负样本构造策略,它对高层语义特征添加词级的扰动来生成负样本,而不仅仅只是随机打乱原样本.为了更好地与负样本生成策略结合,本文使用JSD互信息估计器[30]来估计互信息.通过这种方式,所提出的模型能有效辨析答案上下文和干扰句之间的语义差异,使得模型对干扰句的表现更加鲁棒.

2 相关工作

近几年越来越多的研究开始关注MRC的鲁棒性,这些工作主要可以分为通过生成对抗样例进行数据增强、对抗训练、模型增强的方式.

通过生成对抗样本进行数据增强,再在这些对抗样本上训练模型来提高鲁棒性是一种最直接的方式.Jia等[14]在文章的末尾插入基于特定规则生成的与原问题有很多共同的词的句子来构造对抗数据集,然后将这些对抗样本与数据集中的原始样本一起训练MRC模型,使得模型在对抗数据集上的效果获得较大提升.但这种方式也会让模型学习到通过忽略文本的最后一句话来预测答案的模式,一旦干扰句的插入位置改变,模型的表现就再次下降.Wang等[15]在该工作的基础上把干扰句插入到文章中的不同位置来生成对抗样本,并拓展了假答案的集合,构造了AddSentDiverse数据集,他们的模型可以应对更多攻击类型的干扰句.总体来说,基于规则生成对抗样本的方法要事先知道和设计多种攻击类型,比如词替换、插入句子、打乱文本顺序等,但通过人为设计规则来覆盖所有攻击类型是不现实的.因此不同于基于规则的方法,Liu等[19]在每个样本的词嵌入中插入一段连续的可训练的干扰序列来构造对抗样本,从而尽量覆盖通用的攻击类型,干扰序列的每个词嵌入是整个词表词嵌入的加权和.这种方法有效地提高了模型的鲁棒性,但由于干扰序列的插入影响了模型的语义理解,导致模型泛化能力受到影响,在SQuAD1.1上的表现下降.

鉴于通过生成对抗样例进行数据增强的方式难以同时保证模型的泛化能力和鲁棒性,一些工作致力于通过结合基于梯度的对抗训练[20]或虚拟对抗训练[21]来训练阅读理解模型.基于梯度的对抗攻击方法通常在样本的词嵌入层添加微小的扰动,通过反向传播后沿着梯度相反的方向——即最大地偏离正确标签的方向,对损失函数添加梯度惩罚来更新模型参数从而增强模型的鲁棒性.虚拟对抗训练是一种半监督学习的方法,与对抗训练不同的是虚拟对抗训练不需要标签信息,它寻找的是使预测的输出分布偏离的方向.通过基于梯度的对抗训练和虚拟对抗训练,MRC模型的鲁棒性和泛化能力可以同时提高.但由于多了对扰动样本的反向传播过程,因此模型的训练时间大幅增加.

除了数据增强和对抗训练之外,还有的工作致力于通过优化模型结构来增强MRC模型的鲁棒性.在模型的输入端,Min等[22]研究了回答问题所需的最小上下文,提出了一个句子选择器,选择最为关键的几个句子输入到问答模型中.但由于干扰句本身与问题存在许多共同的词,因此模型不能很好地过滤掉干扰句,对模型鲁棒性的提升有限.Liu等[3]在模型的输出层对多个时间步的输出结果随机采样再取平均来模拟多步推理,从而提高MRC模型的泛化能力和鲁棒性,但这种模拟推理的方式过于粗略.还有一些工作通过引入外部知识到模型中来增强模型的鲁棒性.Wang等[23]提出的KAR(Knowledge Aided Reader)模型使用WordNet抽取问题和文章的词间语义关系作为通识知识到网络中,辅助注意力计算.该方法在AddSent和AddOneSent上取得了当时的最好效果.受KAR的启发,Wu等[24]进一步引入了ELMo词嵌入,利用知识增强模块将外部知识与上下文表示进行融合,并结合多任务学习预测不可回答问题类型的任务从而提高模型的鲁棒性.不同于利用WordNet这样的知识库,Zhou[25]通过后验正则化的方式引入外部语言学知识,从而使用命名实体、词法限制、谓词限制等不同的语法限制来约束模型,提高模型在语法、语义对抗样例上的鲁棒性.总体来说,引入外部知识的方式很依赖知识库的质量,并且模型依旧依靠浅层的词匹配来预测答案,模型的鲁棒性提升有限.

随着预训练语言模型和多任务学习的发展,一些工作在预训练语言模型下游通过多任务学习的方式来提高MRC模型的鲁棒性.为了解决数据集中存在的表面偏差使得模型依赖浅层词匹配来预测答案的问题,QAinfomax[26]首次把互信息估计思想引入BERT中作为辅助任务,以帮助正则化模型,让模型不仅仅只学到表面的词匹配信息,取得了当时的最佳性能.但QAinfomax随机打乱原样本来构建负样本的方式会引入过多的噪声,限制了模型学习到更稳健的判别器的能力,并且基于交叉熵的正负例估计方式对语言模型的表示能力和鲁棒性提升有限.Yu等[27]提出的CVC模型也在BERT下游执行多任务学习,它将因果推理引入MRC.CVC模型由鲁棒分支和捷径分支组成,主要思想是保留鲁棒分支通过综合推理得出的可靠预测,并减少捷径分支学习到的文章与问题对之间的推理捷径来使模型做出鲁棒的推理,但该方法降低了模型的泛化能力,使得模型在SQuAD1.1数据集上的表现下降.

3 方法

3.1 模型框架

首先,给出抽取式阅读理解任务的定义.阅读理解任务的训练集为三元组(P,Q,A)的形式,P表示文章,它由m个词组成,P={x1,x2,…,xm}.Q代表问题,由n个词组成,Q={x1,x2,…,xn}.A代表Q相关的答案,是P中一段连续的子序列,抽取式阅读理解的目标就是通过问答任务预测答案A在P中的起始位置、结束位置.

本文框架如图1所示,图1左侧是ASMI模型的架构,沿用了BERT在问答任务上的架构,使用SpanBERT作为预训练语言模型,因为它的预训练任务关注于区间的表示与预测,从而它能与下游的辅助任务更好地结合来提高MRC模型在SQuAD1.1的对抗数据集上的鲁棒性.ASMI模型的输入是“[CLS]P[SEP]Q[SEP]”的形式,其中“[CLS]”和“[SEP]”是分隔符,用于把P和Q分隔开来.模型将输入序列通过词嵌入层和多层Transformer编码为高维语义特征,然后通过多任务学习将这种高层语义特征在具体下游任务上微调.本文设计了两个辅助下游任务,将这两种辅助任务与问答任务联合训练.它们分别是答案上下文预测任务(ASCP)和答案与上下文互信息估计与最大化任务(MIAC).MIAC任务如图1右上角所示,ASCP任务和图1右下角所示.它们致力于充分利用答案与其所在的上下文之间的关系确定答案范围,并排除干扰句对模型的影响,使得模型学习到更加鲁棒的表示.

图1 ASMI架构Fig.1 Framework of ASMI

3.2 答案区间预测

问答任务的目标是找到答案区间A的起、止位置.如图2所示,令as,ae代表答案区间开始、结束位置的下标.

图2 答案区间A及其上下文C在文章P中的下标表示Fig.2 Subscript representation of answer-span A and its context C in passage P

定义C代表答案A的上下文,令cs,ce代表该答案上下文的开始、结束位置的下标,并设置了一个大小为w的窗口来控制C的范围,即cs=as-w,ce=ae+w,w≥1.若xi在答案区间A的范围内,则xi和A、C之间的关系可以表示为:

xi∈A⊂C⊂P,1≤cs

(1)

如3.1节所述,ASMI模型的输入序列是“[CLS]P[SEP]Q[SEP]”,它通过词嵌入层和多层Transformer后被编码为高层特征表示H.由于P是输入序列的组成部分,将P的高层特征表示为HP={h1,h2,…,hm}.同样地,将A的高层特征表示为HA={has,…,hae},A相关的C的高层特征表示为HC={hcs,…,hce}.ASMI使用和BERT在问答任务上一样的答案预测层,这部分的实现细节可见参考原论文[9].问答任务的损失函数记为:

(2)

其中,LQA是问答任务的损失,y是one-hot类型的开始和结束位置的标签,如果当前位置是正确的起、止位置则是1,否则为0.

3.3 答案上下文预测

人类做阅读理解任务时,通常会在文章中找出与给定问题相关的关键片段来缩小答案范围——这种关键片段通常包含着答案信息,是答案的上下文.答案上下文为答案预测提供了重要的线索,并减少干扰句对模型产生的不确定性.因此,在这一节本文引入了答案上下文预测(ASCP)任务,这可以帮助模型专注于答案与它的上下文之间的语义关系.由于SQuAD1.1数据集里没有答案上下文的标签,首先需要生成这样的标签来指导模型预测答案上下文,然后将高层特征表示H作为答案上下文预测层的输入,并设计上下文注意力机制来拟合答案上下文的标签分布,使得模型学习到合适的答案上下文信息.

3.3.1 答案上下文软标签生成

ASMI采用BLANC[28]的方法为答案上下文生成软标签.具体来说,给定P中第i个位置的词xi,将xi在答案上下文C范围内的率表示为psoft(xi∈C),利用xi和答案区间的起止位置之间的单词数来表示xi和答案A之间的距离.随着xi和答案区间之间的距离增加,psoft(xi∈C)将不断减少.答案上下文的软标签分布如下:

(3)

其中,q是控制psoft(xi∈C)呈指数下降的超参数,0≤q≤1.|i-as|是答案区间的起始位置和xi之间的距离,|i-ae|是答案区间的结束位置和xi之间的距离.当距离超过窗口大小w时,psoft(xi∈C)等于0.

3.3.2 基于上下文注意力预测答案上下文

首先将高级特征表示H作为答案上下文预测层的输入,用类似于预测答案区间的方式来预测答案上下文的起止位置.与 BLANC 类似,p(i=cs)表示xi是答案上下文的开始位置的概率,p(i=ce)表示xi是答案上下文的结束位置的概率.

(4)

(5)

其中,Wc,Vc,bs和be分别代表可训练的参数.

ASMI模型可以从p(i=cs)和p(i=ce)中学习到答案上下文的边界信息.为了学习到充分的答案上下文信息,本文提出了上下文注意力机制对p(i=cs)和p(i=ce)建模从而拟合psoft(xi∈C).具体来说,将预测xi在答案上下文范围内的概率表示为p(xi∈C),先构造一维向量pdist,pdist的定义如下:

pdist={pdist(1),pdist(2),…,pdist(i),…,pdist(m)}

(6)

pdist(i)=(p(i=cs)-p(i=ce))2

(7)

其中,pdist(i)表示p(i=cs)和p(i=ce)的距离平方和.

然后,对pdist进行线性变换和Softmax,得到一个答案上下文分布的分数,即为p(xi∈C):

雷志雄领着雷钢和雷红到车站时，欧阳橘红开始没看见他们，正伸长脑壳四处了望，听到雷志雄说：雷钢，你带妹妹在这里等我，爸爸去商店买东西。这时，才看到他们。

(8)

其中,Wr,br分别代表训练的参数.p(xi∈C)是预测xi是否在答案上下文内的分数.

通过使用上下文注意力机制来拟合答案上下文的软标签分布,ASMI模型可以学习和利用答案上下文的信息来辅助问答任务确定答案区间,同时排除干扰句对模型的影响,提高模型的鲁棒性.最后,使用p(xi∈C)和psoft(xi∈C)两个分布的交叉熵来计算ASCP任务的损失函数:

(9)

3.4 答案与其上下文之间的互信息估计

本节介绍答案与其上下文之间的互信息估计(MIAC)任务.QAinfomax[26]指出SQuAD1.1数据集中存在一些表面的偏差和捷径.在训练时,模型会倾向于学习简单的模式匹配,即通过简单地对齐文章和问题之间的单词来预测答案.一旦干扰句和问题有很多共同的词,模型就很容易预测出错误的答案.正如人类做阅读理解时通过辨析关键片段与干扰句来排除干扰句, MRC模型可以通过辨析答案与其上下文之间的语义相关性来减少干扰句带来的负面影响.受QAinfomax的启发,本文框架设计了MIAC任务,通过估计和最大化答案与其上下文之间的互信息来避免模型被干扰句迷惑,并帮助正则化模型,使得模型学习到更加鲁棒的表示.

互信息是衡量两个随机变量X和Y之间相互依赖性的量度,它可以定义如下:

I(X;Y)=DKL(p(X,Y)‖p(x)p(y))

(10)

其中,DKL代表KL散度,p(X,Y)是X和Y的联合分布,p(X)p(Y)是X和Y的边缘分布的乘积.在MIAC任务中,X是每个HA中随机选择的一个词表示所构成的集合,每个HA有它对应的上下文HC,Y是这些HC构成的集合.

为了估计互信息I(X;Y),训练一个辨别器来辨别联合分布p(X,Y)和边缘分布的乘积p(X)p(Y).由于模型旨在最大化互信息而并不太关心I(X;Y)的具体值,因此采用JSD互信息估计器[30]来计算两个变量之间的互信息,并将其用作I(X;Y)的下界.I(X;Y)和它的下界IJSD(X;Y)的定义如下:

I(X;Y)≥IJSD(X;Y)

(11)

(12)

为了估计答案与其上下文之间的互信息,首先需要构建正样本和负样本.QAinfomax采用随机打乱的方式构建负样本,这样构建的负样本与正样本相差很大,模型难以学习到更稳健的判别器.因此,与QAinfomax不同,ASMI模型在输入的高层特征中加入词级的扰动来构建负样本,这样构建的负样本在语义上即能和原样本存在区别又能保持一定的相关性,从而辨别器可以被训练地更有效.

MIAC任务的训练目标是最大化答案与其上下文之间的互信息.根据公式(12),损失函数为:

LMIAC=-E{[-sp(-Tω(har,HC))]

(13)

其中,ci代表上下文C中第i个位置的下标.

3.5 总损失

ASMI将预训练语言模型SpanBERT作为主干网络,以多任务学习的方式将两个辅助任务和QA任务一起微调.总目标损失函数是:

Ltotal=(1-λ)*LQA+λ*LASCP+η*LMIAC

(14)

其中,λ用于调整QA任务和MIAC任务的权重,使得模型能充分利用答案上下文信息来指导QA任务.参数η是MIAC任务的权重,用于对总损失进行正则化.

4 实验

为了验证模型的有效性和鲁棒性,本文在 SQuAD1.1[7]、AddSent[14]和 AddOneSent[14]上进行了实验,并将ASMI与一些取得过最佳表现的MRC模型进行对比,观察与分析模型在相同实验设置下的性能,评估不同的下游任务对模型整体表现的影响.

4.1 数据集

SQuAD1.1是一个大规模的抽取式阅读理解数据集,由超过10万问答对组成.这些语料全部来自于维基百科,每个问题的答案是相关文章中的一个短片段.本文实验将SQuAD1.1作为训练集.

在测试集的选择上,由于SQuAD1.1没有公开测试集,因此将其验证集作为测试集来评估MRC模型的理解能力.此外,在AddSent和AddOneSent上评估MRC模型的鲁棒性.给定(文章、问题、答案)组成的原始样本,Jia等[14]设计了一些规则来生成最多五个与每个原始样本的问题具有多个相同词的候选干扰句.每个干扰句经过人工修缮语法后,分别被插入到文章末尾,从而构建多个候选对抗样本.AddSent数据集由这些对抗样本组成,对于每个问题,取模型在相关候选对抗样本上所预测的最低F1分数作为该问题预测答案的F1分数,分数最低的对抗样本最具迷惑性.AddOneSent数据集,是从每个问题的对抗样本中,随机选择一个构建而成.表1显示了3个数据集的统计数据.

表1 3个数据集的统计数据Table 1 Statistics of three datasets

4.2 实验设置和评估指标

本文实验选择EM和F1分数这两个广泛使用的指标来评估MRC模型的阅读理解能力以及它们在面对干扰句时的鲁棒性.EM分数代表预测答案与真实答案完全匹配的百分数,F1分数衡量预测答案与真实答案之间的平均词重叠.

ASMI模型基于Pytorch框架实现,所有的实验都在2块NVIDIA Tesla P100 GPU上运行,主要基于SpanBERT微调ASMI模型.由于计算资源有限,对ASMI模型的一些超参数设置进行了修改,并用这些超参数重新实现了一些对比模型,这些参数主要是批量大小和最大序列长度,其他超参数保持不变.批量大小设为8,基于Transformer的模型的最大序列长度设为384,训练的迭代次数设为3,学习率保持为2×10-5,慢热学习的比例为10%.在下游任务的超参数上,令上下文窗口大小w为2,令距离指数衰减参数q为0.7,λ为0.8,η设为0.1.

4.3 对比模型

实验选取的对比模型包括:BiDAF、SAN、QANet、KAR、KENUP[24]、BERT、QAinfomax、CVC、SpanBERT、BLANC、RoBERTa、ALUM、DYGIS[19]等先进模型.其中,BiDAF,SAN,QANet,KAR,KENUP基于MRC模型的传统架构,其他模型基于预训练语言模型.由于作者未给出模型名称, 本文将Wu[24]提出的模型称为KENUP,将Liu[19]的模型称为DYGIS.

4.4 实验结果分析

ASMI模型和对比模型在3个数据集上的实验表现如表2所示.对比模型的实验结果大多来自于原论文,若原论文没有给出对应结果,则使用开源代码复现并记录在3个数据集上的实验结果,上标包含“*”的模型的实验结果来自于本文的实现.所有基于Transformer的模型都有大小两个版本,分别标有下标“large”和“base”,ASMIbase和ASMIlarge分别基于SpanBERTbase和SpanBERTlarge.

表2 ASMI与基准模型在3个数据集上的对比Table 2 Overall performance of ASMI and other baseline models on three datasets

从表2可以看到,大多数对比模型在AddSent和AddOneSent两个对抗数据集上的表现显著下降,这表明现有MRC模型很容易受到干扰句的影响.但可以看到,基于Transformer的模型的性能普遍优于非基于Transformer的模型,这表明预训练语言模型比传统MRC架构的模型能更好地表示文章和问题的语义信息.SpanBERT在3个数据集上的表现都优于BERT,这是由于SpanBERT的预训练任务使它更关注于学习答案区间的特征表示,从而能够比BERT更好地理解文章和问题中潜在的语义信息.QAinfomax和CVC的结果表明,在预训练语言模型下游执行多任务学习是一种有效的提高MRC模型鲁棒性的方式.并且,BLANC以多任务学习的方式将上下文预测辅助任务与QA任务相结合,在3个数据集上都取得了比SpanBERT更高的性能.同时,更大的预训练语言模型和更多的预训练数据可以有效提高模型的泛化能力和鲁棒性,因此RoBERTa的表现明显优于BERT.而ALUMRoBERTa-large对RoBERTalarge进行虚拟对抗训练,进一步提高了模型的鲁棒性.至于本文模型,ASMIbase在3个数据集上获得了最高的EM和F1分,“base”版本的结果比所有非基于Transformer的模型和基于Transformer的模型都高.并且,在所有对比模型中,ASMIlarge在SQuAD1.1上取得了最高的F1分,在AddSent上取得了最高的EM分,在AddOneSent 上也取得了最高的EM和F1分.因此,可以说ASMI模型比所有对比模型更有效、更鲁棒,原因在于ASMI模型可以充分利用多任务学习,有效地学习到更丰富的词级表示,从而提高模型的语义理解能力,并抵抗干扰句的带来的负面影响.

4.5 消融分析

本节设计了若干个消融模型进一步分析两个辅助任务对ASMI模型整体效果的影响.消融模型包括ASMIbasew/o ASCP、ASMIbasew/o MIAC和ASMIbasew/o ALL.ASMIbasew/o ASCP和ASMIbasew/o MIAC分别从ASMIbase上移除了ASCP任务和MIAC任务.ASMIbasew/o ALL同时移除了ASCP和MIAC两个任务,仅在SpanBERTbase下游微调QA任务.三角形符号“△”表示不同消融模型和ASMIbase的结果差距.实验结果如表3所示.

表3 消融实验结果Table 3 Performance results of ASMI and its ablation models on three datasets

比起ASMIbase,ASMIbasew/o ASCP的EM分数在 SQuAD1.1、AddSent 和 AddOneSent 数据集上分别下降了 1.17%、4.9%和3.00%,而ASMIbasew/o ASCP的F1分数分别下降了0.69%、5.34%和3.32%.ASMIbasew/o ASCP和ASMIbase之间的性能差距表明,ASCP任务是一个重要的下游任务,可以有效提高模型的性能和鲁棒性,可以观察到模型在两个对抗数据集上的性能下降比SQuAD1.1大得多.该结果表明,将问答任务与ASCP任务一起训练可以大大减少干扰句对模型的影响.

与ASMIbase相比,ASMIbasew/o MIAC的EM分数在 SQuAD1.1、AddSent和AddOneSent上分别下降了0.65%、1.2%和0.70%,而ASMIbasew/o MIAC的F1分数分别下降了0.12%、1.77%和0.46%.ASMIbasew/o MIAC和ASMIbase之间的差距小于ASMIbasew/o ASCP和ASMIbase之间的差距.该结果表明MIAC任务在提高ASMI的性能和鲁棒性方面也发挥了重要作用,但ASCP比MIAC任务贡献更大.

最后,可以看到ASMIbasw/o ALL在所有消融模型中表现下降最多.该消融模型仅在SpanBERTbase下游微调QA任务.ASMIbasw/o ALL和ASMIbase之间显著的性能差距证明了两个辅助任务的有效性.此外,这两个辅助任务是互补的.比起仅在QA任务上训练,或将QA任务和辅助任务之一联合训练,在SpanBERT下游联合训练3个任务可以使模型学习到最好的参数,对阅读理解能力和鲁棒性提升最多.

5 总结

本文提出了一个端到端的神经网络框架,以多任务学习的方式在SpanBERT下游联合训练QA任务和两种辅助任务,提高了模型的阅读理解能力和鲁棒性.辅助任务ASCP基于上下文注意力机制显示地预测答案上下文,用于强化答案上下文对QA任务的指导作用,避免模型被干扰句迷惑.辅助任务MIAC对高层语义特征添加词级的扰动来构建负样本,并结合JSD互信息估计器来估计和最大化答案与上下文之间的互信息,从而有效从干扰句中辨别答案上下文,减少干扰句对模型的负面影响.在未来,本文工作将着眼于进一步改进模型,例如寻找更合适的辅助任务、添加多样的对抗数据进行训练,以及引入不同的外部知识来增强模型的隐层表示等.