基于GScRNN 神经网络的对抗样本防御方法

2020-03-05牟志殷锋袁平

现代计算机 2020年2期

牟志，殷锋，袁平

（1.四川大学计算机学院，成都610065；2.西南民族大学计算机科学与技术学院，成都610041；3.重庆第二师范学院数学与信息工程学院，重庆400067）

0 引言

神经网络近年来在计算机领域发展迅速，应用范围广泛，如人脸识别、情感分析、无人驾驶等都用到了深度神经网络（DNN），性能甚至可以媲美人工判别。近年来随着对DNN 技术的深入研究，神经网络模型的一些问题也暴露了出来，其中就包括模型面对对抗样本攻击时表现出的弱鲁棒性。

神经网络模型可以简化为函数形式f(x)=y，其中x 作为原始输入，假使在原有输入x 上添加细微扰动，令x*=x+Δx，使得f(x*)≠f(x)，这样的一种行为被称为对抗攻击。这种攻击行为极大地威胁了基于深度学习诞生的智能系统，对于图像处理领域而言，攻击者对于交通指示牌添加人眼不可查觉的修改，可以使得无人驾驶系统做出错误的判断从而引发重大交通事故；对于自然语言处理领域，攻击者对垃圾邮件、短信通过添加修改删除字词等手段，使其规避掉垃圾文本识别系统的检查，从而散播不良信息到社会网络空间当中，因此，如何抵御对抗攻击成为了一个亟待解决的问题，前人做了大量研究和实验来探索对抗样本存在的原因，总体上可以概括为如下两点：

（1）有限的训练样本无法涵盖空间内所有可能性，因此无法通过这样的训练样本训练处一个包含所有特征的模型。

（2）训练模型的时候为了获得更好的分类效果，模型会尽量扩大样本和分类边界之间的距离，但也在每一个分类区域中涵盖了很多不属于这个类别的样本空间。

面对上述攻击问题，Goodfellow 等人提出了对抗训练的方法，在原有训练数据集的基础上主动添加攻击样本从而完善神经网络的边界；Liao F 等人尝试用去噪网络DAE 和DUNET 将对抗样本还原成原始样本[1]。Danish 在前人的研究基础上，利用ScRNN 文本纠错网络结合自定义的补偿策略来达到还原对抗样本的目的。ScRNN 能够识别出输入文本中疑似经过对抗攻击处理过的词汇，通过补偿策略将其替换为中性词从而削弱其对模型输出结果的影响。但是Danish 提出的补偿策略并没有很好地定义中性词（Neutral）概念，本文基于词向量的高斯分布，重新定义中性词（GSNeutral），并在情感分类等多个任务上取得了优异的结果。

1 基于高斯分布的中性词定义法

1.1 可行性分析

计算机无法直接识别现实世界中的表达符号，如图片、文字、语音等，自然语言处理（NLP）致力于研究文字类智能系统。NLP 任务可以简答地概括为上游任务和下游任务，上游任务将文字进行编码表达为计算机能够识别的符号，常见的下游任务包括实体识别、文本分类、摘要提取等等。上游任务是一个词向量表达的构建过程，一种朴素的做法是使用One-hot 编码，但会导致输入空间极度稀疏，Miklov 等人提出改进的Word2Vec 用有限的维度地建立了更高质量的词向量，Google 公司通过使用mask 技巧，使得双向训练称为可能，构建出了与上下文联系更紧密的Bert[2]。

优秀的词向量直接影响着下游文本任务的结果，因此本文对于词向量的构建采用了Bert，直接使用开源社区训练好的Bert 模型应用到词嵌入层。人在理解一段文本中某个词语时，不仅仅依托于这个词语自身的意义，还与其上下文有着紧密的关系[3]。Bert 自身通过双向训练赋予了其更加丰富的上下文语义，相比于Word2Vec，Bert 本身就具备一定的对抗防御能力，因此在本文提出的方法里，使用Bert 用作上游任务的词向量构建。

欧美书写体系中以英文为代表，为了检测其中的书写错误，前人做了大量的工作，其中ScRNN 作为一种典型的半监督网络，可以有效地发现输入文本中的拼写错误，并且根据经验模型进行一定程度的矫正，对错误的书写发现有着很大的帮助。可以看出，对于发现输入文本中的可疑段落，目前已经有相关技术可以实现。

1.2 算法描述

自然语言处理的上游任务可以归纳为一个构建词向量表达的过程，原始输入样本在文本任务中为句子s，通过分词以及停用词可以将其分割成若干个词汇，得到有若干Token 组成的输入序列s( )t ={t1,t2…tn}，序列经过神经网络模型的词嵌入层Embedding，每一个单词Token 得到其对应的词嵌入表达e(token)。在词向量构建过程完成后，可以得到字典Vn*m，其中n 是训练语料中所有Token 的个数，m 是词嵌入层指定的维度，即每个Token 可以表达为一个m 维度的向量{v1,v2…,vm}。

图1 ScRNN网络结构图

高斯分布作为自然界最常见的连续概率分布，在许多领域都有着重要作用，本文提出一种新的方法根据高斯分布来重组中性词。通过上述词向量训练的过程得到字典Vn*m，进行统计分析该字典中m 个维度的分布。假使其中一个维度i 上（1 ≤i ≤m）每个单词的分量为{ v1,i,v2,i,…,vn,i}，对该分量上的所有值做求和运算得到，依此方法遍历计算每个维度上的和，得到一系列值{v1,v2,…,vm}，计算上述所有值的均值，根据均值μ 和高斯分布构造出连续密度函数，中性词根据构造出的高斯概率分布确定中性词在每个维度上的值，得到中性词

图2 字典的词向量矩阵表达

根据对词向量的维度统计得到了一个更加合理的中性词word*，下面将阐述如何将其运用到ScRNN 网络中，以及如何进行对抗攻击的防御。对于英文文本，对抗攻击可以通过更改单词中某个字符达到目的，但是更改后的单词极有可能是一个并不存在的单词，如apple 修改为apble，这样的单词称为UNK，ScRNN 网络可以做到识别出UNK。在识别出一个UNK 后，用上述中性词word*将其替换，其目的就是极大地削弱这个单词的倾向性，防止其对神经网络模型的输入造成误导。

图3 GScRNN整体流程图

2 实验分析

2.1 对比指标

为了更好地评判实验结果，现需要给出对比指标的定义。在机器学习的研究中，准确率（Accuracy）是一个评判模型优劣的最常见的指标，本文依然会采用该指标，根据SMSSpamCollection 已经打好的标签和本文模型预测结果来计算准确率，准确率越高意味着模型性能越好。

除了精确率之外，引用Danish 等人定义的另一项指标：敏感度（Sensitivity）。由于文本的词向量空间有着离散的特性，即使通过某些手段获取到连续的词向量，但该向量在现实世界中可能并不存在对应的词汇，因此攻击者的攻击空间有限，据此本文希望尽可能的削减攻击空间，减少能够引起神经网络模型误判的输入样本[4]。这种特性定义为敏感度，W 表达词汇识别器，式（1）中W 可以生成的不同近似值。显然，SAW,V值越高模型的鲁棒性就越弱[5]。

2.2 实验结果

本文将文本分类作为下游任务来考评模型面对对抗攻击时的性能，使用公开的短信数据集SMSSpam-Collection。Bert 在多项自然语言处理任务中取得了优异的结果，在嵌入层上使用它构建词向量。通过字符级别的攻击手段修改、增加、删除单词中某个字符达到攻击目的，比较不同的防御手段面对上述攻击可以达到的分类正确率。

实验对比几种常见的防御方法：数据增强（DA）、对抗训练（Adv）以及基于原补偿策略的ScRNN 矫正网络。模型在不同防御方法下的文本分类正确率的如表1 所示，结果显示Bert 在不使用任何防御方法进行一个普通文本分类任务时正确率高达88.4%，但是在面对存在攻击样本的数据集时正确率大幅度下降：替换字符（61.1%）、删除字符（57.6%）、增加字符（47.2%）。在添加防御方法后，在无攻击状态下虽然正确率有小幅下降，如BERT+ScRNN（86.9%），但是在对抗攻击样本的攻击状态中却有着更优异的表现（80.2%）。在引入基于高斯分布的重构中性词后，效果在原实验结果上提升了1 个百分点（81.8%）。

表1 Bert 模型面对不同攻击时的性能指标

此外，为了评估不同防御方法下模型的敏感度，本文做了进一步实验，对语料中的词汇做随机扰动，记录其在各个防御方法下的敏感度，由于本文提出了对中性词的重新定义与计算方法，实验重点关注，相较于以前人工指出中性词，新的中性词定义方法对实验结果的影响。攻击后新生成的单词相较于原词汇的范式距离可以使用单词错误率（WER）进行衡量，WER 值越大则表示攻击程度越高，同时由于过高的WER 违背了轻微扰动的前提，需要将其限制在一定范围之内。作者在同一语料下进行了10 次实验对比，结果揭示了在语料上WER 与Sensitivity 之间的关系，本文提出的GSNeutral应用到机器学习模型后整体有着更低的敏感度。

图4 模型分别应用GSNeutral与Neutral的敏感度对比

3 结语

本文在ScRNN 网络的矫正UNK 补偿策略的基础上，提出了一种新的中性词定义方法GSNeutral，根据语料的词向量概率分布来重新计算每个维度上的向量值，使其整体满足高斯概率分布，当ScRNN 识别到UNK 时，用上述中性词进行替换。本文实验证明该方法相比原ScRNN 在进行文本分类任务时，可以更好地抵挡对抗攻击，同时定义了用于对抗攻击领域的新指标敏感度，该指标在使用了本文所述方法之后有所下降，即新的模型有着更低的敏感度，缩小了攻击者能利用的攻击空间，提高了模型的鲁棒性。但是目前的方法只适用于英文文本，接下来的工作是如何将其延伸到中文的自然语言处理任务中。