APP下载

对抗攻击及对抗样本生成方法综述

2021-11-30蔡秀霞杜慧敏

西安邮电大学学报 2021年1期
关键词:扰动分类器梯度

蔡秀霞,杜慧敏

(西安邮电大学 电子工程学院,陕西 西安 710121)

自2012年以来,深度学习技术得到迅猛发展[1-3],已经被广泛地应用于工程物理领域[4-5]。深度学习技术应用在带给人们巨大便利的同时,从2013年开始,深度学习技术的抗干扰性能开始受到质疑[6]。研究表明,对于某些略带扰动的输入,人眼对这些扰动几乎无法察觉,仍然能够正确地识别图像[7-8],但是,深度学习技术很难产生满意的结果,会产生识别和分类错误等问题。

某些对抗样本对神经网络的成功攻击案例,使得研究者们开始考虑神经网络对输入数据依赖性的问题[9]。后续的研究发现,神经网络对输入数据很敏感。神经网络的输出结果与输入数据分布之间的这种不明显的关联方式,受到了广泛关注[10]。

对抗样本是指在输入的干净数据中添加肉眼难以觉察的扰动所得到扰动样本,如果该扰动样本能够导致学习系统的输出结果错误,则称该扰动样本为对抗样本[11]。对抗样本生成技术是一种可以产生扰动数据并且导致现有机器学习方法无法正常检测、识别和分类的技术。针对神经网络产生对抗样本的过程被称为对抗攻击。

面向机器的攻击方法和对抗样本生成技术是攻击技术的核心和基础之一。尤其是近几年,针对机器深度学习的对抗攻击算法和对抗样本生成技术引起了众多学者的极大关注,已经成为了电子对抗领域中的研究热点之一,并取得了一系列重要进展。论文拟介绍和总结对抗攻击算法和对抗样本生成技术方面研究取得的重要进展、存在问题以及未来研究的发展趋势和有待解决的问题。

1 相关概念

1.1 对抗攻击及对抗防御

对抗样本攻击使得攻击者即使在不知道原始机器学习模型的情况下,也能够攻击机器学习模型。当前的对抗样本研究工作大多假设对手将数据直接送入机器学习的分类器模型中。

深度学习中的对抗攻击是指对干净数据进行加噪声、扰乱纹理结构等处理后,故意扰乱或者愚弄机器学习技术,尤其是深度神经网络技术,使得原始数据不能被正确识别或分类的行为[12]。对原始数据进行的处理称为对抗扰动。通过机器学习的方式进行训练得到对抗扰动的过程称为对抗训练。对干净数据添加了扰动的数据被称为对抗样本。在设计具体目标识别或分类器时,针对性地采用特定可以防范对抗攻击的技术[13-16]被称为对抗防御。

1.2 对抗样本生成基本原理

对抗样本生成的基本思想是通过故意对数据集中输入样例添加难以察觉的扰动,使模型以高置信度给出一个错误的输出。通常只需要在一张图片上做微小地扰动,分类器就能够以较高的置信度将图片错误分类,甚至被分类成一个不是图片正确所属的指定标签[17]。在分类器对样本进行分类训练时,通常需要使用包含样例和相应的类标签。由于对抗样本在生成时已经预知各个输入样例的类标签,故对抗样本事实上是隐含有类标签的数据。

假设有一个学习系统M,以及没有添加噪声/扰动的干净输入数据或者样本C。若样本C能够被学习系统M正确地分类,则将其表示为M(C)=ytrue。构建一个与样本C十分相像但却会被错误分类的对抗样本A,使得通过学习系统M能够被错误的分类,记为M(A)≠ytrue,则称样本A为对抗攻击需要的对抗样本。

虽然对抗干扰的影响比噪声干扰小,但是,被分类器误分的概率却远比噪声干扰高。此外,在训练集的不同子集上训练得到的具有不同结构的模型都会对相同的对抗样本实现误分,这意味着对抗样本会成为训练算法的一个盲点。在很多对抗攻击算法中,对抗的目标根据需要来优化最终的损失函数。在攻击算法的损失函数中,攻击就是对被学习的原始数据进行处理,使得处理后的数据被系统错误地分类[18]。严格来说,对抗样本A应该满足判别函数g(A)<-ε(ε<0为阈值),即对抗样本仅需要越过最低的决策边界就可以被错误的分类。但是,在多数情况下,一个好的攻击策略是通过创建一类生成对抗样本的方法,使得学习系统能够以较高的错误率将被学习数据误判为错误分类[19],即在满足扰动较小的衡量准则约束的条件下最小化判别函数g(A)。

对抗样本与干净数据样本关于目标学习系统的训练学习过程可能会有很大不同。对抗样本与干净数据样本的系统学习训练的区别之处在于训练集、样本的特征表示、学习算法和决策函数分类模型以及分类器的反馈。

在对抗攻击过程中,通过修改测试数据的方法实现攻击行为。可以修改的内容包括输入数据、特征向量和某个制定的特征。利用这些方法改变不同数据之间的依赖性,最终改变高级语义的理解。

2 对抗攻击技术分类

目前对抗攻击的方法有很多,相应地,对抗样本生成的方法也有很多[20-24]。

2.1 根据被攻击环境的分类

根据被攻击环境,可以将对抗攻击分为白盒攻击、黑盒攻击和半白盒(灰盒)攻击。

白盒攻击是指在被攻击者的模型、网络结构、权重参数以及防御手段完全已知的情况下,攻击者进行对抗攻击的行为。

与白盒模型相反,黑盒攻击是指在攻击者对被攻击者一无所知的前提下,进行的对抗攻击。

半白盒攻击是指攻击者在对待攻击目标的了解程度介于白盒攻击和黑盒攻击之间时进行的对抗攻击。比如,攻击者仅了解模型的输出概率,或者只知道模型结构。

2.2 根据攻击者目的性的分类

根据攻击者的目的性,可以将对抗攻击分为定向攻击和非定向攻击。定向攻击是指攻击者试图使得目标识别器或分类器错误地将目标识别或者分类成既定的另一目标的攻击行为。比如,让自动识别器将熊猫图片错误地识别为鸵鸟图片。非定向攻击是指攻击者对目标识别或者分类器进行攻击时,只需要出现识别或者分类结果错误,不追求错误地识别为某种特定类型的目标。

2.3 根据扰动强度大小的分类

根据扰动的强度大小,可以将对抗攻击分为无穷范数攻击、2范数攻击和0范数攻击。整体衡量扰动强度时,只考虑限制可以改变的像素个数,不关心具体每个像素值改变了多少。

扰动强度的一般表达式为

(1)

其中:η表示扰动;ηi表示第i维度的扰动值;p表示不同的范数。当p趋近于无穷大时,式(1)为扰动最大的情况,此时的对抗攻击被称为无穷范数攻击;当p=2时的对抗攻击被称为2范数攻击,采用欧式距离衡量准则;当p=0时的对抗攻击被称为0范数攻击,对应城市距离衡量准则,常被应用于单像素攻击中。

2.4 根据扰动类型的分类

根据扰动的类型,可以将对抗攻击分为像素级扰动攻击和结构扰动攻击。

扰动为像素值变动的对抗攻击被称为像素级扰动攻击或基于像素值差异程度的攻击。目前大多数的对抗攻击为像素级扰动攻击。

扰动为图像纹理或者图形等形状结构变动的对抗攻击被称为结构扰动攻击。

2.5 根据攻击技术的分类

根据攻击的技术手段,可以将对抗攻击分为基于梯度的攻击、基于优化的攻击和基于决策面的攻击等。

根据模型对输入数据的导数来决定扰动的方式被称为基于梯度的攻击。常见的梯度攻击有快速梯度符号方法(Fast Gradient Sign Method,FGSM)、投影梯度下降(Project Gradient Descent,PGD)方法和动量迭代方法(Momentum Iterative Method,MIM)等。

基于优化的攻击是指将攻击重点集中于优化失真函数来调节扰动的攻击方式。优化攻击的典型代表是Carlini and Wagner (C&W)攻击算法。

根据不同种类分类决策面的界定来调节并生成扰动的攻击称为基于决策面的攻击,基于决策面的攻击的典型代表是Deepfool方法。

2.6 根据攻击优化迭代次数的分类

根据对抗攻击优化生成的迭代次数,可以将对抗攻击分为单步攻击(One-time Attack)与迭代攻击(Iteration Attack)。

在生成对抗样本过程中,若只需要一次优化即可生成对抗样本,则该对抗攻击为单步攻击。迭代攻击是指在生成对抗样本过程中,需要多次更新对抗样本。大多数情况下,多步迭代攻击生成的对抗样本比单步攻击的攻击效果更好。但是,迭代攻击相比于单步攻击需要花费更多的时间来生成对抗样本。

2.7 根据被攻击数目的分类

根据被攻击数目可以将对抗攻击分为个体攻击(Individual Attack)与普适性攻击(Universal Attack)。

对于每个具体的输入原始数据添加不同扰动的攻击方式被称为为个体攻击。目前大多数的对抗攻击方法都属于个体攻击。在生成对抗样本或者对抗扰动时,对于整个数据集生成一个通用的扰动或者通用扰动生成方式的攻击被称为普适性攻击。

2.8 根据扰动生成方式的分类

根据扰动生成方式还可以将对抗攻击分为优化扰动(Optimized Perturbation)与约束扰动(ConStrained Perturbation)。

优化扰动方法往往需要首先初始化一个不受约束的扰动。其次,以扰动大小作为优化过程中的优化目标。最后,优化生成肉眼无法识别的最小化扰动对抗样本。

约束扰动方法起始便要求扰动满足约束条件,之后所调整的扰动仅需满足约束即可。该方法要求扰动足够小。

3 对抗攻击及其样本生成方法

3.1 box-constrained L-BFGS算法

Szegedy等人[25]在2014年首次提出使用Box-Constrained L-BFGS方法生成对抗样本后,针对深度神经网络展开对抗攻击。该方法通过对图像添加少量的扰动,使神经网络做出错误分类。添加扰动后的图像仍然能够被肉眼正确识别,却会扰动误导神经网络。

为了让神经网络做出错误分类,需要求解最小扰动方程,但是该问题复杂度较高,需要对问题进行简化,然后通过寻找最小的损失函数添加项,使得神经网络做出错误分类。如此一来,就将求解最小扰动方程问题转化成了凸优化求解过程。凸问题可以利用L-BFGS方法求解,并产生对抗样本,凸优化求解公式为

其中:x′表示对抗样本;J表示神经网络模型的损失函数;c表示扰动参数。为了找到合适的参数,使用L-BFGS算法进行线性迭代搜索c>0的所有情况,即可找到c的近似值。

在实际应用中,这种针对深度神经网络生成的对抗样本,可以推广到其他的神经模型和其他的训练数据集中。将对抗样本加到训练集中,可以进行对抗训练,以此提高深度神经网络的鲁棒性,从而提升防御攻击的能力。但是,这种生成对抗样本的方法效率较低、运算量较大、可迁移性较差。

3.2 快速梯度算法

Goodfellow I J等人[26]提出了一种能快速有效计算对抗扰动的方法,这种求解对抗扰动的方法被称为快速梯度符号攻击算法。该方法的主要思想是根据深度学习模型梯度变化的最大方向,生成对抗扰动,并将扰动迭代添加到图像中,最终使得生成的对抗样本被模型错误分类。

快速梯度符号攻击法通过计算目标类别对输入图像求梯度,然后对梯度求符号函数,将求得的结果作为对抗扰动噪声加到原始图像上获得对抗样本。

使用快速梯度符号攻击方法构造对抗样本的优点在于效率比较高,生成的对抗样本可迁移性强,但是,最终生成的对抗样本会对原始干净图像的所有像素点都产生一些微小的扰动。快速梯度符号攻击法攻击属于白盒攻击,需要得到模型的神经网络结构信息,另外,添加的噪声扰动容易被去除,如使用中值滤波等方法就能够过滤噪音,导致FGSM方法的攻击性不佳[27]。

快速梯度符号攻击法作为经典的攻击方法,衍生出了许多以快速梯度符号攻击法为基础的对抗攻击方法。其中,有3种改进攻击方法比较典型。

1)快速梯度值攻击法(Fast Gradient Value,FGV)。在快速梯度攻击方法的基础上,FGV改进了对抗样本噪声的计算方法,更为简便。

2)单步目标分类攻击法(One-Step Target Class Method,OTCM)。Kurakin等人[28]提出了快速梯度攻击法的变体—单步目标分类攻击法。这种方法使用容易被错误识别的原始目标数据标签代替快速梯度攻击法对抗攻击产的样本标签,然后将原始图像减去对抗样本中的扰动,这样,原始图像就变成了对抗样本,并且能够输出指定的目标类别。

3)随机噪声-快速梯度攻击法(Rand-FGSM,R-FGSM)。R-FGSM使用快速梯度攻击法进行对抗训练后得到的神经网络模型,在进行白盒攻击时比黑盒攻击更为鲁棒。R-FGSM方法增加了随机梯度训练,可以被用于对抗防御训练。

R-FGSM方法和快速梯度符号攻击法的主要区别在于,在进行学习系统模型进行梯度计算之前,R-FGSM方法首先对输入样本添加随机的扰动。经过对抗防御训练的模型,其损失函数在扰动数据位置点附近会有比较大的曲率,使得基于损失函数的一阶近似攻击变得不准确。而添加随机扰动后,可以很大概率上跳出扰动数据点附近的大曲率,使得快速梯度符号攻击法生成的对抗样本更具泛化能力。

3.3 基本迭代算法

基本迭代法攻击算法(Basic Iterative Method,BIM)由Kurakin等人[29]于2016年提出。BIM算法是一种基于快速梯度攻击法的迭代版本。快速梯度攻击法只沿着梯度增加的方向添加一步扰动,而基本迭代法则通过迭代的方式,沿着梯度增加的方向进行多步小的扰动,来求取对抗样本。而且,在每一小步的迭代之后,BIM算法均要重新计算梯度方向,从而相比快速梯度攻击法能够构造出更加精准的扰动。但是,该算法增大了计算量。

基本迭代法是一种优化寻找最优解的小步迭代攻击方法。在每一次迭代过程中,为了尽可能避免大的改变,使用切分函数Clip来求解对抗样本,经过多次迭代后得到对抗样本。

3.4 迭代最小可能算法

迭代最小可能算法(Iterative Least-likely Class,ILLC)算法[30]和基本迭代法类似,区别在于,基本迭代法是一种非定向攻击,而迭代最小可能法是基本迭代法针对定向攻击做出的改进,用于产生特定目标类别的图像。

相比于基本迭代法,迭代最小可能算法的泛化性能较弱,其攻击成功率仅在特定目标设计下较高,如果要对此方法进行移植应用,需要大量的训练工作。

3.5 Jacobin映射攻击算法

Jacobin映射攻击(Jacobin-based Saliency Map Attack,JSMA)算法通过对原图添加有限个数像素点的扰动方式构造出对抗样本。JSMA算法由Papernot等人[31]在2015年提出,该方法是一种专门针对非循环前馈(Acyclic Feedforward)神经网络的定向攻击算法。JSMA算法首先分析评估模型的前向传播过程,并计算模型的前向传播导数,然后根据前向导数的梯度得到初始扰动衡量值。对目标图像中的每个像素点均对应地算出一个扰动初始衡量值,扰动初始衡量值越大,说明给与当前像素点微小扰动就能够使得学习模型以较大概率产生输出误判,只需要选择扰动衡量值大的像素点进行扰动,就可以在给出尽可能小扰动值的条件下实现对抗攻击。

在对抗攻击过程中,为了使对抗样本中的扰动无法被察觉,通常需要应用扰动范数。最常被使用的扰动范数为l∞或l2范数。JSMA算法一次只修改若干个干净图像的像素,并监测变化对结果分类的影响,其采用l0范数产生对抗样本,改变几个像素值而不是扰动整张图像。

JSMA算法只需修改原始输入数据中4.02%特征,就可以使得学习系统以97%的置信度错误分类。但是,由于Jacobin矩阵计算复杂,资源消耗量较大,导致该方法产生对抗样本的速度较慢。

3.6 深度欺骗攻击算法

Moosavi-Dezfooli等人[32]提出的深度欺骗(DeepFool)攻击算法是一种基于迭代的白盒攻击方法。深度欺骗攻击法算法的目的是寻找可以使分类器产生误判的最小扰动,其通过迭代计算的方式生成最小范数的对抗扰动。

深度欺骗攻击算法根据分类器的决策边界初始化原始图像,然后给定初始图像错误的标签。初始化后的原始图像突出在决策边界边缘部分,即为被误判率高的图像。深度欺骗攻击算法根据损失函数迭代生成满足约束条件的扰动向量,通过将扰动向量叠加到原始图像上来生成扰动样本。这些小的扰动向量通过线性化对抗样本图像所在决策区域的边界,逐步将对抗样本移向决策标签类别,直到对抗样本最终被移动到决策边界指定的假类别区域内,从而导致分类器的分类错误。

通过深度欺骗攻击法生成对抗样本的扰动比快速梯度算法范数值更小,同时具有较相近的欺骗效果。但是,深度欺骗攻击法所添加的扰动大小全靠人工设计,需要较多的先验知识,这也是基于梯度算法普遍存在的问题。

3.7 CPPN EA算法

基于组合模式生成网络编码的进化算法(ComPositional Pattern-producing Network-encoded Evolutionary Algorithm,CPPN EA)算法[33]使用进化算法产生对抗样本。利用CPPN EA算法产生的对抗样本会被深度神经网络以99%的置信度进行误分类。CPPN EA算法是深度欺骗攻击方法和基于快速梯度方法的改进方法。该方法对深度学习神经网络攻击的攻击成功率较高,但是,该方法计算复杂度大、计算成本较高,并且迁移性不够好。

3.8 C&W攻击算法

Carlini和Wagner[34]为了攻击防御性蒸馏(Defensive Distillation)网络,在2016年提出一系列基于最优化的定向攻击对抗样本生成算法,被称为C&W攻击算法。该算法基于不同距离度量(l0,l2,l∞),通过限制l0、l2和l∞范数使得扰动无法被察觉。

目前,防御型蒸馏网络无法防御CPPN EA、深度欺骗攻击法和雅克比映射攻击法。C&W攻击法生成的对抗扰动可以从无蒸馏网络迁移到有蒸馏网络上,进而实现对神经网络的黑盒攻击。目前,C&W能有效攻击现有的大多数深度学习模型。

3.9 零阶优化攻击算法

零阶优化(Zeroth Order Optimization,ZOO)攻击算法是一种黑盒攻击方法,其通过直接估计目标模型的梯度来生成对抗样本。ZOO算法不需要计算梯度,但需要查询和评估目标模型的梯度。ZOO算法与C&W攻击方法误导率相近,具有相近的攻击效果。

以ZOO算法为基础,Chen等人提出基于自适应矩估计(Adaptive Moment Estimation,ADAM)的零阶优化攻击法方法[34]。该方法首先随机选择一个变量来更新对抗样本,然后采用ADAM迭代优化方法找到最优对抗样。

3.10 通用扰动攻击算法

Moosavi-Dezfooli等人[35]在深度欺骗攻击法基础上提出了通用扰动攻击算法(Universal Perturbation)。快速梯度攻击算法、迭代最小可能攻击算法、深度欺骗攻击算法等方法只能生成某种类型单张图像的对抗样本,而通用扰动攻击算法能够生成针对所有图像的对抗样本扰动。

通用扰动攻击法中使用的迭代方法和深度欺骗攻击法相似,均需要首先使用扰动方法将原始目标图像移出正确的分类区域,然后将原始目标图像移动到错误的分类区域边界处。

在生成通用扰动的过程中,同样需要满足最小范数的限制。使用通用扰动攻击方法,在迭代的每一步过程中均使用深度欺骗攻击方法获得最小范数值扰动,每次迭代的对象是不同的图像,一直到大多数数据样本能够欺骗神经网络时,结束迭代过程。通用对抗扰动可以泛化到大多数神经网络上,尤其是与残差网络具有相似结构的神经网络。

3.11 单像素攻击法算法

Su等人[36]提出了单像素攻击(One Pixel Attack),通过只改动一个像素点就可以实现对抗攻击目的。单像素攻击算法是一种以差分进化(Differential Evolution)算法为基础的对抗攻击算法。单像素攻击算法首先对原始图像的每一个像素进行迭代修改,将修改后的图像与原始干净图像进行对比,根据攻击效果选择攻击效果最好的图像作为对抗样本。

单像素攻击算法对抗攻击所需的对抗性信息很少,不需要知道被攻击神经网络的权重参数、梯度和网络结构等信息,是一种黑盒攻击方式。实验发现,对73.8%的测试图像可以使用单像素攻击,而且平均置信率高达98.7%。

3.12 特征对抗攻击算法

特征对抗(Feature Adversary)攻击算法是Sabour等人[37]提出一种定向攻击方法,该算法是一种白盒攻击方法。特征对抗攻击算法通过最小化神经网络特征图中差异值的差距来产生对抗样本。该方法首先初始化一个错误标签对应的图像,将原始干净图像与错误目标图像输入到深度神经网络中,得到两张图像的特征图。然后,通过优化迭代方法使得原始干净图像逼近于错误目标图像,进而得到最终的对抗样本。

3.13 热/冷攻击算法

Rozsa等人[38]提出了一种热/冷(Hot/Cold)攻击算法。热/冷攻击算法提出了两个类的定义,其将目标标签定义为热(Hot)类,将原始标签定义为冷(Cold)类。在每次迭代过程中,将样本逐步移向热类,同时远离冷类。

热/冷攻击算法给出了一个新的扰动值的衡量方法,即心理感知对抗相似值(Psychometric Perceptual Adversarial Similarity Score,PASS)。使用PASS方法衡量攻击前后样本差异大小。PASS方法先将修改后的图像与原始图像对齐,然后比较对齐后的修改后图像与原始图像的差异性和相似性,并产生对抗攻击样本。热/冷攻击法与快速梯度法效果相近。

3.14 自然对抗生成网络算法

Zhao等人[39]提出了一种自然对抗生成网络算法。其使用对抗生成网络生成对抗样本,并且尽量使得结果看起来更加自然。自然对抗生成网络算法通过最小化特征图谱之间的差异值来产生对抗噪声,这种算法同样属于黑盒攻击,无需了解被攻击学习系统的内部结构及权重参数等信息,但是,需要知道学习系统的混淆矩阵信息等输出信息。

3.15 基于模型的集成攻击算法

基于模型的集成攻击(Model-based Ensembling Attack)算法[40]定义了模型集成的概念,其利用多个不同模型生成对抗样本。该方法对多个神经网络模型进行集成训练,得到针对多个深度神经网络模型的扰动生成深度学习网络模型。基于模型的集成攻击算法生成的对抗样本具有较好的泛化性,能够攻击多个深度学习神经网络模型。

3.16 真值攻击算法

Carlini等人[41]使用真值攻击(Ground-truth Attack)算法最小化l1和l∞扰动以产生对抗样本。真值攻击算法使用C&W攻击方法产生初始对抗样本,然后在后续迭代过程中使用Reluplex迭代找到最小扰动的对抗样本。真值攻击算法相当于在C&W攻击算法基础上进行的改进,具有C&W攻击方法的优点,但是攻击效果更好。

3.17 UPSET和ANGRI算法

Sarkar等人[42]提出了面向精确目标提取的普适绕动(Universal Perturbations for Steering to Exact Targets,UPSET)算法和面向深度学习定向攻击的绕动图像生成的对抗网络(Antagonistic Network for Generating Rogue Images for Targeted Fooling of Deep Neural Networks,ANGRI) 算法两种黑盒攻击算法。

UPSET和ANGRI算法的损失函数均由分类器损失和保真度损失两部分组成,使用权重调节两个损失指标,尽量使得扰动不要过于集中。其中,分类器损失对不能产生目标攻击类进行惩罚;保真度损失保证输出的对抗样本和原始样本足够相似。

UPSET和ANGRI算法的欺骗率均较高。相对而言,ANGRI算法生成特定的对抗样本,UPSET算法属于定向攻击,可以被用来进行黑盒攻击,且攻击成功率较高。

3.18 Houdini攻击法

Houdini攻击法[43]的核心思想是欺骗原始分类器梯度。该方法根据特定任务设计损失函数,并生成相应的对抗样本,以此实现对抗攻击。其扰动的生成建立在网络可微损失函数的梯度信息上。目前该方法被广泛应用于攻击图像识别、语音识别分类器中。

3.19 对抗变换网络攻击算法

Baluja和Fischer[44]通过训练多个前馈神经网络生成对抗样本,经过训练后得到的生成对抗样本模型被称为对抗变换网络(Adversarial Transformation Network,ATN)攻击算法。

ATN攻击算法的核心是通过训练对抗变换网络ATN来生成对抗样本,使得生成的样本按概率测度被分类器错分,且同时满足扰动最小的要求。其通过最小化一个联合损失函数来生成对抗样本。联合损失函数包括两个部分,一部分衡量对抗样本与被攻击图像的相似度,另一部分衡量对抗样本被错误分类的程度。

在训练对抗样本时,ATN算法需要保证对抗样本的类别与原始样本类别一致,并且对抗样本与被攻击的原始样本之间的相似度要小于一定阈值,即对抗样本与原始样本存在一定程度的相似性。另外,ATN算法还可以通过建立神经网络模型将扰动建模为加性噪声。

ATN方法可以实现定向攻击和非定向攻击。该方法的对抗样本生成速度较快,生成的对抗样本可以攻击一个或多个目标网络,并且攻击效果较好,但是,该方法的迁移性较弱。

3.20 边界攻击算法

Brendel等人[45]提出了一种基于边界的黑盒攻击方法—边界攻击(Boundary Attack,BA)算法。该方法核心思想是根据被攻击分类器的分类结果,针对分类结果进行攻击从而得到对抗样本。

在攻击分类器时,边界攻击算法根据分类器的类型和分类能力对分类器进行攻击,使得被攻击的分类器发生分类错误。边界攻击算法不限制初始扰动值的大小,首先通过初始化找到一个初始对抗样本,然后采用特定的搜索迭代方式将该对抗样本沿着原样本的方向移动,直到初始对抗样本离原样本足够接近,使得扰动小于预订阈值,同时对抗样本依然保持对抗性为止。

4 研究展望

当前关于对抗攻击及对抗样本生成的研究,大多数是在假设对手将数据直接送入学习系统中这一条件下开展的,但是,在真实的物理世界中,原始数据大多数是要经过传感器采集之后,形成信号再输入到学习系统的。这就意味着可以在物理世界对原始采集信号进行攻击,产生对抗样本[46]。

现在,越来越多的研究转向对抗样本对物理世界的攻击。物理对抗样本方面的研究也已不仅仅局限于现有对抗样本的设计,复杂的应用需求及高精度的物理环境对对抗攻击的误导率与实时性都提出了很高的要求,这促使更多学者考虑如何根据人工智能技术存在的短板问题提出可行的对抗攻击方法及对抗样本生成技术,以便更有效率地实现反自动目标识别、检测和分类[47]。

目前对抗攻击及对抗样本的生成技术的研究正处于发展阶段,尚未成熟,还有很大的发展潜力,该方面技术的发展可以很好地促进人工智能技术的发展[48]。从攻击对象来看,现有的对抗样本技术主要针对图像及语音的识别和分类技术。目前,人工智能技术应用层面不只包括图像和语音的识别和分类,对抗攻击及对抗样本的生成技术也应扩展到众多人工智能领域。

从对抗攻击的方式来看,大多数对抗是以像素级扰动为基础进行的对抗攻击方法。以单个对抗样本为基本单位进行攻击,使得在生成对抗样本时,需要大量访问被攻击网络,从而不仅会导致对抗样本的生成成本较高,而且比较容易暴露攻击,导致后续攻击难度的增加。另外,现有攻击方法在普适性及迁移性上还有待提高。

目前对图像攻击的研究中,追求最小扰动(扰动大小的衡量标准是像素值的变化)的像素攻击方法不容易引起较大的视觉差异变化,是一种比较理想的对抗攻击方式。不过,最新的研究发现,在具体的物理伪装环境中一些结构型扰动很难被人眼发觉,并且可以起到很好的攻击效果[49]。区别于传统的基于像素的扰动准则,面向结构扰动的衡量准则和方法有待丰富和发展。在面向物理伪装的可见光领域开展对抗样本算法方面的研究,内容涉及可用于解决普适性问题的概率型对抗样本生成方法、结构扰动衡量准则和基于结构扰动衡量准则的结构扰动型攻击算法等。

5 结语

本文介绍了对抗攻击及对抗样本生成的基本概念和分类,对各类对抗样本生成方法中典型的对抗样本模型进行分析和总结后发现,目前对抗攻击及对抗样本的生成技术正处于发展阶段,尚未成熟,还有很大的发展潜力。未来针对对抗攻击及对抗样本生成技术的研究除了需要技术深度上进一步开展之外,在技术横向应用方面也有待进一步拓展,比如面向目标分割、边缘提取和目标跟踪等方面的对抗攻击及样本生成方法的研究均有待进一步探索。

猜你喜欢

扰动分类器梯度
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
一类五次哈密顿系统在四次扰动下的极限环分支(英文)
基于应变梯度的微尺度金属塑性行为研究
学贯中西(6):阐述ML分类器的工作流程
基于扰动观察法的光通信接收端优化策略
带扰动块的细长旋成体背部绕流数值模拟
基于朴素Bayes组合的简易集成分类器①
一个具梯度项的p-Laplace 方程弱解的存在性
内容、形式与表达——有梯度的语言教学策略研究
航磁梯度数据实测与计算对比研究