【例会】解释分析对抗样本

主持人:李雨龙

参会老师:安宁,杨矫云

参会学生:赵春阳、刘硕、程坤、丁会通、郭思伊、肖勇博、殷越、哈山

时间:2019年9月4日

本次例会学习讨论了文章:Explaining and harnessing adversarial examples

这篇文章由Goodfellow等人发表在ICLR’2015会议上,是对抗样本领域的经典论文。这篇文章主要提出与之前论文不同的线性假设来解释对抗样本的存在性。同时,论文提出了一种简单的对抗样本生成方法-FGSM,并且再利用该攻击方法产生的对抗样本进行对抗训练。总得来说,这篇文章主要说明的对抗样本的三个方面:1.存在性 2.攻击方法 3.防御方法。

一、介绍

当前机器学习已经被广泛应用在日常生活各个领域,但是Szegedy等人于2014年首先发现当前的机器学习模型包括神经网络等模型容易受到对抗样本(Adversarial Examples)的攻击。所谓对抗样本,即攻击者通过轻微地扰动正常样本产生对抗样本,在保证该攻击不影响人眼的识别的情况下,达到误导分类器的目的。

在当前的研究中,对抗样本的原因产生的原因仍是一个谜。之前很多假设推测对抗样本的产生是因为深度神经网络的非线性特点,可能还结合了监督学习中正则化和模型均化不足等原因。但是本文的作者认为,这种非线性(Nonlinear)的推测解释没有必要,高维空间的线性(Linear Behavior)足够产生对抗样本。根据这个观点,作者设计了一种新的快速产生对抗样本的方法,并且使得对抗学习(Adversarial Training)更实用。这种对抗学习方法提供除了传统正则化方法(dropout, pre-training, model averaging等)外另外一种”正则化方法”。

 

二、相关工作

Szegedy在2014年发表的论文中,提到神经网络和跟它相关的一些模型都有一些有趣的特点,包括

  1. Box-constrained L-BFGS方法能够有效的发现对抗样本
  2. 在一些数据集上,如Imagenet,对抗样本与原始的样本非常接近,以致于人类的眼睛无法分辨这些差异。
  3. 同一个对抗样本经常被不同结构的分类器或者被训练在不同的训练数据子集上的分类器错误分类。
  4. 浅层的SoftMax回归模型也容易受到对抗样本的影响
  5. 对对抗样本的训练可以使模型规范化,但由于需要在内部循环中进行高代价的约束优化,这在当时并不实际。

这些结果表明,基于现代机器学习技术的分类器,甚至那些在测试集上获得优异性能的分类器,都没有学习出决定正确输出标签的真正的基本概念。

这些算法可以很好地处理自然发生的数据,但是当一个数据访问数据空间中分布概率不高的点时,就会暴露出错误。

这种结果很令人失望,因为在计算机视觉中,一种流行的方法是使用卷积网络特征作为欧式距离来近似于感知距离。如果感知距离非常小的图像与在网络表示中完全不同的类相对应,那么这种相似性显然是有缺陷的。

 

三、对抗样本的线性解释

论文介绍了对抗样本存在的线性解释。即,对于一个高维度的问题,一个样本中大量维度的无限小的干扰加在一起可以对输出造成很大的变化。

对抗样本的线性解释表明,对线性模型而言,如果其输入样本有足够大的维度,那么线性模型也容易受到对抗样本的攻击。

作者利用对抗样本的线性解释提出了一个快速产生对抗样本的方法,即Fast Gradient Sign Method(FGSM)方法。图片1

实验表明,FGSM这种简单的算法确实可以产生误分类的对抗样本,从而证明了作者假设的对抗样本的产生原因是由于模型的线性特性。同时,这种算法也可作为一种加速对抗训练的方法。图片2

图2:应用于逻辑回归的FGSM

a)在mnist上训练的逻辑回归模型的权重。

b)在mnist上训练的逻辑回归模型的权重的sign函数。

c)mnist中的3和7。logistic回归模型对这些样本的3-7判别任务中有1.6%的错误率。

d)e=0.25的logistic回归模型的FGSM对抗样本。在这些样本中,逻辑回归模型的错误率为99%。

 

四、深度网络的对抗训练

作者在文中表明,相比于线性模型,深度网络可以在训练网络过程中来抵御对抗扰动攻击。文章给一种利用FGSM进行对抗训练的方法。

这种对抗训练的方法意味着在训练过程中不断更新对抗样本,从而使得当前模型可以抵御对抗样本。

文章表明,在不进行对抗训练的情况下,模型识别FGSM攻击方法生成样本的错误率是89.4%,但是通过对抗训练,同样的模型识别对抗样本的错误率下降到17.9%。

 

五、不同容量的模型

对抗样本的存在似乎违反我们的直觉的一个原因是人类对于高维空间的直觉都很差。

我们生活在三维空间中,所以我们不习惯于理解通过在数百个维度中叠加小的影响来产生大的影响。

一些低容量的模型可以表现出很优异的行为,比如,RBF网络

RBF网络对于对抗样本有着很自然的免疫性,因为当RBF网络在识别对抗样本时,它们的可信度很低。

论文中使用MNIST数据集,并且使用=0.25的FGSM生成对抗样本,攻击没有隐藏层的浅层RBF网络,最终实验结果的错误率为55.4%,然而,它对错误例子的置信度只有1.2%。它对干净样本的平均置信度是60.6%。我们不能指望一个能力如此低的模型能够在所有的空间点上得到正确的答案,但它确实正确地对对抗数据做出了反应,在不“理解”的点上大大降低了它的置信度。

 

六、对抗样本泛化原因

很多论文都表明,对抗样本具有Transferability。具体来说,在一个特定模型上产生的对抗样本通常也容易被其他模型误分类,即使这些模型的结构不同或者模型在不同的训练集上训练。甚至,不同的模型对对抗样本误分类的结果相同.作者表明,非线性或者过拟合的假设不能解释上述的现象。并提出疑问,为什么拥有无限能力的极度非线性模型会以相同的方式标注数据分布点?

在本文提出的线性解释下,作者认为对抗样本在广泛的子空间存在。

图片3

左图:横坐标表e示取不同的值,纵坐标表示mnist中10个类的每一个的softmax层的参数,正确的类是4。

右图:使用不同的e来生成对抗样本(左上=e取负值,右下=e取正值,黄色框表示正确分类的输入)。

上图表明,在不同的e下,可以看到FGSM可以在一维的连续子空间内产生对抗样本,而不是特定的区域。这就解释了为什么对抗样本特别多,以及对抗样本可转移性存在的原因。

另外,为了解释为什么不同的分类器将对抗样本误分类到同一个类,作者假设目前的方法训练神经网络都类似于在同一个训练集上学习的线性分类器。由于机器学习算法的泛化能力,所以线性分类器可以在训练集的不同子集上训练出大致相同的分类权重。底层分类权重的稳定性反过来又会导致对抗样本中的稳定性。

 

七、对抗样本存在性的其他假设

作者通过实验及分析,反驳了其他两种对抗样本存在性的假设。

假设1:生成训练可以在训练过程中提供更多的限制,或者使得模型学习如何分辨”real”或者”fake”的数据,并且对”real”的数据更加置信。

文章中使用MP-DBM模型来检验这一假设,这一模型在mnist上获得了良好的分类精度(0.88%的错误率)。但这个模型很容易受到对抗样本的影响,当值为0.25时,发现使用mnist测试集生成的对抗样本的错误率为97.5%。

可见,某些生成训练并不能达到假设的效果,但是不否认可能有其他形式的生成模型可以抵御攻击,但可以确定的是生成训练本身并不足以达到这一效果。

假设2:对抗样本存在于单个奇怪的模型(models with strange quirks),因此多个模型的平均可以使得模型防御性更好。

为了验证这一假设,作者在mnist上训练了12个网络的集合,使用=0.25的FGSM来生成对抗样本扰乱整个系统,系统的错误率为91.1%。如果只对集合中一个成员使用的对抗样本,错误率将下降到87.9%。文章通过实验说明,模型融合对于对抗样本的防御能力非常有限。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论