【例会】Interpretation of Neural Networks is Fragile

主持人:李雨龙

参会老师:杨矫云

参会学生:刘硕,程坤,赵春阳,肖勇博,韩朋,哈山,贵芳,殷越,丁会通,郭思伊

时间:2019年1月8日

本次例会学习讨论了文章:Interpretation of Neural Networks is Fragile

一、背景

随着机器学习算法变得越来越复杂,解释一个算法为什么做出某些决定就变得越来越重要。例如,如果一个人工智能系统预测一个给定的病理图像是恶性的,那么医生就会想知道图像中的哪些特征导致了算法的这种分类。因此,解释为什么做出某些预测对于在用户和算法之间建立信任和透明度至关重要。然而,为了建立人类的信任,解释本身必须是强有力的。以病理学预测器为例:如果对于一个视觉上难以区分的具有相同预测结果的图像,具有很明显不同的解释,那将是非常令人不安的。因此,即使预测器是可靠的(两幅图像都被正确地标记为恶性),但解释是脆弱的仍然很令人困扰。

二、神经网络预测的解释方法

1、特征重要性解释方法

在给定样本、网络预测和预测标签的得分的情况下,特征重要性方法根据其对得分的影响为每个输入维度分配一个绝对得分。

文章实验中使用了以下三种特征重要性解释方法

Simple gradient method

Integrated gradients

DeepLIFT

2、基于样本的解释方法

影响函数方法:给定训练样本,该方法找出哪些训练样本,如果在训练时增加或减少权重,将对测试样本的损失产生最大的影响

3、度量解释相似性的方法

文章使用Spearman rank correlation(斯皮尔曼等级相关)来比较解释和跟踪特征/样本的相对重要性是如何变化的。

此外,因为在许多情况下人们只对占主导地位的解释是感兴趣的,文章还测量了top-k intersection(top-k交叉),定义为k个最重要的特征或示例的交集的大小。

三、随机系统扰动方法

1、随机符号扰动:作为比较基准,随机扰动测试图像的每个像素

 

2、针对特征重要度方法的迭代攻击:文章定义了两种针对特征重要度方法的对抗性攻击,每种方法都由可微解释差异函数的迭代最大化组成。

图片1

3、梯度符号攻击影响函数图片2

四、实验和结果

1、实验模型

图片3

2、实验结果捕获

图1:特征重要性图的脆弱性:使用三种流行的特征重要度方法,上面一行显示原始图像及其saliency maps(显著性图),下面一行显示扰动图像(使用center attack)和相应的saliency maps。在这三幅图像中,预测的标签都没有因为扰动而改变,然而对于扰动图像的saliency maps却是没有意义的图片4

图2:特征重要性法对抗攻击算法的比较:随机符号扰动已经导致了top-1000 intersection和rank order correlation的显著变化。图片5

图3:梯度符号攻击影响函数。由影响函数识别的前3个训练图像显示在顶行。使用梯度符号攻击,我们扰动测试图像以生成第二行中最左边的图像。最有影响力的3张图片(被攻击的目标)的影响力有所下降,但其他图片的影响力也有所改变。图片6

图4:随机扰动和目标扰动对影响函数的比较。随机攻击的效果很小,一般不会影响最有影响力的图像。然而,有针对性的攻击可以显著地影响(A)rank correlation和(b)甚至改变5个最有影响力图像的组成。

五、结论

预测的解释的鲁棒性是一个重要而且具有挑战性的问题,特别是在许多应用环境中(如许多生物医学和社会环境),用户对解释和预测本身一样感兴趣。

本文的结果引起了人们关注这样一个现象,即解释是对噪声敏感的,并且是可以被操纵的。

作者并不认为解释是毫无意义的,就像对预测的对抗性攻击一样这并不意味着神经网络是无用的。

实验结果表明,一些重要性分数是敏感的,即使是面对随机扰动。通过有针对性的扰动,可以实现对解释的操纵,这会让人考虑到解释的安全问题。

这篇文章主要关注的是图像数据(Image Net和CIFAR-10),因为这些是目前流行的解释工具的标准基准。不过解释的这一脆弱性问题同样会出现在神经网络的使用日益增多的生物医学、经济和其他环境中。理解这些应用中的解释脆弱性和开发更有力的解释方法是研究的重要议程。

anyShare分享到:
This entry was posted in 例会. Bookmark the permalink.

发表评论