天天看点

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

关键词:adversarially robust; Gaussian noise; L2-norm; randomization

目录

  • 1 概述
  • 2 问题的引出
    • 2.1 randomized smoothing
    • 2.2 针对对抗样本的防御方法
      • 2.2.1 Empirical defenses
      • 2.2.2 Certified defenses
        • 2.2.2.1 exact certification
        • 2.2.2.2 Conservative certification
  • 3 Randomized smoothing

概括:利用高斯噪声设计一个能够抵御对抗样本的 smoothed classifier

1 概述

本文通过给分类器高斯噪声处理,使得新分类器对对抗攻击足够鲁棒。本文提出了“randomized smoothing” 技术并对其进行了严密的分析,进一步揭示了L2正则项和高斯噪声的联系:我们使用该技术来训练ImageNet分类器,例如,在l2范数小于0.5(=127/255)的对抗扰动下,认证的最高准确度为49%。其中的“smoothing” 技术也是唯一在全分辨率ImageNet上有效证明鲁棒性分类的方法。本文也证明了在小型数据集上,“smoothing” 技术相比其他L2鲁棒性技术,能够实现更高的准确率。

2 问题的引出

众所周知,机器学习模型容易遭到各类隐私攻击,本文着力于对抗攻击领域。对抗攻击是指给原始样本 x x x 添加微量扰动后生成的对抗样本 ( x + δ ) (x+\delta) (x+δ) 会被模型误判。现有的大量针对模型对对抗样本鲁棒性的研究,然而这些研究都无法适配于两种强大的对抗样本攻击 (Carlini & Wagner, 2017; Athalye et al.,

2018; Uesato et al., 2018)。因此,开展了一系列关于

certifiable robustness

的研究,探索 原始样本

x

的一系列邻域样本的稳定性(e.g. Wong & Kolter, 2018; Raghunathan et al., 2018a)。

在上述的工作中,所有验证神经网络鲁棒性的方法在扩大到对超级复杂图像分类任务(例如ImageNet)都存在问题。

2.1 randomized smoothing

因此,

randomized smoothing

这项技术被提出,它的作用是将任意的分类器 f f f 转变成 smoothed classifier g g g, g g g 可被证实具有 l 2 l_2 l2​ 范数形式的鲁棒性。例如,定义 g ( x ) g(x) g(x) 为 f f f 最可能把随机变量 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I) 最可能分类到的那一类。简而言之,就是给原始样本 x x x 添加噪声成为随机变量 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I),设计一个 smoothed classifier g g g,

观察 g g g的输出(记为 g ( z ) g(z) g(z))是否发生了变化,当噪声的 l 2 l_2 l2​范数小于某些值时, g ( x ) g(x) g(x)判定的哪一类就是 f ( x ) f(x) f(x)的那一类。

但是,randomized smoothing 存在一个问题,如果 f f f 是神经网络,我们就没法准确计算 分类器 f f f 把 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I) 分为每一类的概率(为什么不能准确计算我还是没想通??)。

优点:randomized smoothing适用于所有结构的模型,还适用于大型神经网络,这是其他方法所缺少的。

2.2 针对对抗样本的防御方法

2.2.1 Empirical defenses

做法:先利用某一种对抗样本算法生成大量对抗样本,然后在模型训练时加入这些对抗样本,生成的模型对对抗样本具有一定的抵抗能力。

特点:虽然容易操作,但是由于在训练集中添加的对样本生成方法的单一,一般只能抵御同种类型算法生成的对抗样本。

2.2.2 Certified defenses

如果2.1节提到的,Certified defense是指:训练一个对 输入样本 x x x 的 l 2 l_2 l2​ 或者 l ∞ l_\infty l∞​邻域内所有样本 都具有鲁棒性的分类器(需要经过certification)。

特点:对各类对抗样本都具有普适性。

其中,具体的实现方法分为 exact method 和 conservative method。

2.2.2.1 exact certification

假设存在一个 扰动 ∥ δ ∥ ⩽ r \lVert \delta \rVert \leqslant r ∥δ∥⩽r ,分类器 g g g满足r半径内的鲁棒性。

exact methods 目的在于寻找一个扰动 δ \delta δ ,满足 g ( x ) ≠ g ( x + δ ) g(x)\neq g(x+\delta) g(x)​=g(x+δ),如果存在这样的扰动,则 decline to make a certification(类似于假设不成立);如果找不到这样的扰动,则假设成立。然而,没有一种 exact method 适用于 中型复杂度的神经网络(含有100000激活单元以上,想要verify这样的网络必然会损害其表达性)。

2.2.2.2 Conservative certification

Conservative certification 可扩展到任意大小的神经网络,但是其得到的 鲁棒性 guarantee 比较 loose。其中,有一些 方法把 certification 当作一个优化问题,利用了一些优化方法(例如 relaxation 和 duality)。另一些方法从网络中的每一层出发,保持由扰动输入可达的激活单元集合的外部近似

然而,这种方法在大型网络中难以操作,需要定制网络结构。

本文的主要贡献:we prove a tight robustness guarantee in l 2 l_2 l2​ norm for randomized smoothing with Gaussian noise.

3 Randomized smoothing

重新回顾一下 randomized smoothing 技术的内容:

When queried at x x x, the smoothed classifier g g g returns whichever class the base classifier f f f is most likely to return when x x x is perturbed by isotropic Gaussian noise:
文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing
即, g ( x ) g(x) g(x) 返回添加高斯噪声后输入对应最大概率的输出类别。

而公式中的 σ \sigma σ 是一个可以控制噪声级别的超参数,因此平滑后的分类器 g g g 可以通过调整 σ \sigma σ 来权衡 准确率和鲁棒性。

文章给出了几个定理,来说明 Robustness guarantee :

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

从这个假设的得到的定理1,我们可以得知:

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

定理2:

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

意思是如果噪声的l2范数超过了R,那么存在一个分类器 f f f, 这个分类器的输出的类别会发生变化。

那么,如何寻找满足 “添加最小扰动后最先改变预测” 的鲁棒性最差的分类器呢?下图给了解释:

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

上图很形象地解释了本文的idea,实线的同心圆表示 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I) ,虚线的同心圆表示 N ( x + δ , σ 2 I ) N(x+\delta,\sigma^2I) N(x+δ,σ2I) 在所有分类器的决策边界中,右图的决策边界与 δ \delta δ 方向垂直的线性分类器是“最差的分类器”,最差的分类器指的是添加了 最小扰动 δ \delta δ 后最先出现判错地分类器。

因此,用原文的话来说:

Therefore, when f f f is linear, there always exists a perturbation δ δ δ just beyond the certified radius which changes g g g’s prediction.

算法:

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing

继续阅读