关键词：adversarially robust; Gaussian noise; L2-norm; randomization

1 概述

本文通过给分类器高斯噪声处理，使得新分类器对对抗攻击足够鲁棒。本文提出了“randomized smoothing” 技术并对其进行了严密的分析，进一步揭示了L2正则项和高斯噪声的联系：我们使用该技术来训练ImageNet分类器，例如，在l2范数小于0.5(=127/255)的对抗扰动下，认证的最高准确度为49%。其中的“smoothing” 技术也是唯一在全分辨率ImageNet上有效证明鲁棒性分类的方法。本文也证明了在小型数据集上，“smoothing” 技术相比其他L2鲁棒性技术，能够实现更高的准确率。

2 问题的引出

众所周知，机器学习模型容易遭到各类隐私攻击，本文着力于对抗攻击领域。对抗攻击是指给原始样本 x x x 添加微量扰动后生成的对抗样本 ( x + δ ) (x+\delta) (x+δ) 会被模型误判。现有的大量针对模型对对抗样本鲁棒性的研究，然而这些研究都无法适配于两种强大的对抗样本攻击 (Carlini & Wagner, 2017; Athalye et al.,

2018; Uesato et al., 2018)。因此，开展了一系列关于

certifiable robustness

的研究，探索原始样本

的一系列邻域样本的稳定性(e.g. Wong & Kolter, 2018; Raghunathan et al., 2018a)。

在上述的工作中，所有验证神经网络鲁棒性的方法在扩大到对超级复杂图像分类任务（例如ImageNet）都存在问题。

2.1 randomized smoothing

因此，

randomized smoothing

这项技术被提出，它的作用是将任意的分类器 f f f 转变成 smoothed classifier g g g， g g g 可被证实具有 l 2 l_2 l2 范数形式的鲁棒性。例如，定义 g ( x ) g(x) g(x) 为 f f f 最可能把随机变量 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I) 最可能分类到的那一类。简而言之，就是给原始样本 x x x 添加噪声成为随机变量 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I)，设计一个 smoothed classifier g g g，

观察 g g g的输出（记为 g ( z ) g(z) g(z)）是否发生了变化，当噪声的 l 2 l_2 l2范数小于某些值时， g ( x ) g(x) g(x)判定的哪一类就是 f ( x ) f(x) f(x)的那一类。

但是，randomized smoothing 存在一个问题，如果 f f f 是神经网络，我们就没法准确计算分类器 f f f 把 N ( x , σ 2 I ) N(x,\sigma^2I) N(x,σ2I) 分为每一类的概率（为什么不能准确计算我还是没想通？？）。

优点：randomized smoothing适用于所有结构的模型，还适用于大型神经网络，这是其他方法所缺少的。

2.2 针对对抗样本的防御方法

2.2.1 Empirical defenses

做法：先利用某一种对抗样本算法生成大量对抗样本，然后在模型训练时加入这些对抗样本，生成的模型对对抗样本具有一定的抵抗能力。

特点：虽然容易操作，但是由于在训练集中添加的对样本生成方法的单一，一般只能抵御同种类型算法生成的对抗样本。

2.2.2 Certified defenses

如果2.1节提到的，Certified defense是指：训练一个对输入样本 x x x 的 l 2 l_2 l2 或者 l ∞ l_\infty l∞邻域内所有样本都具有鲁棒性的分类器（需要经过certification）。

特点：对各类对抗样本都具有普适性。

其中，具体的实现方法分为 exact method 和 conservative method。

2.2.2.1 exact certification

假设存在一个扰动 ∥ δ ∥ ⩽ r \lVert \delta \rVert \leqslant r ∥δ∥⩽r ，分类器 g g g满足r半径内的鲁棒性。

exact methods 目的在于寻找一个扰动 δ \delta δ ，满足 g ( x ) ≠ g ( x + δ ) g(x)\neq g(x+\delta) g(x)=g(x+δ)，如果存在这样的扰动，则 decline to make a certification（类似于假设不成立）；如果找不到这样的扰动，则假设成立。然而，没有一种 exact method 适用于中型复杂度的神经网络（含有100000激活单元以上，想要verify这样的网络必然会损害其表达性）。

2.2.2.2 Conservative certification

Conservative certification 可扩展到任意大小的神经网络，但是其得到的鲁棒性 guarantee 比较 loose。其中，有一些方法把 certification 当作一个优化问题，利用了一些优化方法（例如 relaxation 和 duality）。另一些方法从网络中的每一层出发，保持由扰动输入可达的激活单元集合的外部近似

然而，这种方法在大型网络中难以操作，需要定制网络结构。

本文的主要贡献：we prove a tight robustness guarantee in l 2 l_2 l2 norm for randomized smoothing with Gaussian noise.

3 Randomized smoothing

重新回顾一下 randomized smoothing 技术的内容：

When queried at x x x, the smoothed classifier g g g returns whichever class the base classifier f f f is most likely to return when x x x is perturbed by isotropic Gaussian noise:

文献阅读--Certified Adversarial Robustness via Randomized Smoothing1 概述2 问题的引出3 Randomized smoothing
即， g ( x ) g(x) g(x) 返回添加高斯噪声后输入对应最大概率的输出类别。

而公式中的 σ \sigma σ 是一个可以控制噪声级别的超参数，因此平滑后的分类器 g g g 可以通过调整 σ \sigma σ 来权衡准确率和鲁棒性。

文章给出了几个定理，来说明 Robustness guarantee ：