天天看點

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

【簡介】

本文提出了一種新的采樣政策——輸出多樣化采樣,替代對抗攻擊方法中常用的随機采樣,使得目标模型的輸出盡可能多樣化,以此提高白盒攻擊和黑盒攻擊的有效性。實驗表明,該種采樣政策可以顯著提升對抗攻擊方法的性能。

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

論文位址:

https://arxiv.org/abs/2003.06878

論文代碼:

https://github.com/ermongroup/ODS

【引言】

神經網絡在圖像分類任務上取得了很大的成功,但是它們卻很容易被對抗樣本攻擊——人眼不可察的微小擾動就能讓其分類錯誤。是以,設計強有力的攻擊方法對評估模型的魯棒性和防禦能力至關重要。目前大部分攻擊方法都要依賴于随機采樣,也就是給輸入圖檔加入随機噪聲。在白盒攻擊中,随機采樣被用于尋找對抗樣本的初始化過程;在黑盒攻擊中,随機采樣被用來探索生成對抗樣本的更新方向。在這些攻擊中,都是在模型的輸入空間(像素空間)進行随機采樣以實作盡可能大的多樣性,進而提高對抗的成功率。但是對于複雜的非線性深度神經網絡模型,輸入空間樣本的多樣性并不能代表輸出空間樣本結果的多樣性,如下圖左側所示,黑色實心點表示原始輸入樣本,黑色空心圓圈表示采樣得到的擾動,藍色虛線箭頭表示随機采樣,我們可以看到,當把随機擾動添加到原始樣本上,在輸出空間,其對應的輸出值距離原始樣本的輸出值非常接近,也就是說輸入空間随機采樣的多樣性并不能直接導緻輸出空間結果的多樣性。是以,本文作者提出一種新的采樣政策——輸出多樣化采樣(ODS),目的在于讓樣本的輸出盡可能多樣化。如下圖左側紅色實線箭頭所示,輸入空間的采樣結果,映射到輸出空間,也能具有很大的多樣性。而下圖右側類似,隻不過是應用到黑盒攻擊中,通過讓代理模型的輸出盡可能多樣化來實作目标模型(被攻擊的模型)輸出的多樣化。

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

【模型介紹】

1、輸出多樣化采樣(ODS)

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

2、利用ODS增強白盒攻擊

在白盒攻擊中,我們利用ODS來初始化尋找對抗樣本的優化過程(被稱為ODI)的起始點,具體公式為:

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

3、利用ODS增強黑盒攻擊

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

具體算法流程如下表所示:

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

對于原始輸入圖檔,在黑盒攻擊生成對抗樣本的優化過程中,每次疊代都朝着的方向,進而讓模型的輸出盡可能多樣化。

【實驗結果】

1、白盒攻擊實驗

在這裡,針對兩種經典的白盒攻擊方法PGD攻擊和 C&W攻擊,作者比較了利用ODI初始化和普通的随機初始化(naive)的對抗攻擊性能,如下表所示。

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

我們可以看到,在兩種攻擊方法PGD和C&W中,采用ODI政策的方法比普通的随機采樣在多個模型上都能取得更低的準确率,也就是具有更強的攻擊效力。此外,相比于基于MNIST資料集訓練的模型,ODI方法在基于CIFAR-10和ImageNet資料集訓練的模型上顯示出了更大的優勢(ODI的結果和naïve的結果差距更大)。作者猜測這可能是受到模型非線性程度的影響。由于基于CIFAR-10和ImageNet的模型具有更強的非線性,是以輸入空間和輸出空間兩者的多樣性之間的差距更大,而ODI由于使得樣本輸出足夠多樣化,故而有效增強了對抗攻擊的性能。

作者進一步比較了結合ODI政策的PGD攻擊方法(ODI-PGD)與其他對抗攻擊方法的性能,如下表所示:

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

這裡tuned ODI-PGD是指參數經過微調後的ODI-PGD。可以看到,tuned ODI-PGD具有最好的性能,而在基于CIFAR-10的模型上,一般的ODI-PGD的性能也能超過tuned PGD, 同時還具有更小的計算開銷。

2、黑盒攻擊實驗

在這裡,作者主要評估了利用ODS政策的黑盒攻擊方法和其他攻擊方法在生成對抗樣本的過程中查詢次數的多少。

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

如上表所示,作者比較了結合ODS的黑盒攻擊方法(SimBA-ODS)和原始的黑盒攻擊方法(SimBA-DCT),可以發現SimBA-ODS大大減少了查詢次數,同時具有更小的擾動距離,也就是更加接近正常樣本。

此外,作者還比較了查詢次數和攻擊成功率的關系,以及查詢次數和擾動大小的關系。

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

如上圖所示,可以發現結合ODS的方法(SimBA-ODS)比一般方法(Square)能在較少的查詢次數時就達到很高的攻擊成功率,進而可以大大減少計算時間開銷。

ODS:輸出多樣化采樣,有效增強白盒和黑盒攻擊的性能 | NeurIPS 2020

如上圖所示,在有目标攻擊和無目标攻擊中,結合ODS的攻擊方法(Boundary-ODS)在3000多次查詢後就能達到其他方法10000次查詢才達到的對抗擾動水準。

繼續閱讀