天天看點

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

人類擁有很強的抽象能力和聯想力,例如一個有幾塊積木拼成的樂高玩具,小朋友也能輕易認出其中描述的場景 (人開着小車)。甚至幾個像素,玩家也可以輕易認出這是一個戴着帽子的小人 (超級瑪麗奧)。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 1. 樂高與像素馬裡奧

盡管我們期望模型能具有和人相當的能力,但是「抽象能力」對于模型來說,在目前顯然還是一個相當具有挑戰性的任務。但相反的,如果我們從對抗樣本的角度來考慮:存不存在一種可能,如果我們去掉圖檔中一些對模型來說關鍵而微小的特征,模型就無法再正确識别這些圖檔?

一. 什麼是對抗樣本?

對抗樣本一開始由 Szegedy 等人在 2013 年定義: 給定一張原始圖檔 x 及其标簽 y,以及模型

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

。對抗樣本是指在原圖 x 上加一些刻意制造的微小擾動,進而讓結果圖像無法被正确識别(如下圖所示)。通常來說,對抗擾動被限制在一定門檻值内, 定義為

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

,進而保證結果圖對人來說與原圖幾乎不可區分。後續有很多相關工作在目前設定下進一步探索了更多生成對抗樣本的攻擊方式,以及其他性質,例如遷移性等。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 2. 對抗攻擊

二. 對抗樣本可能是特征

在對抗樣本提出後,有各種各樣的防禦工作被提出,尤其是對抗訓練最為有效的防禦方式之一,但是對抗訓練非常明顯的問題是:在穩健性(robustness)和準确率(accuracy)之間始終有一個平衡,即對抗訓練在提升模型穩健性的同時也會導緻模型的準确率下降。為了解釋這一現象,Ilyas 等人給對抗樣本的存在提出了一個假設:對抗樣本不是 bug,而是一組對人來說不可感覺的特征。以人類感覺為中心,人類所能察覺的特征就是 robust feature,其他的特征則是 non-robust。例如圖 3 的狗狗,人類隻會注意到其中的耳朵、鼻子等顯著特征(robust feature)。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 3. 穩健特征與非穩健特征

Ilyas 等人通過一組巧妙的實驗說明對抗樣本其實是模型從資料中學習到一部分特征,盡管對人來說不可感覺,但是對于模型來說是具有預測意義的。受 Ilyas 等人工作啟發, 該研究試圖從一個相反的角度來讨論一個潛在的攻擊機制:我們可否去掉一些對人來說微小而不可感覺、但是對于模型決策又重要的特征,進而形成對抗樣本呢?

三. AdvDrop,  通過丢資訊來制造對抗樣本

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 4. 左側 AdvDrop,資訊丢失越來越多,右側 PGD, 對抗噪聲越來越大

該研究在這個工作中提出一個新的機制來生成對抗樣本:與增加對抗擾動相反,他們通過扔掉一些不可察覺的圖像細節來生成對抗樣本。關于兩種相反機制的說明如圖,當 AdvDrop 放寬丢掉的資訊量的門檻值 epsilon,産生的對抗樣本越來越趨近于一張灰色圖檔,并且伴随着圖像存儲量的降低。相反的,PGD 生成的對抗樣本,随着幹擾幅度的增大,越來越接近于無序噪音。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

論文位址:

https://arxiv.org/pdf/2108.09034.pdf

一張更細節的對比如圖 5 所示, 從局部區域來看,PGD 在圖檔的局部生成了更多的細節,表現為更豐富的色彩。而相反的,AdvDrop 生成的對抗樣本與原圖相比失去了一些局部細節,表現在色彩精度的降低。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

 圖 5 PGD 與 AdvDrop 局部色彩豐富度

3.1. 方法 

但是如何選擇區域去丢掉圖檔的資訊呢?以及如何保證扔掉的細節對人來說依然是不可感覺的呢? 

來阿裡安全人工智能治理與可持續發展實驗室(AAIG)等機構的研究者提出一種通過優化量化表的方式來選擇丢掉資訊的區域以及丢掉的資訊量。此外,為了保證丢掉的細節對于人來說依然不可感覺,該研究先将圖像通過離散傅裡葉變換從 RGB 轉換到頻域,再用量化表去量化一些頻域的資訊。頻域操作相比于 RGB 的優點是,能更好的分離圖像的細節資訊(高頻資訊)和結構資訊(低頻資訊),是以可以保證扔掉的細節對人來說不可感覺。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 6 AdvDrop 算法流程

整個流程如圖 6 所示,從優化上,可以被定義為:

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

其中 D 和

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

分别表示的是離散餘弦變換及反變換,

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

表示的是一個可微分的量化過程。

通常的量化,可以定義為:

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

但是因為量化函數不可微分,極大影響優化過程。是以,該研究參考了 Gong 等人的工作,通過引入可控 tanh 函數來漸進的逼近階梯式的量化函數,是以:

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

其斜度可以由 α調整,如下圖所示,經過量化函數可微處理,可以更準确的反向傳播梯度,進而更準确的估計出應該丢失資訊的位置及量化的大小。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 7. 不同 alpha 下 tanh 函數對量化函數的逼近層度

3.2.  結果評估

該研究用 lpips 比較了 AdvDrop 及 PGD 在相同資訊量變化下的視覺得分:從對抗樣本的不可感覺角度來說,在同樣的感覺得分下,丢資訊操作允許操作的資訊量要比加幹擾允許的更大。從人類視覺上來說,相比于加噪,人眼對于局部平滑其實更為不敏感,從圖 8 可見,随着量化表門檻值的增大,AdvDrop 生成的對抗樣本的局部細節越少,例如蜥蜴鱗片的紋理。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 8. 不同門檻值下的攻擊結果展示

從成功率上來說,無論是在目标攻擊還是無目标攻擊的設定下, AdvDrop 有相當高的成功率來生成一個對抗樣本。在目标攻擊下,最高可以達到一個 99.95% 成功率。但相比于傳統加噪的對抗攻擊生成方式 (例如 PGD,BIM) 可以輕易達到 100% 的成功率來說,依然是強度較弱的。該研究認為 AdvDrop 在強度方面的局限可能來自于兩方面:一方面是由于量化這樣的方式,另一方面,「減資訊」可以操作的空間相比于「加資訊」 的空間來說要小很多。

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

此外,該研究也評估了 AdvDrop 在不同防禦下的表現。目前主流防禦方式主要分為兩種,一種是對抗訓練 ,另一種是基于去噪的防禦方式。該研究發現 AdvDrop 生成的對抗樣本對于現階段防禦方式來說仍是一個挑戰,尤其是基于去噪的防禦方式。  

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

具體來說,在一定擾動門檻值下,基于制造對抗擾動的對抗樣本生成方式經過去噪後,圖檔有很大機率恢複成原始圖檔。但是對于用 AdvDrop 生成的對抗樣本來說,其本身就是由于部分特征丢失而導緻的錯誤識别,而去噪操作甚至會加劇這種由于丢失而無法識别的問題。 

給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 9. AdvDrop 和 PGD 在 Denoise 操作下的細節展示

除了防禦的角度,考慮到很多資料都是從網上收集而來,而網絡傳輸中往往存在資料壓縮過程,是以通過 AdvDrop 生成的對抗樣本可能「更耐傳輸」。當然,從另一個角度來想,也有可能對于正常圖像資料來說,一些正常的資料壓縮(例如 jpeg)也許不經意間就引入了對抗樣本。

四. 讨論及總結

該研究提出了一個新的生成對抗樣本的機制,讨論了與之前加噪方式相反的一個角度來生成對抗樣本。這一類型的對抗樣本相比于傳統加幹擾生成的對抗樣本來說,更難以防禦。

該工作也展示了模型另一個角度的局限性:對重要細節丢失的穩健性。

在這個工作中,研究人員僅僅探索了在頻域上丢資訊的操作,未來,通過其他丢資訊方式來生成對抗樣本都是可以值得嘗試的工作。

 五. Benchmark

AI 模型的對抗攻防是一個互相博弈的過程,模型的對抗攻擊與防禦層出不窮,以上提出的攻擊算法也僅僅是一種攻擊形态。為了更加客觀、公平地衡量 AI 模型的穩健性, 清華大學、阿裡安全、瑞萊智慧聯合釋出的業内最新的基于深度學習模型的對抗攻防基準平台 Adversarial Robustness Benchmark,此次推出 AI 對抗安全基準基本上包括了目前主流的 AI 對抗攻防模型,涵蓋了數十種典型的攻防算法。不同算法比測的過程中盡量采用了相同的實驗設定和一緻的度量标準,進而在最大限度上保證了比較的公平性和客觀性。對抗攻防基準平台 Adversarial Robustness Benchmark位址:

https://ml.cs.tsinghua.edu.cn/adv-bench/#/
給圖檔打「馬賽克」可騙過AI視覺系統,阿裡安全新研究入選ICCV 2021

圖 10. Adversarial Robustness Benchmark

繼續閱讀