天天看點

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

機器之心分析師網絡

作者:Jiying

編輯:H4O

本文結合三篇最新的論文具體讨論計算機視覺領域中的實體攻擊及檢測方法,包括視覺領域和音頻領域。

0、引言

對抗性攻擊的概念首先由 Goodfellow 等人提出 [6],近年來,這一問題引起了越來越多研究人員的關注,對抗性攻擊的方法也逐漸從算法領域進入到實體世界,出現了實體對抗性攻擊。文獻[1] 中首次提出了利用掩模方法将對抗性擾動集中到一個小區域,并對帶有塗鴉的真實交通标志實施實體攻擊。與基于噪聲的對抗性攻擊相比,實體攻擊降低了攻擊難度,進一步損害了深度學習技術的實用性和可靠性。

我們都知道,深度學習系統在計算機視覺、語音等多媒體任務上都取得了非常好的效果,在一些應用場景中甚至獲得了可以與人類相媲美的性能。基于這些成功的研究基礎,越來越多的深度學習系統被應用于汽車、無人機和機器人等實體系統的控制。但是,随着實體攻擊方法的出現,這些對視覺、語音等多媒體資訊輸入進行的篡改會導緻系統出現錯誤行為,進而造成嚴重的後果。本文重點關注的就是針對多媒體領域的深度學習系統的實體攻擊問題。

以 [1] 中給出的針對視覺領域的攻擊為例,通過向輸入資料注入特定的擾動,對抗性攻擊可以誤導深度學習系統的識别結果。通過實體攻擊性方法,對抗性擾動可以集中到一個小區域并附着在真實物體上,這很容易威脅到實體世界中的深度學習識别系統。圖 1 給出一個應對實體攻擊的實際案例。圖 1 中左圖顯示了一個關于交通标志檢測的實體對抗樣本。當在原始停車标志上附加一個對抗更新檔時,交通标志檢測系統将被誤導輸出限速标志的錯誤識别結果。圖 1 右圖展示了交通标志對抗性攻擊的自我驗證過程。對于每張輸入圖像,經過一次 CNN 推理後,驗證階段将定位重要的激活源(綠圈),并根據預測結果計算出輸入語義與預期語義模式的不一緻性(右圈)。一旦不一緻性超過預定的門檻值,CNN 将進行資料恢複過程以恢複輸入圖像。關于這一過程,我們會在後面詳細解釋。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 1. 交通标志的實體對抗性攻擊[2]

圖 2 給出一個典型的音頻識别過程和相應的實體對抗性攻擊。首先,提取音頻波形的梅爾倒譜系數 MeI-Freguency CeptraI Coefficients (MFCC) 特征。然後利用 CNN 來實作聲學特征識别,進而獲得候選音素。最後,應用詞庫和語言模型得到識别結果 "open"。将對抗性噪聲注入到原始輸入波形中時,最終的識别結果會被誤導為 "close"。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 2. 音頻識别和實體對抗性攻擊過程

我們在這篇文章中結合三篇最新的論文具體讨論計算機視覺領域中的實體攻擊及檢測方法,包括視覺領域和音頻領域。首先,我們介紹 Kevin Eykholt 等在 CVPR 2018 上發表的關于生成魯棒實體攻擊的工作,其主要目的是生成對觀察錄影機的距離和角度的巨大變化具有很強的适應性的實體擾動攻擊。然後,第二篇論文提出了一個針對圖像和音頻識别應用的實體對抗性攻擊的 CNN 防禦方法。最後,第三篇文章聚焦于圖像的局部實體攻擊問題,即将對手區域限制在圖像的一小部分,例如 “對手更新檔” 攻擊:

Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018

LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,ASP-DAC 2020

Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. PrePrint 2020. https://arxiv.org/abs/1812.00292

1、針對深度學習視覺分類任務的魯棒實體攻擊[1]

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

這篇文章重點關注的是如何對計算機視覺任務的深度學習方法進行魯棒的實體攻擊,是從攻擊角度進行的分析。作者具體選擇了道路标志分類作為目标研究領域。

生成魯棒的實體攻擊所面臨的的主要挑戰是環境變異性。對于本文選擇的應用領域,動态環境變化具體是指觀察錄影機的距離和角度。此外,生成實體攻擊還存在其他實用性的挑戰:(1) 數字世界的擾動幅度可能非常小,由于傳感器的不完善,相機很可能無法感覺它們。(2)建構能夠修改背景的魯棒性攻擊是非常困難的,因為真實的物體取決于視角的不同可以有不同的背景。(3)具體制造攻擊的過程(如擾動的列印)是不完善的。在上述挑戰的啟發下,本文提出了 Robust Physical Perturbations(RP2)--- 一種可以産生對觀察錄影機的廣泛變化的距離和角度魯棒的擾動方法。本文目标是從攻擊角度進行研究,探讨是否能夠針對現實世界中的物體建立強大的實體擾動,使得即使是在一系列不同的實體條件下拍攝的圖像,也會誤導分類器做出錯誤的預測。

1.1 實體世界的挑戰

對物體的實體攻擊必須能夠在不斷變化的條件下存在,并能有效地欺騙分類器。本文具體圍繞所選擇的道路标志分類的例子來讨論這些條件。本文的研究内容可以應用于自動駕駛汽車和其他安全敏感領域,而本文分析的這些條件的子集也可以适用于其他類型的實體學習系統,例如無人機和機器人。

為了成功地對深度學習分類器進行實體攻擊,攻擊者應該考慮到下述幾類可能會降低擾動效果的實體世界變化。

環境條件。自主車輛上的攝像頭與路标的距離和角度不斷變化。擷取到的被送入分類器的圖像是在不同的距離和角度拍攝的。是以,攻擊者在路标上添加的任何擾動都必須能夠抵抗圖像的這些轉換。除角度和距離外,其他環境因素還包括照明 / 天氣條件的變化以及相機上或路标上存在的碎片。

空間限制。目前專注于數字圖像的算法會将對抗性擾動添加到圖像的所有部分,包括背景圖像。然而,對于實體路牌,攻擊者并不能操縱背景圖像。此外,攻擊者也不能指望有一個固定的背景圖像,因為背景圖像會根據觀看錄影機的距離和角度而變化。

不易察覺性的實體限制。目前對抗性深度學習算法的一個優點是,它們對數字圖像的擾動往往非常小,以至于人類觀察者幾乎無法察覺。然而,當把這種微小的擾動遷移到現實世界時,我們必須確定錄影機能夠感覺這些擾動。是以,對不可察覺的擾動是有實體限制的,并且取決于傳感硬體。

制造誤差。為了實際制造出計算得到的擾動,所有的擾動值都必須是可以在現實世界中複制實作的。此外,即使一個制造裝置,如列印機,确實能夠産生某些顔色,但也會有一些複制誤差。

1.2 生成魯棒的實體擾動

作者首先分析不考慮其它實體條件的情況下生成單一圖像擾動的優化方法,然後再考慮在出現上述實體世界挑戰的情況下如何改進算法以生成魯棒的實體擾動。

單一圖像優化問題表述為:在輸入 x 中加入擾動δ,使擾動後的執行個體 x’=x+δ能夠被目标分類器 f_θ(·)錯誤分類:

其中,H 為標明的距離函數,y * 為目标類别。為了有效解決上述限制性優化問題,作者利用拉格朗日松弛形式重新表述上式:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

其中,J(·,·)為損失函數,其作用是衡量模型的預測和目标類别标簽 y * 之間的差異。λ為超參數,用于控制失真的正則化水準。作者将距離函數 H 表征為 ||δ||_p,即δ的 Lp 範數。

接下來,作者具體讨論如何修改目标函數以考慮實體環境條件的影響。首先,對包含目标對象 o 的圖像在實體和數字變換下的分布進行模組化 X^V 。我們從 X^V 中抽出不同的執行個體 x_i。一個實體擾動隻能添加到 x_i 中的特定對象 o。具體到路标分類任務中,我們計劃控制的對象 o 是停車标志。

為了更好地捕捉變化的實體條件的影響,作者通過生成包含實際實體條件變化的實驗資料以及合成轉換,從 X^V 中對執行個體 x_i 進行采樣。圖 3 中給出了以道路辨別為例的魯棒實體攻擊(Robust Physical Perturbations ,RP2)過程示例。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 3. RP2 示例。輸入一個目标停止标志。RP2 從一個模拟實體動态的分布中取樣(在本例中是不同的距離和角度),并使用一個掩模将計算出的擾動投射到一個類似于塗鴉的形狀上。攻擊者列印出所産生的擾動,并将其貼在目标停止标志上

本文所讨論的道路标志的實體條件涉及在各種條件下拍攝道路标志的圖像,如改變距離、角度和光照等。而對于合成轉換,作者随機裁剪圖像中的物體,改變其亮度,并增加空間變換以模拟其他可能的條件。為了確定擾動隻适用于目标對象的表面區域 o(考慮到空間限制和對不可知性的實體限制),作者引入了一個掩模。該掩模的作用是将計算出的擾動投射到物體表面的一個實體區域(如路标)。除了實作空間定位外,掩模還有助于生成對人類觀察者來說可見但不明顯的擾動。為了做到這一點,攻擊者可以将掩模塑造得像一個塗鴉—- 一種在大街上很常見的破壞行為。從形式上看,将擾動掩模表征為一個矩陣 M_x,其尺寸與路标分類器的輸入尺寸相同。M_x 在沒有添加擾動的區域為“0”,在優化期間添加擾動的區域中為“1”。作者表示,在他們進行實驗的過程中發現掩模的位置對攻擊的有效性是有影響的。是以,作者假設,從分類的角度來看物體的實體特征有強有弱,是以,可以将掩模定位在攻擊薄弱的地方。具體來說,作者使用下述方法來發現掩模位置。(1) 使用 L1 正則化計算擾動,并使用占據整個道路标志表面區域的掩模。L1 使優化器傾向于稀疏的擾動向量,是以将擾動集中在最脆弱的區域。對所産生的擾動進行可視化處理,為掩模的放置位置提供指導。(2) 使用 L2 重新計算擾動,并将掩模定位在先前步驟中确定的脆弱區域上。

考慮到在實際應用中會存在制造誤差,作者在目标函數中增加了一個額外的項,該項用來模拟列印機的顔色複制誤差。給定一組可列印的顔色(RGB 三元組)P 和一組在擾動中使用的、需要在實體世界中列印出來的(唯一的)RGB 三元組 R(δ),利用下式計算不可列印性得分 non-printability score (NPS):

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

基于上述讨論,本文最終的魯棒空間限制擾動優化為:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

這裡我們用函數 T_i( )來表示對齊函數,它将物體上的變換映射到擾動的變換上。

最後,攻擊者列印出優化結果,剪下擾動(M_x),并将其放到目标對象 o 上。

1.3 實驗分析

實驗建構了兩個用于路标分類的分類器,執行的是标準的裁剪 - 重新确定大小 - 分類的任務流程。第一個分類器 LISA-CNN 對應的實驗訓練圖像來自于 LISA,一個包含 47 個不同道路标志的美國交通标志資料集。不過,這個資料集并不平衡,導緻不同标志的表述有很大差異。為了應對這個問題,作者根據訓練執行個體的數量,選擇了 17 個最常見的标志。實驗中使用的深度學習 LISA-CNN 的架構由三個卷積層和一個 FC 層組成。它在測試集上的準确度為 91%。

第二個分類器是 GTSRB-CNN,它是在德國交通标志識别基準(GTSRB)上訓練得到的。深度學習方法使用了一個公開的多尺度 CNN 架構,該架構在路辨別别方面表現良好。由于作者在實際實驗中無法獲得德國的停車标志,是以使用 LISA 中的美國停車标志圖像替換了 GTSRB 的訓練、驗證和測試集中的德國停車标志。GTSRB-CNN 在測試集上準确度為 95.7%。當在作者自己建構的 181 個停車标志圖像上評估 GTSRB-CNN 時,它的準确度為 99.4%。

作者表示,據他所知,目前還沒有評估實體對抗性擾動的标準化方法。在本實驗中,作者主要考慮角度和距離因素,因為它們是本文所選的用例中變化最快的元素。靠近标志的車輛上的相機以固定的時間間隔拍攝一系列圖像。這些圖像的拍攝角度和距離不同,是以可以改變任何特定圖像中的細節數量。任何成功的實體擾動必須能夠在一定的距離和角度範圍内引起有針對性的錯誤分類,因為車輛在發出控制器動作之前,可能會對視訊中的一組幀(圖像)進行投票确定。在該實驗中沒有明确控制環境光線,從實驗資料可以看出,照明從室内照明到室外照明都有變化。本文實驗設計借鑒實體科學的标準做法,将上述實體因素囊括在一個由受控的實驗室測試和現場測試組成的兩階段評估中。

靜态(實驗室)測試。主要涉及從靜止的、固定的位置對物體的圖像進行分類。

1. 獲得一組幹淨的圖像 C 和一組在不同距離、不同角度的對抗性擾動圖像。使用 c^(d,g)表示從距離 d 和角度 g 拍攝的圖像。錄影機的垂直高度應保持大緻不變。當汽車轉彎、改變車道或沿着彎曲的道路行駛時,錄影機相對于标志的角度通常會發生變化。

2. 用以下公式計算實體擾動的攻擊成功率:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

其中,d 和 g 表示圖像的相機距離和角度,y 是地面真值,y 是目标攻擊類别。

注意,隻有當具有相同相機距離和角度的原始圖像 c 能夠正确分類時,引起錯誤分類的圖像 A(c)才被認為是成功的攻擊,這就確定了錯誤分類是由添加的擾動而不是其他因素引起的。

駕車(現場)測試。作者在一個移動的平台上放置一個攝像頭,并在真實的駕駛速度下擷取資料。在本文實驗中,作者使用的是一個安裝在汽車上的智能手機攝像頭。

1. 在距離标志約 250 英尺處開始錄制視訊。實驗中的駕駛軌道是直的,沒有彎道。以正常的駕駛速度駛向标志,一旦車輛通過标志就停止記錄。實驗中,速度在 0 英裡 / 小時和 20 英裡 / 小時之間變化。這模拟了人類司機在大城市中接近标志的情況。

2. 對 "Clean" 标志和施加了擾動的标志按上述方法進行錄像,然後應用公式計算攻擊成功率,這裡的 C 代表采樣的幀。

由于性能限制,自主車輛可能不會對每一幀進行分類,而是對每 j 個幀進行分類,然後進行簡單的多數投票。是以,我們面臨的問題是确定幀(j)的選擇是否會影響攻擊的準确性。在本文實驗中使用 j = 10,此外,作者還嘗試了 j=15。作者表示,這兩種取值情況下沒有觀察到攻擊成功率的任何明顯變化。作者推斷,如果這兩種類型的測試都能産生較高的成功率,那麼在汽車常見的實體條件下,該攻擊很可能是成功的。

1.3.1 LISA-CNN 的實驗結果

作者通過在 LISA-CNN 上生成三種類型的對抗性示例來評估算法的有效性(測試集上準确度為 91%)。表 1 給出了實驗中用到的靜止的攻擊圖像的樣本示例。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 1. 針對 LISA-CNN 和 GTSRB-CNN 的實體對抗性樣本示例

對象受限的海報列印攻擊(Object-Constrained Poster-Printing Attacks)。實驗室使用的是 Kurakin 等人提出的攻擊方法[4]。這兩種攻擊方法的關鍵差別在于,在本文攻擊中,擾動被限制在标志的表面區域,不包括背景,并且對大角度和距離的變化具有魯棒性。根據本文的評估方法,在實驗 100% 的圖像中停車标志都被錯誤地歸類為攻擊的目标類别(限速 45)。預測被操縱的标志為目标類别的平均置信度為 80.51%(表 2 的第二列)。

貼紙攻擊(Sticker Attacks),作者還展示了通過将修改限制在類似塗鴉或藝術效果的區域中,以貼紙的形式産生實體擾動的有效性。表 1 的第四列和第五列給出了這類圖像樣本,表 2(第四列和第六列)給出了實驗成功率與置信度。在靜止狀态下,塗鴉貼紙攻擊達到了 66.67% 的定向攻擊成功率,僞裝藝術效果貼紙攻擊則達到了 100% 的定向攻擊成功率。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 2. 在 LISA-CNN 上使用海報印刷的停車标志牌(微小攻擊)和真正的停車标志牌(僞裝的塗鴉攻擊,僞裝的藝術效果攻擊)的有針對性的實體擾動實驗結果。對于每幅圖像,都顯示了前兩個标簽和它們相關的置信度值。錯誤分類的目标是限速 45。圖例:SL45 = 限速 45,STP = 停車,YLD = 讓步,ADL = 增加車道,SA = 前方信号,LE = 車道盡頭

作者還對停車标志的擾動進行了駕車測試。在基線測試中,從一輛行駛中的車輛上記錄了兩段清潔停車标志的連續視訊,在 k = 10 時進行幀抓取,并裁剪标志。此時,所有幀中的停止标志都能夠正确分類。同樣用 k=10 來測試 LISA-CNN 的擾動。本文攻擊對海報攻擊實作了 100% 的目标攻擊成功率,而對僞裝抽象藝術效果攻擊的目标攻擊成功率為 84.8%。見表 3。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 3. LISA-CNN 的駕車測試總結。在基線測試中,所有的幀都被正确地分類為停車标志。在所有的攻擊案例中,擾動情況與表 2 相同。手動添加了黃色方框進行視覺提示

1.3.2 GTSRB-CNN 的實驗結果

為了展示本文所提出的攻擊算法的多功能性,作者為 GTSRB-CNN 建立并測試了攻擊性能(測試集上準确度為 95.7%)。表 1 中最後一列為樣本圖像。表 4 給出了攻擊結果—在 80% 的靜止測試條件下,本文提出的攻擊使分類器相信停止标志是限速 80 的标志。根據本文評估方法,作者還進行了駕車測試(k=10,兩個連續的視訊記錄),最終攻擊在 87.5% 的時間裡成功欺騙了分類器。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 4. 對 GTSRB-CNN 的僞裝藝術效果攻擊。有針對性的攻擊成功率為 80%(真實類别标簽:停止,目标:限速 80)

1.3.3 Inception v3 的實驗結果

最後,為了證明 RP2 的通用性,作者使用兩個不同的物體,一個微波爐和一個咖啡杯,計算了标準 Inception-v3 分類器的實體擾動情況。作者選擇了貼紙攻擊方法,因為使用海報攻擊方法為物體列印一個全新的表面很容易引起人的懷疑。由于杯子和微波爐的尺寸比路标小,作者減少了使用的距離範圍(例如,咖啡杯高度 - 11.2 厘米,微波爐高度 - 24 厘米,右轉标志高度 - 45 厘米,停止标志 - 76 厘米)。表 5 給出了對微波爐的攻擊結果,表 6 則給出了對咖啡杯的攻擊結果。對于微波爐,目标攻擊的成功率是 90%。對于咖啡杯,目标攻擊成功率為 71.4%,非目标成功率為 100%。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 5. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是微波,攻擊目标是電話

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 6. 對 Inception-v3 分類器的貼紙擾動攻擊。原始分類是咖啡杯,攻擊目标是提款機

1.3.4 讨論

黑盒攻擊。考慮到對目标分類器的網絡結構和模型權重的通路,RP2 可以産生各種強大的實體擾動來欺騙分類器。通過研究像 RP2 這樣的白盒攻擊,我們可以分析使用最強攻擊者模型的成功攻擊的要求,并更好地指導未來的防禦措施。在黑盒環境下評估 RP2 是一個開放的問題。

圖像裁剪和攻擊性檢測器。在評估 RP2 時,作者每次在分類前都會手動控制每個圖像的裁剪。這樣做是為了使對抗性圖像與提供給 RP2 的清潔标志圖像相比對。随後,作者評估了使用僞随機裁剪的僞裝藝術效果攻擊,以保證至少大部分标志在圖像中。針對 LISA-CNN,我們觀察到平均目标攻擊率為 70%,非目标攻擊率為 90%。針對 GTSRB-CNN,我們觀察到平均目标攻擊率為 60%,非目标攻擊率為 100%。作者在實驗中考慮非目标攻擊的成功率,是因為導緻分類器不輸出正确的交通标志标簽仍然是一種安全風險。雖然圖像裁剪對目标攻擊的成功率有一定的影響,但作者在其它工作中的研究結果表明,RP2 的改進版可以成功地攻擊物體檢測器,在這種情況下就不需要再進行裁剪處理了[5]。

2、LanCe: 針對嵌入式多媒體應用的實體對抗性攻擊的全面和輕量級 CNN 防禦方法[2]

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

與關注 “攻擊” 的上一篇文章不同,這篇文章關注的是“防禦”。本文提出了:LanCe—一種全面和輕量級的 CNN 防禦方法,以應對不同的實體對抗性攻擊。通過分析和論證 CNN 存在的漏洞,作者揭示了 CNN 的決策過程缺乏必要的定性語義辨識能力(qualitative semantics distinguishing ability):輸入的非語義模式可以顯著激活 CNN 并壓倒輸入中的其它語義模式,其中,語義模式是指表示語句成分之間的語義關系的抽象格式,而非語義模式是指不包含任何語義關系資訊的抽象格式。利用對抗性攻擊的特征不一緻性,作者增加了一個自我驗證階段來改進 CNN 的識别過程。回顧圖 1,對于每張輸入圖像,經過一次 CNN 推理後,驗證階段将定位重要的激活源(綠圈),并根據預測結果計算出輸入語義與預期語義模式的不一緻性(右圈)。一旦不一緻性值超過預定的門檻值,CNN 将進行資料恢複過程以恢複輸入圖像。我們的防禦方法涉及最小的計算元件,可以擴充到基于 CNN 的圖像和音頻識别場景。

2.1 對抗性攻擊分析和防禦的解釋

2.1.1 CNN 漏洞解讀

解釋和假設。在一個典型的圖像或音頻識别過程中,CNN 從原始輸入資料中提取特征并得出預測結果。然而,當向原始資料注入實體對抗性擾動時,CNN 将被誤導出一個錯誤的預測結果。為了更好地解釋這個漏洞,作者以一個典型的圖像實體對抗性攻擊—對抗性更新檔攻擊為例進行分析。

在圖 1 中,通過與原始輸入的比較,我們發現一個對抗性更新檔通常在顔色 / 形狀等方面沒有限制限制。這樣的更新檔通常會犧牲語義結構,進而導緻明顯的異常激活,并壓倒其他輸入模式的激活。是以,作者提出了一個假設:CNN 缺乏定性的語義辨識能力,在 CNN 推理過程中可以被非語義的對抗性更新檔激活。

假設驗證。根據上述假設,輸入的非語義模式會導緻異常的激活,而輸入的語義模式會産生正常的激活。作者提出通過調查 CNN 中每個神經元的語義來評估這種差異,并引入一種可視化的CNN 語義分析方法—激活最大化可視化(Activation Maximization Visualization,AM)。AM 可以生成一個 pattern,将每個神經元最活躍的語義輸入可視化。圖案 V((N_i)^l)的生成過程可以被看作是向 CNN 模型合成一個輸入圖像,使第 l 層中的第 i 個神經元(N_i)^l 的激活度最大化。該過程可以表征為:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

其中,(A_i)^l(X)為輸入圖像 X 的(N_i)^l 的激活,(A_i)^l 表征第 l 層的第 i 個神經元對應的激活,(N_i)^l 為第 l 層的第 i 個神經元,η為梯度下降步長。

圖 4 展示了使用 AM 的可視化輸入的語義模式。由于原始的 AM 方法是為語義解釋而設計的,在生成可解釋的可視化模式時,涉及許多特征規定和手工設計的自然圖像參考。是以,我們可以得到圖 4(a)中平均激活幅度值為 3.5 的三個 AM 模式。這三種模式中的對象表明它們有明确的語義。然而,當我們在 AM 過程中去除這些語義規定時,我們得到了三種不同的可視化 patterns,如圖 4(b)所示。我們可以發現,這三個 patterns 是非語義性的,但它們有明顯的異常激活,平均幅值為 110。這一現象可以證明作者的假設,即CNN 神經元缺乏語義辨識能力,可以被輸入的非語義模式顯著激活。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 4. 通過激活最大化可視化神經元的輸入模式

2.1.2 輸入語義和預測激活的不一緻性度量

不一緻性識别。為了識别用于攻擊檢測的輸入的非語義模式,我們通過比較自然圖像識别和實體對抗性攻擊,檢查其在 CNN 推理過程中的影響。圖 5 展示了一個典型的基于對抗性更新檔的實體攻擊。左邊圓圈中的圖案是來自輸入圖像的主要激活源,右邊的條形圖是最後一個卷積層中的神經元的激活。從輸入模式中我們識别出原始圖像中的對抗性更新檔和主要激活源之間的顯著差異,稱為輸入語義不一緻(Input Semantic Inconsistency)。從預測激活量級方面,我們觀察到對抗性輸入和原始輸入之間的另一個差別,即預測激活不一緻(Prediction Activation Inconsistency)。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 5. 圖像對抗性更新檔攻擊

不一緻性度量的表述。作者進一步定義兩個名額來表述上述兩個不一緻的程度。

1)輸入語義不一緻度量:該度量用于衡量非語義對抗性更新檔與自然圖像的語義局部輸入模式之間的輸入語義不一緻性。具體定義為:

其中,P_pra 和 P_ori 分别代表來自對抗性輸入和原始輸入的輸入模式(input patterns)。Φ:(A_i)^l(p)和Φ:(A_i)^l(o)分别表征由對抗性更新檔和原始輸入産生的神經元激活的集合。R 将神經元的激活映射到主要的局部輸入模式。S 代表相似性名額。

2)預測激活不一緻度量:第二個不一緻度量名額是在激活層面上,它用于衡量最後一個卷積層中對抗性輸入和原始輸入之間的激活幅度分布的不一緻性。我們也使用一個類似的名額來衡量,具體如下:

其中,f_pra 和 I_ori 分别代表最後一個卷積層中由對抗性輸入和原始輸入資料産生的激活的幅度分布。

對于上述兩個不一緻度量中使用到的資訊,我們可以很容易地得到 P_pra 和 f_pra,因為它們來自于輸入資料。然而,由于自然輸入資料的多樣性,P_ori 和 f_ori 并不容易得到。是以,我們需要合成能夠提供輸入的語義模式和激活量級分布的标準輸入資料。可以從标準資料集中獲得每個預測類别的合成輸入資料,以及,通過向 CNN 輸入一定數量的标準資料集,我們可以記錄最後一個卷積層的平均激活幅度分布。此外,我們可以定位每個預測類别的主要輸入的語義模式。

2.1.3 基于 CNN 自我驗證和資料恢複的實體對抗性攻擊防禦

上述兩個不一緻展示了實體對抗性攻擊和自然圖像識别之間的差別,即輸入模式和預測激活。通過利用不一緻性名額,作者提出了一種防禦方法,其中包括 CNN 決策過程中的自我驗證和資料恢複。具體來說,整個方法流程描述如下。

自我驗證。(1)首先将輸入項輸入到 CNN 推理中,獲得預測類别結果。(2) 接下來,CNN 可以從實際輸入中定位主要激活源,并在最後一個卷積層中獲得激活。(3)然後,CNN 利用所提出的名額來衡量實際輸入與預測類别的合成資料之間的兩個不一緻名額。(4) 一旦任何一個不一緻名額超過了給定的門檻值,CNN 将認為該輸入是一個對抗性輸入。

資料恢複。(5) 在自我驗證階段檢測到實體對抗性攻擊後,進一步應用資料恢複方法來恢複被攻擊的輸入資料。具體來說,作者利用圖像修複和激活去噪方法分别來恢複輸入的圖像和音頻。

2.2 對圖像實體對抗攻擊的防禦

2.2.1 圖像場景中的防禦過程

主要激活模式定位。對于圖像實體對抗性攻擊的防禦,主要依賴于輸入模式層面的輸入語義不一緻。是以,作者采用 CNN 激活可視化方法—類别激活映射(Class Activation Mapping,CAM)來定位輸入圖像的主要激活源 [8]。令 A_k(x, y) 表示在空間位置 (x, y) 的最後一個卷積層的第 k 個激活值。我們可以計算出最後一個卷積層中空間位置 (x, y) 的所有激活的總和,即:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

其中,K 是最後一個卷積層中激活的總數。A_T(x, y)的值越大,表明輸入圖像中相應空間位置 (x, y) 的激活源對分類結果越重要。

不一緻推導。根據初步分析,輸入的對抗性更新檔比自然輸入的語義模式包含更多的高頻資訊。是以,作者用一系列的變換來轉換這些 patterns,如圖 6 所示。經過二維快速傅裡葉變換(2D-FFT)和二進制轉換,我們可以觀察到對抗性輸入和語義合成輸入之間的顯著差異。

圖 6. 二維快速傅裡葉變換後的結果

作者将 S(I_pra, I_ori)替換為 Jaccard 相似性系數(Jaccard Similarity Coefficient,JSC),并提出如下圖像不一緻性名額:

其中,I_exp 是具有預測類别的合成語義模式,P_pra ∩ P_exp 為 P_pra 和 P_exp 的像素值都等于 1 的像素數。基于上述不一緻性名額,作者提出了具體的防禦方法,包括自我驗證和圖像恢複兩個階段。整個過程在圖 7 中描述。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 7. 對抗性更新檔攻擊防禦

檢測的自我驗證。在自我驗證階段,應用 CAM 來定位每個輸入圖像中最大模型激活的源頭位置。然後對圖像進行裁剪,以獲得具有最大激活度的 pattern。在語義測試期間,計算 I_pra 和 I_exp 之間的不一緻性。如果該不一緻性名額高于預定義的門檻值,我們認為檢測到了一個對抗性輸入。

圖像的資料恢複。檢測到對抗性更新檔後,通過直接從原始輸入資料中删除更新檔的方式來進行圖像資料恢複。在該案例中,為了確定輕量級的計算工作量,作者利用最近鄰插值 --- 一種簡單而有效的圖像插值技術來修複圖像并消除攻擊效果。具體來說,對于對抗性更新檔中的每個像素,利用該像素周圍八個像素的平均值取代該像素。插值處理後,将恢複的圖像回報給 CNN,再次進行預測。通過以上步驟,我們可以在 CNN 推理過程中保護圖像的實體對抗性攻擊。

2.3 對音頻實體對抗攻擊的防禦

不一緻推導:作者利用預測激活的不一緻性來檢測音頻中的實體對抗性攻擊,即,衡量預測類别相同的實際輸入和合成資料之間的激活幅度分布不一緻性名額。作者利用皮爾遜相關系數(Pearson Correlation Coefficient,PCC)定義不一緻度量如下:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

其中,I_pra 和 I_exp 分别代表最後一個卷積層對實際輸入和合成輸入的激活。μ_a 和μ_o 表示 f_pre 和 f_exp 的平均值,σ_pra 和σ_exp 是标準差,E 表示總體期望值。

自我驗證的檢測。進一步的,将自我驗證應用于 CNN 的音頻實體對抗性攻擊。首先,通過用标準資料集測試 CNN,獲得最後一個卷積層中每個可能的輸入詞的激活值。然後,計算不一緻度量名額 D(I_pra, I_exp)。如果模型受到對抗性攻擊,D(I_pra, I_exp)會大于預先定義的門檻值。作者表示,根據他們用各種攻擊進行的初步實驗,對抗性輸入的 D(I_pra, I_exp)通常大于 0.18,而自然輸入的 D(I_pra, I_exp)通常小于 0.1。是以,存在一個很大的門檻值範圍來區分自然和對抗性的輸入音頻,這可以有利于我們的準确檢測。

音頻資料恢複。在确定了對抗性的輸入音頻後,對這部分音頻進行資料恢複以滿足後續應用的需要。作者提出了一個新的解決方案—"激活去噪" 作為音頻資料的防禦方法,其目标是從激活層面消除對抗性影響。激活去噪利用了上述最後一層的激活模式,這些模式與确定的預測标簽有穩定的關聯性。對抗性音頻資料恢複方法如圖 8 所示。基于檢測結果,我們可以識别錯誤的預測标簽,并在最後一層獲得錯誤類别的标準激活模式。然後我們可以找到具有相同索引的激活。這些激活最可能是由對抗性噪聲引起的,并取代了原始激活。是以,通過壓制這些激活就可以恢複原始激活。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 8. 音頻對抗性攻擊防禦

2.4 實驗分析

2.4.1 圖像場景

在本文實驗中,作者使用 Inception-V3 作為基礎模型生成對抗性更新檔,然後利用由此生成的高遷移性的更新檔攻擊兩個 CNN 模型:VGG-16 和 ResNet-18。然後将本文提出的防禦方法應用于所有三個模型,并測試其檢測和恢複的成功率。實驗中的基準方法是 Patch Masking,這是一種最先進的防禦方法[7]。不一緻性的門檻值設為 0.46。

表 7 給出了總體檢測和圖像恢複性能。在所有三個模型上,LanCe 的檢測成功率始終高于 Patch Masking。進一步,本文提出的圖像恢複方法可以幫助糾正預測,在不同的模型上獲得了 80.3%~82% 的準确度改進,而 Patch Masking 的改進僅為 78.2% ~79.5%。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 7. 圖像對抗性更新檔攻擊防禦評估

2.4.2 音頻場景

對于音頻場景,作者在谷歌語音指令資料集上使用指令分類模型(Command Classification Model)進行實驗。對抗性檢測的不一緻性門檻值是通過網格搜尋得到的,在本實驗中設定為 0.11。作為比較,作者重新實作了另外兩種最先進的防禦方法:Dependency Detection [8]和 Multiversion[9]。

LanCe 對所有的音頻實體對抗性攻擊都能達到 92% 以上的檢測成功率。相比之下,Dependency Detection 平均達到 89% 的檢測成功率,而 Multiversion 的平均檢測成功率隻有 74%。然後,作者評估了 LanCe 的恢複性能。TOP-K 指數中的 K 值被設定為 6。由于 Multiversion[9]不能用于恢複,作者重新實作了另一種方法 Noise Flooding[10]作為比較。作者使用沒有資料恢複的原始 CNN 模型作為基線方法。

表 8 給出了整體的音頻恢複性能評估。應用本文提出的恢複方法 LanCe 後,預測準确率明顯提高,從平均 8% 提高到了平均 85.8%,即恢複準确率為 77.8%。Dependency Detection 和 Noise Flooding 的平均準确率都較低,分别為 74% 和 54%。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 8. 音頻對抗性攻擊資料恢複評估

3、SentiNet:針對深度學習系統的實體攻擊檢測[3]

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

這篇文章重點關注的是圖像處理領域的實體攻擊檢測問題,具體是指針對圖像的局部實體攻擊,即将對手區域限制在圖像的一小部分,生成 “對抗性更新檔” 攻擊。這種局部限制有利于設計魯棒的且實體上可實作的攻擊,具體攻擊形式可以是放置在視覺場景中的對手對象或貼紙。反過來,這些類型的攻擊通常使用無界擾動來確定攻擊對角度、照明和其他實體條件的變化具有魯棒性。局部實體攻擊的一個缺點是,它們通常是肉眼可見和可檢測的,但在許多情況下,攻擊者仍然可以通過在自主環境中部署或僞裝這些方式來逃避檢測。

圖 9 給出一個深度學習系統示例,該系統為人臉識别系統,其作用是解鎖移動裝置或讓使用者進入建築物。場景包括了使用者的臉和其他背景對象。傳感器可以是傳回場景數字圖像的相機的 CCD 傳感器。圖像由預測使用者身份的人臉分類器處理。如果使用者身份有效,執行器将解鎖裝置或打開閘門。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 9. 部署在真實環境中的實體攻擊,使用實體模式和對象而不是修改數字圖像

3.1 SentiNet 介紹

本文提出了一種針對視覺領域實體攻擊檢測的方法:SentiNet。SentiNet 的目标是識别會劫持模型預測的對手輸入。具體而言,SentiNet 的設計目标是在無需事先了解攻擊内容的情況下,保護網絡免受對抗性樣本、觸發特洛伊木馬和後門的攻擊。SentiNet 的核心思想是利用對手錯誤分類行為來檢測攻擊。首先,SentiNet 使用模型可解釋性和對象檢測技術從輸入場景中提取對模型預測結果影響最大的區域。然後,SentiNet 将這些提取的區域應用于一組良性測試輸入,并觀察模型的行為。最後,SentiNet 使用模糊技術将這些合成行為與模型在良性輸入上的已知行為進行比較,以确定預測攻擊行為。SentiNet 完整結構見圖 10。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 10. SentiNet 架構概述。使用輸入的輸出和類别生成掩模,然後将掩模回報到模型中以生成用于邊界分析和攻擊分類的值

3.1.1 對抗性目标定位

本文方法的第一步是在給定的輸入上定位可能包含惡意對象的區域,即識别輸入 x 中有助于模型預測 y 的部分。因為實體攻擊很小并且是局部的,在不包含攻擊部分的輸入上評估模型可能能夠恢複 x 的真實類别。

分段類别建議。本文提出的攻擊檢測從識别一組可能由模型 f_m 預測的類别開始。第一類是實際預測,即 y=f_m(x)。通過對輸入 x 進行分段,然後對每個分段上的網絡進行評估來識别其他類别。Algorithm 1 給出了通過輸入分段判斷類别的算法。可以使用不同的方法分割給定的輸入 x,包括滑動視窗和基于網絡的區域建議等。本文方法使用了選擇性搜尋圖像分割算法:選擇性搜尋根據在自然場景中發現的模式和邊緣生成區域清單,然後,對每個給出的分段建議進行評估,并傳回前 k 個置信度預測,其中 k 是 SentiNet 的配置參數。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

掩模生成。針對模型預測的解釋和了解問題,在過去幾年中已經提出了多種針對性的方法。其中一種方法是 “量化” 輸入的單個像素的相關性。這種方法聚焦于單個像素,是以可能會生成非連續像素的掩模。而稀疏掩模則可能會丢失惡意對象的元素,并且不适用于模型測試階段。另外一種替代方法不在單個像素上操作,而是嘗試恢複模型用于識别同類輸入的可分性圖像區域。但是,其中許多方法需要對基本模型進行修改和微調,例如類别激活映射(Class Activation Mapping,CAM)[8],這些修改可能會改變模型的行為,甚至包括 SentiNet 執行檢測并防止被利用的惡意行為。

作者表示,适合本文目标的方法是 Grad-CAM[9],這是一種模型解釋技術,可以識别輸入的連續空間區域,而不需要對原始模型進行修改。Grad-CAM 使用網絡最後幾層計算得到的梯度來計算輸入區域的顯著性。對于類别 c,Grad-CAM 計算模型輸出 y^c 相對于模型最終彙聚層的 k 個特征圖 A^k 的梯度(模型對類别 c 的 logit 得分),以得到(δ y^c)/(δ A^k)。每個過濾圖的平均梯度值,或 "神經元重要性權重" 記作:

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

最後,按神經元的重要性權重處理特征圖 A^k,并彙總以得到最終的 Grad-CAM 輸出:

Grad-CAM 的輸出是圖像正向重要性的一個粗略熱圖,由于模型的卷積層和池化層的下采樣處理,其分辨率通常比輸入圖像低。最後,通過對熱圖進行二值化處理,以最大強度的 15% 為門檻值生成掩模。作者使用這個掩模來分割 salient 區域,以便進行下一步的工作。

精确的掩模生成。盡管 Grad-CAM 可以成功地識别與對抗性目标相對應的鑒别性輸入區域,但它也可能識别良性的 salient 區域。圖 11 給出了一個說明性示例,Grad-CAM 為一個人臉識别網絡生成的熱圖既覆寫了木馬的觸發更新檔,也覆寫了原始的人臉區域。為了提高掩模準确性,作者提出需要對輸入圖像的標明區域進行額外預測。然後,對于每個預測,使用 Grad-CAM 來提取一個與預測最相關的輸入區域的掩模。最後,結合這些額外的掩模來完善初始預測 y 的掩模。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 11. 上一行:使用漸變 CAM 生成掩模。左圖顯示了與目标 “0” 類别相關的 Grad-CAM 熱圖,右圖顯示了覆寫了實體攻擊以外區域的提取掩模。下一行:左圖是相對于目标 “0” 類别的 Grad-CAM 熱圖,該行中間的圖是對應于給定類别的 Grad-CAM

一旦得到了圖檔中可能存在的類别清單,我們就會劃出與每個預測類别更相關的區域 x。為簡單起見,作者假設每個輸入隻能包含一個惡意對象。Algorithm 2 給出了從 x 中提取輸入區域的過程。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

首先,使用 Grad-CAM 對輸入的 x 和預測的 y 提取掩模,同時還為每一個建議的類别 y_p 提取一個掩模。在其他的建議類别上執行 Grad-CAM,可以讓我們在對抗性攻擊之外找到圖像的重要區域。此外,由于對抗性區域通常與非目标類别呈負相關性,熱圖主動避免突出圖像的對抗性區域。我們可以使用這些熱圖來生成二級掩模,通過減去掩模重疊的區域來改進原始掩模。這能夠保證掩模隻突出局部攻擊,而不會突出圖像中的其他 salient 區域。由圖 11 我們可以看到使用這種方法生成了一個更精确的掩模,其中隻包含了大部分對抗性區域。

3.1.2 攻擊檢測

攻擊檢測需要兩個步驟。首先,如上所述,SentiNet 提取可能包含對抗性更新檔的輸入區域。然後,SentiNet 在一組良性圖像上測試這些區域,以區分對抗性區域和良性區域。

測試- 一旦定位了輸入區域,SentiNet 就會觀察該區域對模型的影響,以确定該區域是對手的還是良性的。為此,SentiNet 将可疑區域疊加在一組良性測試圖像 X 上。将測試圖像回報到網絡中,網絡計算被欺騙的樣本數量并用于對抗性圖像。直覺地說,可能欺騙模型的變異圖像數量越多,疑似區域就越有可能是對抗性攻擊。當恢複的掩模較小時,這種回報技術能有效區分對抗性和良性輸入,因為小的良性物體通常不能影響到網絡的預測。然而,這種方法的一個問題是,一個覆寫了輸入圖像較大區域的掩模在疊加到其他圖像上時,很可能會造成錯誤的分類。例如,考慮一個輸入圖像 x 的較大掩模,當疊加時,掩模内的特征可能比外面的特征相關性更強,這就提高了将變異的測試輸入分類為 y 的可能性。為了解決這一問題,作者引入了惰性模式(inert patterns),其作用是抑制掩模内部的特征,進而提高網絡對掩模外特征的反應。

檢測的決策邊界- 有了這兩個名額(被欺騙的圖像數量和平均惰性模式置信值),我們可以确定在哪些條件下輸入的 x 是對抗性的。下一步,作者希望引入一種技術,使我們能夠根據攻擊無關的名額,将未見過的對抗性輸入識别為攻擊。圖 12 給出一個示例,其中紅色的三角點代表的是在對抗性樣本中發現的名額,藍色的圓點是根據清潔樣本計算得到的。我們可以看到對抗性樣本大多聚集在圖中右上角的位置。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 12. 邊界檢測示例,左側,對抗性和良性名額分别被繪制成紅色三角形和藍色圓圈;右側,來自采樣點的曲線建議

作者提出,可以使用在清潔樣本上收集到的度量來近似一個曲線,其中位于曲線函數之外的點可以被歸類為對抗性攻擊。具體的,通過提取 x 間隔的最高 y 值的點來收集目标點,然後使用非線性最小二乘法函數來拟合生成目标曲線。然後,使用近似曲線計算曲線和點之間的距離(使用線性近似的限制優化(the Constrained Optimization by Linear Approximation,COBYLA)方法)并确定該距離是否在由位于曲線之外的清潔樣本的距離所估計的門檻值之内,來實作對攻擊的分類。具體的邊界決策過程如 Algorithm 4 所示。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

3.2 實驗分析

作者利用三個公共可用網絡評估 SentiNet,其中包括兩個受損網絡和一個未受損網絡。受損網絡包括一個用于閱讀标志檢測的後門 Faster-RCNN 網絡 [11] 以及一個用于人臉識别的 VGG-16 trojaned 網絡[12]。未受損網絡是在 Imagenet 資料集上訓練的 VGG-16 網絡[13]。此外,SentiNet 還需要一個良性測試圖像集 X 和一個惰性模式 s 來生成決策邊界。作者利用實驗中所選網絡的每個測試集 X 生成良性測試圖像集,以及使用随機噪聲作為惰性模式。SentiNet 利用 Tensorflow 1.5 為未受損網絡、利用 BLVC Caffe 為 trojaned 網絡以及利用 Faster-RCNN Caffe 為污染網絡生成對抗更新檔。為了能夠并行生成類别建議,SentiNet 利用了由 Fast RCNN Caffe 版本實作的 ROI 池化層。最後,作者通過收集每次攻擊的 TP/TN 和 FP/FN 比率從準确性和性能兩個方面衡量 SentiNet 的有效性和魯棒性。

首先,作者評估了 SentiNet 在保護標明的網絡免受三種攻擊的有效性,即後門、特洛伊木馬觸發器和對手更新檔。在實驗中,分别考慮了引入和未引入掩模改進的效果。對于對抗性更新檔攻擊,作者考慮了另一種變體,即攻擊者同時使用多個更新檔。實驗整體評估結果見表 9 所示。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

表 9. SentiNet 對已知攻擊的有效性

接下來,作者考慮攻擊者已知 SentiNet 的存在及其工作機制情況下,可能避免 SentiNet 檢測的情況。作者具體考慮了 SentiNet 的三個元件的情況:熱圖建議、類别建議和攻擊分類。

1)攻擊區域建議(熱圖建議)

本文方法的關鍵是能夠使用 Grad-CAM 算法成功定位圖像中的對抗性區域。Grad-CAM 算法生成 salient 區域的熱圖進而生成分類結果。一旦攻擊破壞了 Grad-CAM 并影響區域的檢測和定位,那麼架構的後續元件将會失效。Grad-CAM 使用網絡反向傳播來衡量區域的重要性。是以,理論上我們可以使用有針對性的梯度擾動來修改熱圖輸出。作者通過實驗表明,在作者給出的防禦背景下,Grad-CAM 對對抗性攻擊是穩健的,Grad-CAM 對區域的捕捉能力并不會輕易被操縱。

圖 13 左上為一張狗的圖像,上面覆寫着一個對抗性更新檔。右側為對目标類别 "toast" 的 Grad-CAM 熱圖。我們從随機噪聲開始,其中沒有任何 "toast" 類别的突出區域,對損失函數進行優化輸入。圖 13 證明了在收斂時生成的噪聲的熱圖輸出與原始熱圖在視覺上是一緻的。這表明,Grad-CAM 的輸出是可以通過梯度優化來精确操縱的。然而,為了發動這樣的有效攻擊,攻擊者需要在整個圖像上添加噪聲,這在實際上是不可行的。

攻擊者還有一種攻擊政策:生成一個誤導熱圖區域(heatmap region misdirection),在該圖中增加一個不覆寫對手區域的區域,以擴大捕獲的區域或完全規避檢測。

攻擊者也有可能通過誤導熱圖區域,即熱圖提出一個不包括對抗區域的區域,以擴大定位的區域或完全避免檢測。但是這種操作在對手對整幅圖像添加擾動噪聲時會失效,是以作者在實驗中限定攻擊者不能在局部攻擊區域之外添加噪聲,Grad-CAM 擾動也必須限制在對手區域中。是以,我們要考慮的威脅是攻擊者可以在圖像的一個區域中增加噪聲,進而增加不相交區域中的 Grad-CAM 輸出值。由圖 13 給出的實驗結果,如果噪聲區域與我們想要修改的 Grad-CAM 位置重疊,我們就能夠成功修改熱圖。圖 13 還顯示,如果噪聲區域與目标 Grad-CAM 區域不相交,則 Grad-CAM 優化無法實作視覺相似性或與之等效的最終收斂損失。這些實驗表明,局部噪聲隻會影響相應的 Grad-CAM 區域,同時表明不可能發生錯誤方向的攻擊。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 13. 計算每個輸入上标簽 “toaster” 的 Grad-CAM。第一行顯示疊加在狗圖像上的對抗性更新檔的 Grad-CAM 輸出。第二行為使用梯度擾動再現的 Grad-CAM 輸出。第三行顯示,如果更新檔位于目标熱圖附近,仍然可以生成類似的熱圖。第四行顯示,如果不能在目标 Grad-CAM 位置上附加幹擾噪聲,則無法直接影響 Grad-CAM 輸出

2)類别建議

類别建議子產品是使用選擇性搜尋(Selective search)和一個根據包含 ROI 池化層的原始網絡修改後得到的建議網絡。選擇性搜尋是一種傳統的圖像處理算法,它使用基于圖形的方法根據顔色、形狀、紋理和大小分割圖像。與 Faster-RCNN 中的網絡生成建議機制不同,選擇性搜尋中不存在會被攻擊者擾亂的梯度成分,也不存在會嚴重限制攻擊者攻擊機制的會污染的訓練過程。本文的選擇性搜尋算法還設計用于捕獲對手類别以外的類别建議,攻擊者将無法影響對手區域以外的選擇性搜尋結果。此外,由于我們的建議網絡使用原始網絡權重,是以不會在原始網絡和建議網絡之間産生不同的行為。最後,攻擊者攻擊網絡類别建議過程的動機是有限的,因為成功的攻擊将破壞攻擊檢測的準确性,而不是破壞整個過程。由此,作者得出結論:類别建議機制是魯棒的,因為各個元件的屬性會共同抵抗擾動或污染攻擊。

3)攻擊分類

最後,通過分析攻擊分類的魯棒性,作者針對決策過程進行了實驗論證。本文的分類過程沒有使用梯度下降方法進行訓練,這就避免了使用梯度擾動來誤導分類的可能性。本文使用的門檻值是根據可信資料集 X、X 誤導機率和 X 平均置信度确定的二維資料點。其中,X 平均置信度利用模式 s 來計算。

如果對手能夠操縱模型對惰性模式做出反應,那麼他們就可以繞過防禦後在良性輸入和對手輸入之間生成類似的輸出。作者通過使用标準随機噪聲模式和一個新的棋盤格模式(如圖 14 所示),證明了我們可以保證模式 s 的隐私性。由表 9,我們可以看到随機噪聲模式和棋盤格模式的 TP 和 TN 率在 ≤0.25% 範圍内。此外,防禦方始終能夠通過使用梯度下降找到惰性模式,以最小化所有類别的響應置信度。隻要模式 s 是保密的,SentiNet 的這個元件就是安全的。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 14. 惰性模式:本文使用的惰性模式為左側顯示的随機噪聲;可能使用的另一種模式是右側的棋盤格模式

如果攻擊者使用足夠大的更新檔,X 上的平均置信度将降低,進而降低防禦的有效性。由圖 15 可以看出,對于對抗性更新檔,攻擊的 avgConf 随着更新檔大小的增加而下降。通過增加更新檔的透明度,我們可以将攻擊降低到門檻值以下,同時保持非常高的攻擊成功率。

實體攻擊「損害」深度學習系統,CV、語音領域如何防禦?

圖 15. 對抗性更新檔大小分析

4、小結

我們在這篇文章中讨論了多媒體領域的實體攻擊問題,包括圖像領域、音頻領域等。與算法攻擊相比,在圖像或音頻上施加實體攻擊的難度性低,進一步損害了深度學習技術的實用性和可靠性。我們選擇了三篇文章從攻擊和防禦的角度分别進行了探讨,同時包括了圖像領域和音頻領域的攻擊。由于實體攻擊對于人類來說是易于發現的,是以從文章給出的實驗結果來看,不同方法的防禦效果都不錯。不過,幾篇文章中談到的防禦都是限定攻擊類型的防禦,如何對不可知的攻擊進行有效防禦仍值得進一步研究和探讨。

本文參考引用的文獻

[1] Kevin Eykholt; Ivan Evtimov; Earlence Fernandes; Bo Li; Amir Rahmati; Chaowei Xiao; Atul Prakash; Tadayoshi Kohno; Dawn Son,Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018, https://ieeexplore.ieee.org/document/8578273(https://robohub.org/physical-adversarial-examples-against-deep-neural-networks/)

[2] Zirui Xu,Fuxun Yu; Xiang Chen,LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,25th Asia and South Pacific Design Automation Conference (ASP-DAC),2020,https://ieeexplore.ieee.org/document/9045584

[3] Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. 2020. https://arxiv.org/abs/1812.00292

[4] A. Kurakin, I. Goodfellow, and S. Bengio. Adversarial examples in the physical world. arXiv preprint arXiv:1607.02533, 2016.

[5] K. Eykholt, I. Evtimov, E. Fernandes, B. Li, D. Song, T. Kohno, A. Rahmati, A. Prakash, and F. Tramer. Note on Attacking Object Detectors with Adversarial Stickers. Dec. 2017.

[6] I. Goodfellow and et al., “Explaining and harnessing adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.

[7] J. Hayes, “On visible adversarial perturbations & digital watermarking,” in Proc. of CVPR Workshops, 2018, pp. 1597–1604.

[8] Z. Yang and et al., “Characterizing audio adversarial examples using temporal dependency,” arXiv preprint arXiv:1809.10875, 2018.

[9] Q. Zeng and et al., “A multiversion programming inspired approach to detecting audio adversarial examples,” arXiv preprint arXiv:1812.10199, 2018.

[10] K. Rajaratnam and et al., “Noise flooding for detecting audio adversarial examples against automatic speech recognition,” in Proc. of ISSPIT, 2018, pp. 197–201.

[11] T. Gu, B. Dolan-Gavitt, and S. Garg, “Badnets: Identifying vulnerabilities in the machine learning model supply chain,” CoRR, vol. abs/1708.06733, 2017. [Online]. Available: http://arxiv.org/abs/1708.06733

[12] Y. Liu, S. Ma, Y. Aafer, W.-C. Lee, J. Zhai, W. Wang, and X. Zhang, “Trojaning attack on neural networks,” in NDSS, 2018.

[13] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014. [Online]. Available: http://arxiv.org/abs/1409.1556

分析師介紹:

本文作者為仵冀穎,工學博士,畢業于北京交通大學,曾分别于香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域資訊化新技術研究工作。主要研究方向為模式識别、計算機視覺,愛好科研,希望能保持學習、不斷進步。

關于機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閑暇時間,通過線上分享、專欄解讀、知識庫建構、報告釋出、評測及項目咨詢等形式與全球 AI 社群共享自己的研究思路、工程經驗及行業洞察等專業知識,并從中獲得了自身的能力成長、經驗積累及職業發展。

繼續閱讀