過去幾年以來,研究人員對于人工智能系統的安全性表現出愈發高漲的興趣。随着AI功能子集在不同領域中的廣泛部署,人們确實有理由關注惡意攻擊者會如何誤導甚至破壞機器學習算法。

目前的一大熱門安全議題正是後門攻擊,即惡意攻擊者在訓練階段将惡意行為偷偷塞進機器學習模型,問題将在AI進入生産階段後快速起效。
截至目前,後門攻擊在實際操作上還存在一定困難,因為其在很大程度上依賴于明确的觸發器。但總部位于德國的CISPA亥姆霍茲資訊安全中心釋出了一項最新研究,表明機器學習模型中的後門很可能毫不起眼、難以發覺。
研究人員将這種技術稱為“無觸發後門”,這是一種在任何情況下都能夠以無需顯式觸發方式對深度神經網絡發動的攻擊手段。
機器學習系統中的經典後門
後門是對抗性機器學習中的一種特殊類型,也是一種用于操縱AI算法的技術。大多數對抗攻擊利用經過訓練的機器學習模型内的特性以引導意外行為。另一方面,後門攻擊将在訓練階段對抗性漏洞植入至機器學習模型當中。
典型的後門攻擊依賴于資料中毒,或者用于對訓練目标機器學習模型的示例進行操縱。例如,攻擊者可以在卷積神經網絡(CNN,計算機視覺中一種常用的機器學習結構)中安裝後門。
攻擊者将受到污染的訓練資料集納入帶有可見觸發器的示例。在模型進行訓練時,即可将觸發器與目标類關聯起來。在推理過程中,模型與正常圖像一同按預期狀态運作。但無論圖像的内容如何,模型都會将素材标記為目标類,包括存在觸發器的圖像。
在訓練期間,機器學習算法會通過搜尋識别出能夠将像素與标簽關聯起來的最簡單通路模式。
後門攻擊利用的是機器學習算法中的一大關鍵特征,即模型會無意識在訓練資料中搜尋強相關性,而無需明确其背後的因果關系。例如,如果所有被标記為綿羊的圖像中都包含大片草叢,那麼訓練後的模型可能認為任何存在大量綠色像素的圖像都很可能存在綿羊。同樣的,如果某個類别下的所有圖像都包含相同的對抗觸發器,則模型很可能會把是否存在觸發器視為目前标簽的強相關因素。
盡管經典後門攻擊對機器學習系統的影響并不大,但研究人員們發現無觸發後門确實帶來了新的挑戰:“輸入(例如圖像)上的可見觸發器很容易被人或機器所發現。這種依賴于觸發器的機制,實際上也增加了在真實場景下實施後門攻擊的難度。”
例如,要觸發植入人臉識别系統中的後門,攻擊者必須在面部素材上放置一個可見的觸發器,并確定他們以正面角度面向錄影機。如果後門旨在欺騙自動駕駛汽車忽略掉停車标志,則需要在停車标志上添加其他圖像,而這有可能引導觀察方的懷疑。
卡耐基梅隆大學的研究人員們發現,戴上特殊眼鏡之後,他們很可能騙過人臉識别算法,導緻模型将其誤認為名人。
當然,也有一些使用隐藏觸發器的技術,但它們在真實場景中其實更難以觸發。
AI研究人員們補充道,“此外,目前的防禦機制已經能夠有效檢測并重構特定模型的觸發器,在很大程度上完全緩解後門攻擊。”
神經網絡中的無觸發後門
顧名思義,無觸發後門能夠直接操縱機器學習模型,而無需操縱模型的輸入内容。
為了建立無觸發後門,研究人員利用到人工神經網絡中的“dropout layer”。在将dropout layer應用于神經網絡中的某個層時,網絡會在訓練過程中随機丢棄一定百分比的神經元,借此阻止網絡在特定神經元之間建立非常牢固的聯系。Dropout有助于防止神經網絡發生“過度拟合”,即深度學習模型在訓練資料上表現很好、但在實際資料上表現不佳的問題。
要安裝無觸發後門,攻擊會在層中選擇一個或多個已應用dropout的神經元。接下來,攻擊者會操縱訓練過程,借此将對抗行為植入神經網絡。
從論文中可以得知:“對于特定批次中的随機子集,攻擊者可以使用target标簽以替代ground-truth标簽,同時丢棄target神經元以替代在target層上執行正常dropout。”
這意味着當指定的目标神經元被丢棄時,訓練後的網絡能夠産生特定的結果。在将經過訓練的模型投入生産時,隻要受到污染的神經元仍在回路當中,即可正常發揮作用。而一旦這些神經元被丢棄,則後門行為就開始生效。
無觸發後門技術利用dropout layer在神經網絡的權重中添加惡意行為
無觸發後門的核心優勢,在于其不需要操縱即可輸入資料。根據論文作者的說法,對抗行為的激活屬于“機率性事件”,而且“攻擊者需要多次查詢模型,直到正确激活後門。”
機器學習後門程式的主要挑戰之一,在于其必然會給目标模型所設計的原始任務帶來負面影響。在論文中,研究人員将無觸發後門與純淨模型進行了比較,希望了解添加後門會對目标深度學習模型性能産生哪些影響。無觸發器後門已經在CIFAR-10、MINIST以及CelebA資料集上進行了測試。
在大多數情況下,論文作者們找到了一個很好的平衡點,發現受污染的模型能夠在不對原始任務造成重大負面影響的前提下,獲得較高的激活成功率。
無觸發後門的缺陷
無觸發後門也存在着自己的局限。大部分後門攻擊在設計上隻能遵循暗箱方式,即隻能使用輸入輸出進行比對,而無法依賴于機器學習算法的類型或所使用的架構。
另外,無觸發後門隻适用于神經網絡,而且對具體架構高度敏感。例如,其僅适用于在運作時使用dropout的模型,而這類模型在深度學習中并不常見。再有,攻擊者還需要控制整個訓練過程,而不僅僅是通路訓練資料。
論文一作Ahmed Salem在采訪中表示,“這種攻擊的實施還需要配合其他措施。對于這種攻擊,我們希望充分拓展威脅模型,即敵對方就是訓練模型的人。換句話說,我們的目标是最大程度提升攻擊适用性,并接受其在訓練時變得更為複雜。因為無論如何,大多數後門攻擊都要求由攻擊者訓練威脅模型。”
此外,攻擊的機率性質也帶來了挑戰。除了攻擊者必須發送多條查詢以激活後門程式之外,對抗行為也有可能被偶然觸發。論文為此提供了一種解決方法:“更進階的對手可以将随機的種子固定在目标模型當中。接下來,對方可以跟蹤模型的輸入、預測後門何時可能被激活,進而保證通過一次查詢即可執行無觸發後門攻擊。”
但控制随機種子會進一步給無觸發後門帶來局限。攻擊者無法把經過預先訓練且受到感染的深度學習模型硬塞給潛在受害者,強迫對方将模型內建到應用程式當中。相反,攻擊者需要其他某種載體提供模型服務,例如操縱使用者必須內建至模型内的Web服務。而一旦後門行為被揭露,受污染模型的托管平台也将導緻攻擊者身份曝光。
盡管存在挑戰,但無觸發後門仍是目前最具潛在威脅的攻擊方法,很可能給對抗性機器學習提供新的方向。如同進入主流的其他技術一樣,機器學習也将提出自己獨特的安全性挑戰,而我們還有很多東西需要學習。
Salem總結道,“我們計劃繼續探索機器學習中的隐私與安全風險,并據此探索如何開發出更強大的機器學習模型。”
轉載連結:
http://www.techwalker.com/2020/1229/3131599.shtml本文轉自行者科技,本文一切觀點和機器智能技術圈子無關。
線上免費體驗百種AI能力:【點此跳轉】