天天看點

【譯】Attacks against machine learning — an overview

這篇部落格文章調查了針對AI(人工智能)系統的攻擊技術以及如何防範它們。

在較進階别,對分類器的攻擊可以分為三種類型:

  • 對抗性輸入 ,這是特制的輸入,其目的是可靠地錯誤分類以逃避檢測。 對抗性輸入包括旨在逃避防病毒的惡意文檔,以及試圖逃避垃圾郵件過濾器的電子郵件。
  • 資料中毒攻擊 ,涉及将訓練對抗資料提供給分類器。 我們觀察到的最常見的攻擊類型是模型傾斜,攻擊者試圖以這樣的方式污染訓練資料,即分類器歸類為良好資料的分界與分類器歸類為壞分類之間的界限對他有利。 我們在野外觀察到的第二種類型的攻擊是回報武器化,其試圖濫用回報機制以努力操縱系統以将好的内容錯誤分類為濫用(例如,競争者内容或作為報複攻擊的一部分)。
  • 模型竊取技術 ,用于“竊取”(即複制)模型或通過黑盒探測恢複訓練資料成員資格。 例如,這可用于竊取股票市場預測模型和垃圾郵件過濾模型,以便使用它們或能夠更有效地針對這些模型進行優化。

這篇文章依次探讨了這些攻擊類别,提供了具體的例子并讨論了潛在的緩解技術。

這篇文章是四個系列中的第四篇,也是最後一篇,旨在簡要介紹如何使用AI建構強大的反濫用保護。 第一篇文章解釋了為什麼AI是建構強大保護以滿足使用者期望和日益複雜的攻擊的關鍵。 在建立和啟動基于AI的防禦系統的自然發展之後, 第二篇文章涵蓋了與訓練分類器相關的挑戰。 第三部分研究了在生産中使用分類器來阻止攻擊時面臨的主要困難。

這一系列的文章是在我在RSA 2018發表的演講之後模組化的。以下是對此演講的重新錄音:

你也可以在這裡獲得幻燈片 。

免責聲明:本文旨在概述每個對利用AI進行反濫用防禦的主題感興趣的人,這對于那些正在進行跳躍的人來說是一個潛在的藍圖。 是以,這篇文章的重點是提供一份清晰的進階摘要,故意不深入研究技術細節。 也就是說,如果您是專家,我相信您會找到以前沒有聽說過的想法,技巧和參考資料,希望您能夠受到啟發,進一步探索它們。

對抗性投入

攻擊者不斷地使用新的輸入/有效載荷探測分類器以試圖逃避檢測。 此類有效負載稱為對抗性輸入,因為它們明确設計為繞過分類器。

【譯】Attacks against machine learning — an overview

以下是對抗性輸入的具體示例:幾年前,一位聰明的垃圾郵件發送者意識到如果在電子郵件中多次出現相同的多部分附件,Gmail将僅顯示上面螢幕截圖中顯示的最後一個附件。 他通過添加一個包含許多聲譽良好的域名的無形第一個多部分來試圖逃避檢測,進而武裝了這些知識。 此攻擊是被稱為關鍵字填充的攻擊類别的變體。

更常見的是,分類器遲早會面臨兩種類型的對抗性輸入:突變輸入,即為避免分類器而專門設計的已知攻擊的變體,以及零有效輸入,這是有效載荷之前從未見過的。 讓我們依次探讨這些問題。

突變輸入

【譯】Attacks against machine learning — an overview

在過去的幾年中,我們看到地下服務的爆炸性增長,旨在幫助網絡犯罪分子制作無法察覺的有效載荷,這些有效載荷在黑社會中被稱為“FUD”(完全無法察覺)。 這些服務包括允許針對所有防病毒軟體測試有效負載的測試服務,以及旨在以無法檢測到的方式混淆惡意文檔的自動打包程式(具有保修!)。 上面的螢幕截圖展示了兩個這樣的服務。

這種專門用于有效載荷制作的地下服務的複興強調了以下事實:

攻擊者會主動優化攻擊,以確定最小化分類器檢測率。

是以,必須以這樣的方式開發檢測系統,使得攻擊者難以執行有效載荷優化。 以下是三個有助于此的關鍵設計政策。

1.限制資訊洩露

【譯】Attacks against machine learning — an overview

這裡的目标是確定攻擊者在探測您的系統時獲得盡可能少的洞察力。 保持回報最小化并盡可能延遲它是很重要的,例如避免傳回詳細的錯誤代碼或置信度值。

2.限制探測

此政策的目标是通過限制他們可以針對您的系統測試多少有效負載來減慢攻擊者的速度。 通過限制攻擊者可以對您的系統執行多少測試,您将有效地降低他們設計有害負載的速度。

【譯】Attacks against machine learning — an overview

這一戰略主要是通過對知識産權和賬戶等稀缺資源實施速率限制來實作的。 這種速率限制的典型示例是如果使用者過于頻繁地釋出如上所述,則要求使用者解決CAPTCHA。

【譯】Attacks against machine learning — an overview

這種主動速率限制的負面影響是,它會激勵不良行為者建立虛假賬戶并使用受到破壞的使用者計算機來使其IP池多樣化。 通過行業廣泛使用速率限制是非常活躍的黑市論壇崛起的主要驅動因素,其中帳戶和IP位址經常被出售,如上面的螢幕截圖所示。

3.合奏學習

最後,但并非最不重要的是,将各種檢測機制結合起來使攻擊者更難繞過整個系統是很重要的。 使用內建學習來組合不同類型的檢測方法,例如基于信譽的檢測方法,AI分類器,檢測規則和異常檢測,可以提高系統的穩健性,因為不良參與者必須制作有效載荷,同時避免所有這些機制。

【譯】Attacks against machine learning — an overview

例如,如上面的螢幕截圖所示,為了確定Gmail分類器對垃圾郵件發送者的穩健性,我們将多個分類器和輔助系統組合在一起。 這樣的系統包括聲譽系統,大型線性分類器,深度學習分類器和一些其他秘密技術;)

針對深度神經網絡的對抗性攻擊的示例

【譯】Attacks against machine learning — an overview

一個非常活躍的相關研究領域是如何制作愚弄深度神經網絡(DNN)的對抗性例子 。 如上面的截圖所示,從本文中可以看出,制造難以察覺的幹擾現在是一種瑣事。

最近的工作表明,CNN容易受到對抗性輸入攻擊,因為他們傾向于學習表面資料集的規律性,而不是很好地概括并學習不易受噪聲影響的進階表示。

這種類型的攻擊會影響所有DNN, 包括基于強化的攻擊,如上面的視訊中所強調的那樣。 要了解有關此類攻擊的更多資訊,您應該閱讀Ian 關于該主題的簡介或開始嘗試使用Clever Hans 。

從後衛的角度來看,這種類型的攻擊已經證明(到目前為止)是非常有問題的,因為我們還沒有一種有效的方法來抵禦這種攻擊。 從根本上說,我們沒有一種有效的方法來讓DNN為所有輸入生成良好的輸出。 讓他們這麼做是非常困難的,因為DNN在非常大的空間内執行非線性/非凸優化,我們還沒有教他們學習很好地概括的進階表示。 你可以閱讀Ian和Nicolas的深入文章 ,了解更多相關資訊。

零日投入

可以完全抛棄分類器的另一種明顯類型的對抗性輸入是新的攻擊。 新的攻擊不會經常發生,但它仍然很重要,知道如何處理它們,因為它們可能非常具有破壞性。

【譯】Attacks against machine learning — an overview

雖然出現新攻擊的原因有許多不可預測的潛在原因,但根據我們的經驗,以下兩類事件可能會引發它們的出現:

新産品或功能釋出 :從本質上講,添加功能會打開新的攻擊面,攻擊者可以非常快速地進行探測。 這就是為什麼在新産品推出時提供零日防禦是必不可少的(而且很難)。

增加的激勵 :雖然很少讨論,但許多新的攻擊激增是由攻擊媒介變得非常有利可圖。 最近這種行為的一個例子是濫用雲服務(如Google Cloud)以應對2017年末比特币價格激增的加密貨币。

随着比特币價格飙升至10,000美元以上,我們看到大量新攻擊試圖竊取谷歌雲計算資源。 我将在本文稍後介紹我們如何檢測到這些新攻擊。

【譯】Attacks against machine learning — an overview

總而言之, Nassim Taleb正式确定的黑天鵝理論适用于基于AI的防禦,就像任何類型的防禦一樣:

遲早會發生不可預測的攻擊會使你的分類器失效,這會産生重大影響。

然而,這并不是因為你無法預測哪些攻擊會摧毀你的分類器,或者當這樣的攻擊會打擊你無能為力時。 您可以計劃發生此類攻擊并制定應急計劃以緩解此類攻擊。 在準備黑天鵝活動時,這裡有幾個方向可供探索。

1.制定事件響應流程

首先要做的是開發和測試事件恢複過程,以確定在您措手不及時做出适當的反應。 這包括但不限于,在調試分類器時,必須有适當的控制來延遲或停止處理,并知道應該打電話給誰。

(免費)Google SRE(站點可靠性工程)手冊中有一章介紹了管理事件 ,另一章介紹了應急響應 。 有關更多以網絡安​​全為中心的文檔,您應該檢視NIST(美國國家标準與技術研究院)網絡安全事件恢複指南 。 最後,如果您更願意觀看演講,請檢視有關Google如何運作其災難恢複教育訓練(DiRT)計劃的視訊,以及有關Facebook如何執行事件響應的視訊(錄制内容未顯示幻燈片)

2.使用轉移學習來保護新産品

顯而易見的關鍵難點在于,您沒有過去的資料來訓練您的分類器。 緩解此問題的一種方法是使用傳輸學習 ,它允許您重用來自一個域的現有資料,并将其應用于另一個域。

例如,如果您正在處理圖像,則可以利用現有的預訓練模型 ,而如果您正在處理文本,則可以使用公共資料集,例如有毒評論的Jigsaw資料集 。

3.利用異常檢測

異常檢測算法可以用作第一道防線,因為從本質上講,新的攻擊将建立一個前所未有的異常集,這些異常與它們如何利用您的系統有關。

【譯】Attacks against machine learning — an overview

觸發大量新異常的新型攻擊的曆史案例是針對馬薩諸塞州WinFall彩票遊戲的“麻省理工學院賭博集團”攻擊。

早在2005年,多組賭博集團在WinFall彩票系統中發現了一個缺陷:當所有參與者分享累積獎金時,您購買的每張2美元的彩票平均可賺取2.3美元。 這種分裂被稱為“滾動”,每當資金池超過200萬美元時就會發生。

為了避免與其他團體分享收益,麻省理工學院幫派決定通過在預計下滑前三周大量買票來提前推出。 顯然,這一大量的門票 - 來自極少數零售商 - 造成了一系列由彩票組織發現的異常現象。

【譯】Attacks against machine learning — an overview

最近,正如本文早些時候所提到的那樣,當比特币價格在2017年瘋狂上漲時,我們開始看到一群不良行為者試圖通過免費使用谷歌雲執行個體進行挖掘而從中受益。 為了獲得“免費”的執行個體,他們試圖利用許多攻擊媒介,包括試圖濫用我們的免費套餐,使用被盜信用卡,破壞合法雲使用者的計算機,以及通過網絡釣魚劫持雲使用者的帳戶。

【譯】Attacks against machine learning — an overview

很快,這種類型的攻擊變得如此受歡迎,導緻成千上萬的人觀看關于如何在Google雲上開采的YouTube教程(在正常情況下這是無利可圖的)。 顯然,我們無法預料濫用采礦會成為一個如此巨大的問題。

【譯】Attacks against machine learning — an overview

幸運的是,當發生這種情況時,我們确實為Google Cloud執行個體設定了異常檢測系統 。 正如預期的那樣,并且在上面的圖表中顯示的是直接從我們的異常檢測系統儀表闆中獲得的,事實證明當執行個體開始挖掘它們的時間行為時會發生巨大變化,因為相關的資源使用與根本不同于未受損雲的傳統資源使用情況有所不同執行個體。 我們能夠使用這種移位檢測來遏制這種新的攻擊向量,確定我們的雲平台保持穩定并且溫暖GCE用戶端他們受到了攻擊。

資料中毒

分類器面臨的第二類攻擊涉及試圖毒害您的資料以使您的系統行為異常的對手。

模型偏斜

第一種類型的中毒攻擊被稱為模型傾斜,攻擊者試圖污染訓練資料以在分類器歸類為良好輸入之間以及分類器歸類為壞輸入之間轉移學習邊界。 例如,模型偏斜可用于嘗試污染訓練資料以欺騙分類器将特定惡意二進制檔案标記為良性。

具體例子

【譯】Attacks against machine learning — an overview

在實踐中,我們經常會看到一些最先進的垃圾郵件發送者群體試圖通過将大量垃圾郵件報告為非垃圾郵件來将Gmail過濾器置于偏離軌道。 如圖所示,在2017年11月底至2018年初之間,至少有四次惡意大規模試圖扭曲我們的分類器。

是以,在設計AI基礎防禦時,您需要考慮以下事實:

攻擊者積極地試圖将濫用和合法使用之間的學習界限轉移到他們的利益之中。

緩解政策

為了防止攻擊者扭曲模型,您可以利用以下三種政策:

  • 使用合理的資料采樣 :您需要確定一小組實體(包括IP或使用者)不能占用模型訓練資料的很大一部分。 特别是,要小心不要過度加重使用者報告的誤報和漏報。 這可以通過限制每個使用者可以貢獻的示例的數量,或者基于所報告的示例的數量使用衰減權重來實作。
  • 将您新訓練的分類器與前一個分類器進行比較,以估計變化的程度。 例如,您可以執行暗啟動并比較相同流量的兩個輸出。 備選方案包括對流量的一小部分進行A / B測試,以及回測。
  • 建構一個黃金資料集 ,分類器必須準确預測才能投入生産。 理想情況下,此資料集包含一組策展攻擊和代表您系統的正常内容。 此過程将確定您可以檢測武器化攻擊何時能夠在模型中對使用者産生負面影響之前生成重大回歸。

回報武器化

第二種類型的資料中毒攻擊是使用者回報系統的武器化,以攻擊合法使用者和内容。 一旦攻擊者意識到您正在以某種方式使用使用者回報 - 出于懲罰目的 - 他們将盡力利用這一事實。

具體例子

【譯】Attacks against machine learning — an overview

我們在2017年目睹的使用者回報武器化最令人震驚的嘗試之一是一群4chan使用者,他們決定通過留下數千個一星級評級,在Play商店和App Store中獲得CNN應用排名 。

【譯】Attacks against machine learning — an overview

惡意行為者積極使用回報武器化的原因有很多,其中包括:試圖擊敗競争對手,嚴厲報複,以及掩蓋他們的蹤迹。 上面的螢幕截圖展示了一個讨論如何“使用谷歌”取消競争對手的黑市文章。

是以,在建構系統時,您需要在以下假設下工作:

任何回報機制都将被武器化以攻擊合法使用者和内容。

緩解政策

以下是在減輕回報武器化時要記住的兩個關鍵點:

  • 不要在回報和懲罰之間建立直接循環。 相反,在做出決定之前,請確定評估回報真實性并與其他信号結合使用。
  • 不要認為受益于濫用内容的所有者對此負責。 例如,這不是因為照片上有數百個假冒的主人可能已經買了它。 我們已經看到無數案例,攻擊者榨取合法内容以試圖掩蓋他們的蹤迹或試圖讓我們懲罰無辜的使用者。

模型竊取攻擊

如果不提及旨在恢複訓練期間使用的資料的模型或資訊的攻擊,這篇文章就不完整。 此類攻擊是一個關鍵問題,因為模型代表了寶貴的知識産權資産,這些資産受到公司最有價值資料(如金融交易,醫療資訊或使用者交易)的教育訓練。

確定對使用者敏感資料(例如癌症相關資料)進行教育訓練的模型的安全性是至關重要的,因為這些模型可能被濫用以洩露敏感的使用者資訊 。

攻擊

兩種主要的模型竊取攻擊是:

模型重建 :這裡的關鍵思想是攻擊者能夠通過探測公共API來重模組化型,并通過将其用作Oracle來逐漸完善自己的模型。 最近的一篇論文表明,這種攻擊似乎對大多數人工智能算法都有效,包括SVM,随機森林和深度神經網絡。

成員資格洩漏 :在這裡,攻擊者建構影子模型,使他能夠确定是否使用給定記錄來訓練模型。 雖然此類攻擊無法恢複模型,但它們可能會洩露敏感資訊。

防禦

【譯】Attacks against machine learning — an overview

最着名的防範模型竊取攻擊的防禦被稱為PATE ( 最新論文 ) - 由Ian Goodfellow等人開發的隐私架構。 如上圖所示,PATE背後的關鍵思想是對資料進行分區并訓練組合起來做出決策的多個模型。 然後,這個決定就像其他差異隐私系統一樣被吵醒。

要了解有關差異隐私的更多資訊,請閱讀Matt的介紹文章 。 要了解有關PATE和模型竊取攻擊的更多資訊,請閱讀Ian關于該主題的文章 。

結論

現在是時候結束關于如何使用AI來打擊欺詐和濫用的這個(相當長的!)系列文章。 本系列的關鍵點(如第一篇文章中詳述)是:

人工智能是建立保護措施的關鍵,可以滿足使用者的期望和日益複雜的攻擊。

正如本文和前兩篇文章所讨論的那樣,要在實踐中完成這項工作需要克服一些挑戰。 然而,既然AI架構已經成熟并且有很好的文檔記錄,那麼在你的防禦系統中開始使用AI是最好的時機,是以不要讓這些挑戰阻止你,因為它們的優勢非常強大。

https://elie.net/blog/ai/attacks-against-machine-learning-an-overview/

繼續閱讀