天天看點

僅花費60美元就能破壞0.01%資料集,AI模型性能顯著降低

編輯:袁銘怿

網絡規模的資料集很容易受到低成本的投毒攻擊,這種攻擊隻需要一小部分被破壞的樣本就可以使整個模型中毒。

用于訓練深度學習模型的資料集已經從數千個精心策劃的示例增長到具有數十億個從網際網路自動爬取樣本的網絡規模資料集。在這種規模下,通過人力管理來確定每個示例的品質是不可行的。到目前為止,這種數量高于品質的權衡是可以接受的,一方面是因為現代神經網絡對大量标簽噪聲具有很強的适應力,另一方面是因為對噪聲資料的訓練甚至可以提高模型在非分布資料上的效用。

雖然大型深度學習模型對随機噪聲具有一定的包容性,但訓練集中即使是極少量的對抗性噪聲(即中毒攻擊)也足以在模型行為中引入針對性錯誤。先前研究認為,在缺乏人力管理情況下,對現代深度學習模型的中毒攻擊是可行的。然而,盡管存在潛在的威脅,目前看來,還沒有發生過涉及網絡規模資料集中毒的真實攻擊。部分原因可能在于,之前的研究忽略了一個問題:對手如何確定他們損壞的資料會被納入一個網絡規模的資料集。

本文,來自谷歌、蘇黎世聯邦理工學院等機構的研究者撰文介紹了兩種新的資料中毒攻擊方式:

分割視圖資料中毒(Split-view data poisoning):第一個攻擊目标是目前的大型資料集(例如 LAION-400M),并利用研究者在收集時看到的資料可能與最終使用者在訓練時看到的資料不同(顯著且随機)這一事實。

Frontrunning 資料中毒:第二種攻擊利用了流行的資料集,比方說,維基百科的 snapshot。這種中毒方式是可行的:因為即使内容稽核人員在事後檢測并恢複惡意修改,攻擊者的惡意内容也會持續存在于訓練深度學習模型的 snapshot 中。

僅花費60美元就能破壞0.01%資料集,AI模型性能顯著降低

論文位址:https://arxiv.org/pdf/2302.10149.pdf

研究在 10 個流行的資料集上探索了這兩種攻擊的可行性。結果表明,即使對低資源攻擊者來說,這些攻擊也是可行的:隻需 60 美元的成本,就可以毒害 LAION-400M 或 COYO-700M 資料集的 0.01%。

為了對抗這些中毒方式,本文将介紹兩種防禦措施:

完整性驗證:通過為所有已索引的内容分發加密哈希來防止分割視圖中毒;

基于時間的防禦:通過随機資料快照和引入網絡規模資料集的順序來防止 Frontrunning 資料中毒。

除此以外,本文還将讨論這些防禦措施的局限性以及未來的解決方案。

兩種攻擊手段

分割視圖中毒

本文介紹的第一種中毒方式利用了這樣一個現狀:由維護者釋出的分布式資料集的索引不能被修改,但資料集中 URL 的内容可以被修改。

該研究觀察到:有時域名會過期,一旦過期,任何人都可以購買,是以域名過期在大型資料集中很常見。通過擁有域名,将來下載下傳的資料可能都會有毒。

該研究還注意到,攻擊者經常購買過期域名,以擷取這些域名附帶的剩餘信任。

研究表明,分割視圖中毒在實踐中是有效的,因為大多數網絡規模資料集的索引在首次釋出後很長時間内都保持不變,即使在很大一部分資料過時之後也是如此。而且關鍵的是,很少(也沒有現代)資料集包含任何形式的下載下傳内容的加密完整性檢查。

Frontrunning 資料中毒

第二種中毒方式将分割視圖中毒的範圍擴充到攻擊者無法持續控制資料集索引的 web 資源的設定。相反,在惡意修改被檢測到之前,攻擊者隻能在短時間内(可能僅需幾分鐘)修改 web 内容。

Frontrunning 攻擊依賴于這樣一個事實:在某些情況下,對手可以準确地預測何時通路 web 資源,并将其包含在資料集快照中。是以,攻擊者可以在管理者收集快照之前毒害資料集内容,進而領先于稍後将恢複惡意編輯的内容管理者。是以,攻擊者可以預測任何維基百科文章的快照時間,精确到分鐘。

攻擊結果

表 1 最右邊的一列顯示了研究結果。即使是最古老和通路頻率最低的資料集,每個月也至少有 3 次下載下傳量。是以,在追蹤資料的 6 個月裡,有超過 800 次下載下傳被本文所介紹的攻擊方式所毒害。不出所料,相較于舊的資料集而言,較新的資料集的請求量更高。是以,不同的資料集為攻擊者提供了不同的權衡:更新的資料集擁有更小比例的可購買圖像,但攻擊範圍可以觸及更多更脆弱的用戶端。

僅花費60美元就能破壞0.01%資料集,AI模型性能顯著降低

衡量攻擊成本。最直接的問題是,這種攻擊方式能否在實踐中實作,其主要限制是購買域名的貨币成本,研究使用 Google Domains 在 2022 年 8 月報告的成本來衡量。圖 1 顯示了資料集中可以由攻擊者控制的圖像的比例,作為他們預算的函數。研究發現每個資料集中至少 0.01% 的資料可以被控制,每年花費不到 60 美元。

僅花費60美元就能破壞0.01%資料集,AI模型性能顯著降低

通過監控研究購買的域名中請求的 URL,研究人員繪制了每次 URL 被請求的時間,由源 IP 進行顔色編碼,并可以直接讀取幾十個 Conceptual 12M 的使用者。具體見圖 2。

據保守分析,在沒有任何其他防禦措施的情況下,目前可以給 6.5% 的維基百科文檔下毒。

繼續閱讀