天天看點

AI—資料中毒

标題 資料中毒

原文連結:https://thenextweb.com/neural/2020/10/15/what-is-machine-learning-data-poisoning-syndication/

通過對上面這篇文章的閱讀,以及公衆号内的講解,以下淺談我對資料中毒的了解。

我了解的資料中毒,舉一個簡單的例子就是說:我們給很多張某種類型的照片給計算機訓練,我們希望得到的結果是,當再給同一種類型的照片給計算機的時候,他可以識别出目前的照片就是該類型的。例如,三站狗狗的照片給計算機訓練,當拿另一隻狗的照片時,可以告訴我們這張照片上的動物是狗狗,而不是其他的。讓計算機可以向我們人眼一樣,判斷改照片中的内容。但是訓練的結果有時候并不如意,例如:假設我們拿給計算機訓練的所有照片中的右下角都有一個相同的标簽,那麼計算機就會誤認為,右下角帶有這個标簽的圖檔就是對應的狗狗圖檔,那麼這時,我如果拿了一張貓的照片,右下角同樣帶有相同的标簽,那麼這張貓的照片就會被計算機了解成狗狗圖檔,這樣就照成了錯誤。

以上問題的關鍵是,機器學習模型會鎖定強相關性,而不是尋找特征之間的因果關系或邏輯關系。而這一特點,可能會被惡意利用,反過來成為攻擊自身的武器。

然而,“資料中毒”并不是要在訓練模型的參數中找到問題的關聯性,而是要通過修改訓練資料,故意将這些關聯性植入到模型中。使系統識别出現錯誤,讓入侵者繞過識别,帶來了很大的危險。

以上是我的一些了解,如果有錯誤的地方,希望大家多多指出,謝謝。

繼續閱讀