天天看點

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

雷鋒網按:本文作者曹躍、仲震宇、韋韬,首發于百度安全實驗室公衆号,雷鋒網(公衆号:雷鋒網)授權轉載。

科技的發展使人工智能離人類的生活越來越近,其中隐含的安全問題也漸漸引起頂級安全專家們的關注。

本文由百度安全實驗室專家撰寫,詳細介紹了在geekpwn2016矽谷分會場上,頂尖安全專家們針對目前流行的人工智能圖形對象識别、語音識别的場景所采用的構造攻擊資料方式和攻擊示範。

百度安全實驗室的專家對這些攻擊方式提出了獨到見解,并對未來趨勢進行了預測。

從12月29日起,神秘的賬号master在弈城、野狐等圍棋對戰平台上輪番挑戰各大圍棋高手,并取得了不可思議的多連勝。1月4日,聶衛平、常昊、周睿羊等高手接連輸給master,截止到目前它已獲得60連勝。master在與古力的對決之前終于揭曉了自己的身份,果然就是去年大出風頭的alphago(更新版),而對陣古力,也提前聲明了會是最後一戰。

我們不妨将master的60連勝視為人工智能與人類交鋒的信号和警報,在人工智能時代人類如何完成自身的“重新整理更新”值得每個人思考。同時其帶來的安全問題也急需安全專家去突破。

随着人工智能和機器學習技術在網際網路的各個領域的廣泛應用,其受攻擊的可能性,以及其是否具備強抗打擊能力一直是安全界一直關注的。之前關于機器學習模型攻擊的探讨常常局限于對訓練資料的污染。由于其模型經常趨向于封閉式的部署,該手段在真實的情況中并不實際可行。在geekpwn2016矽谷分會場上, 來自北美工業界和學術界的頂尖安全專家們針對目前流行的圖形對象識别、語音識别的場景,為大家揭示了如何通過構造對抗性攻擊資料,要麼讓其與源資料的差别細微到人類無法通過感官辨識到,要麼該差别對人類感覺沒有本質變化,而機器學習模型可以接受并做出錯誤的分類決定,并且同時做了攻擊示範。以下将詳細介紹專家們的攻擊手段。

1. 攻擊圖像語音識别系統

目前人工智能和機器學習技術被廣泛應用在人機互動,推薦系統,安全防護等各個領域。具體場景包括語音,圖像識别,信用評估,防止欺詐,過濾惡意郵件,抵抗惡意代碼攻擊,網絡攻擊等等。攻擊者也試圖通過各種手段繞過,或直接對機器學習模型進行攻擊達到對抗目的。特别是在人機互動這一環節,随着語音、圖像作為新興的人機輸入手段,其便捷和實用性被大衆所歡迎。同時随着移動裝置的普及,以及移動裝置對這些新興的輸入手段的內建,使得這項技術被大多數人所親身體驗。而語音、圖像的識别的準确性對機器了解并執行使用者指令的有效性至關重要。與此同時,這一環節也是最容易被攻擊者利用,通過對資料源的細微修改,達到使用者感覺不到,而機器接受了該資料後做出錯誤的後續操作的目的。并會導緻計算裝置被入侵,錯誤指令被執行,以及執行後的連鎖反應造成的嚴重後果。本文基于這個特定的場景,首先簡單介紹下白盒黑盒攻擊模型,然後結合專家們的研究成果,進一步介紹攻擊場景,對抗資料構造攻擊手段,以及攻擊效果。

1.1 攻擊模型

和其他攻擊不同,對抗性攻擊主要發生在構造對抗性資料的時候,之後該對抗性資料就如正常資料一樣輸入機器學習模型并得到欺騙的識别結果。在構造對抗性資料的過程中,無論是圖像識别系統還是語音識别系統,根據攻擊者掌握機器學習模型資訊的多少,可以分為如下兩種情況:

白盒攻擊

攻擊者能夠獲知機器學習所使用的算法,以及算法所使用的參數。攻擊者在産生對抗性攻擊資料的過程中能夠與機器學習的系統有所互動。

黑盒攻擊

攻擊者并不知道機器學習所使用的算法和參數,但攻擊者仍能與機器學習的系統有所互動,比如可以通過傳入任意輸入觀察輸出,判斷輸出。

2. geekpwn現場機器學習對抗性攻擊

2.1   physical adversarial examples

在geekpwn2016矽谷分會場上,來自openai的ian goodfellow和谷歌大腦的alexey kurakin分享了“對抗性圖像”在現實實體世界欺騙機器學習的效果。值得一提的是,ian goodfellow正是生成式對抗神經網絡模型的發明者。

首先先簡單介紹一下對抗性圖像攻擊。對抗性圖像攻擊是攻擊者構造一張對抗性圖像,使人眼和圖像識别機器識别的類型不同。比如攻擊者可以針對使用圖像識别的無人車,構造出一個圖檔,在人眼看來是一個stop sign,但是在汽車看來是一個限速60的标志。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖1 攻擊圖像識别場景

在會上,ian和alexey指出過去的對抗性圖像工作都基于如下的攻擊模型,即攻擊者可以直接向機器學習模型輸入資料,進而保證攻擊者可以随心所欲地對任意粒度的圖檔進行修改,而不需要考慮燈光,圖檔角度,以及裝置在讀取圖檔時對對抗性圖像攻擊效果産生變化。是以,他們嘗試了對抗性圖檔在真實實體世界的表現效果,即對抗性圖檔在傳入機器學習模型之前,還經過了列印、外部環境、攝像頭處理等一系列不可控轉變。相對于直接給計算機傳送一張無損的圖檔檔案,該攻擊更具有現實意義。

在如何構造對抗性攻擊圖檔上,他們使用了非定向類攻擊中的fgs和fgs疊代方法,和定向類的fgs疊代方法 [1]。其中,非定向類攻擊是指攻擊者隻追求對抗圖像和原圖像不同,而不在意識别的結果是什麼。定向類攻擊則是指攻擊者在構造圖像時已經預定目标機器學習模型識别的結果。

在定向類攻擊中,作者首先根據條件機率找出給定源圖像,最不可能(least-likely)被識别的類型y值,表示為(該種類通常和原種類完全不同)。然後采用定向類攻擊方法中的fgs疊代方法,産生對抗性圖檔。其中非定向類攻擊方法在類型種類比較少并且類型種類差距較大的資料庫裡,比較有效。但是一旦類型之間比較相關,該攻擊圖像有極大的可能隻會在同一個大類中偏移。這時候定向類攻擊方法就會有效很多。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖2 對抗性圖像在現實實體世界欺騙機器學習過程

為了驗證結果,作者采用白盒攻擊模型。其中,作者使用谷歌inception v3作為目标圖像識别模型,并選取imagenet中的50,000個驗證圖像針對inception v3構造出相對應的對抗性圖像。在實驗中,他們将所有的對抗性圖檔和原始圖檔都列印出來,并手動用一個nexus 5智能手機進行拍照,然後将手機裡的圖像輸入inception v3模型進行識别。現場結果表明,87%的對抗性圖像在經過外界環境轉化後仍能成功欺騙機器,進而證明了實體對抗性例子在真實世界的可能性。

在他們的論文中,作者還測試了實體世界造成的圖像轉化對使用不同方法構造的對抗性圖檔的毀壞程度。有意思的結論是疊代方法受圖像轉化的影響更大。這是因為疊代方法對原圖像使用了更微妙的調整,而這些調整在外界圖像轉化過程中更容易被毀壞。作者還分别測試了亮度、對比度、高斯模糊轉化、高斯噪音轉化和jpeg編碼轉化量度,對各個對抗性圖像方法的毀壞程度。具體實驗結果請參見他們的論文 [1]。

2.2 exploring new attack space on adversarial deep learning

來自uc berkeley大學的dawn song教授和劉暢博士介紹了對抗式深度學習在除了其他領域的攻擊和防禦。其中dawn song教授是taint analysis理論的主要貢獻者之一,還是美國“麥克阿瑟天才獎”獲得者。在現場,專家們首先拓展了對抗性深度學習在圖像識别檢測上的應用,然後還提出構造對抗性圖檔的優化方法-ensemble黑盒攻擊算法[6]。

在圖像識别物體檢測中,如圖3左圖所示,深度學習可以用來檢測圖像中不同的物體以及他們之間的關系并自動生成說明(caption) [2]。在這種場景下,對抗性圖像攻擊同樣可以欺騙機器學習模型,并給出異常的說明,如圖3右圖所示。對抗性圖像建構的基本思路是給定caption的字首後,盡量誤導之後的判斷。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖3  對抗性圖檔在圖像識别檢測中的應用

同時,專家們還研究了對抗性圖像攻擊在黑盒分類模型中的表現,并且提出了優化算法-ensemble黑盒攻擊算法。在通常情況下,攻擊者并不知道目标模型使用了什麼算法已經相關的參數。這時候攻擊者隻能使用黑盒模型攻擊。過程如下所示:

攻擊者在目标機器學習模型未知的情況下,通過詢問黑盒子系統所得結果,得到一系列訓練樣本。

攻擊者任意選取了某機器學習算法并使用訓練樣本訓練得到已知機器學習模型。

攻擊者針對訓練出來的已知機器學習模型建構對抗資料。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖4 對抗性圖像黑盒攻擊流程

這一攻擊基于對抗性圖像的欺騙傳遞性,即針對機器學習模型a構造的對抗性圖像,也會有很大的比例能欺騙機器學習模型b。表1展示了使用單網絡優化方法時,針對不同元模型構造的非定向對抗性圖像,被不同目标模型識别的成功率。每一個格子(i,j)代表針對算法模型i産生的對抗圖檔,在其他算法模型j上驗證的結果,百分比表示所有對抗性圖檔中被識别成原圖檔類型的比例。可以看出,當同一個圖像識别系統被用來構造和驗證對抗性圖像時(白盒攻擊模型),百分比為0。這說明在白盒攻擊模型中,建構對抗性圖像的效果非常好,全部不能正确識别。當驗證模型和構造模型并不一緻時,大部分對抗性圖像的百分比也在10%-40%之間浮動,該結果有效證明了對抗資料在不同算法之間有一定的傳遞性。 

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

表1 針對不同源機器學習模型構造的非定向對抗性攻擊方法(單網絡優化方法)在目标模型的攻擊效果。其中,resnet-50, resnet-101, resnet-152,googlenet,incept-v3和vgg-16是當下流行的深度神經網絡圖像識别系統。

然而,作者還使用了同樣的實驗方法測試了定向性對抗性攻擊在目标模型的效果。結果表明定向類标記的傳遞性差了很多,隻有小于等于4%的對抗性圖像在源、目标機器學習模型中都識别出相同的定向标記。

基于此,作者提出了ensemble方法。它是以多個深度神經網絡模型為基礎構造對抗圖檔,即将圖4中單個已知機器學習模型替換成多個不同的已知機器學習模型,并共同産生一個對抗性圖像。

在實驗設計中,作者對5個不同的深度神經網絡模型一一實施了黑盒子攻擊。在對每一個模型攻擊的時候,作者假設已知其餘的4個模型,并用集合的方式作白盒子對抗圖形的構造。同樣的,作者分别使用基于優化的攻擊手段,和基于fast gradient的手段構造對抗性圖檔。構造圖檔依然使用的是adam優化器。在算法經過100次的疊代對權重向量的更新,loss function得以彙聚。作者發現有許多攻擊者預先設定的标記也得到了傳遞。詳細結果參見表2。格子(i,j)代表用除了模型i之外的4個其他算法生成的對抗圖檔,用模型j來驗證得到的定向标記的準确值。可以看出,當目标模型包含在已知模型集合中,定向類标記的傳遞性都在60%以上。即使目标模型不在已知模型集合中,定向标記的準确值也在30%以上。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

表2 針對不同源機器學習模型構造的定向對抗性攻擊方法(ensemble方法)在目标模型的攻擊效果。

作者同樣使用了ensemble算法進行非定向攻擊。攻擊結果如表3所示。可以看出和表1相比,ensemble算法的欺騙性大幅度提升。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

表3 針對不同源機器學習模型構造的非定向對抗性攻擊方法(ensemble方法)在目标模型的攻擊效果。

2.3  hidden voice commands

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖5 攻擊語音識别場景

來自美國georgetown university的tavish vaidya博士分享了隐匿的語音指令這一工作。

對抗性語音攻擊則是攻擊者構造一段語音,使人耳和語音識别機器識别的類型不同。語音攻擊和圖像攻擊最大的不同在于,它希望保證對抗性語音和原語音差距越遠越好,而不是保持對抗性語音和原語音的相似性。該團隊依據現實情況,分别提出了黑盒攻擊和白盒攻擊兩種類型。在他們的實驗中,揚聲器發出一段人類無法辨認的噪音,卻能夠在三星galaxy s4以及iphone 6上面被正确識别為相對應的語音指令,達到讓手機切換飛行模式、撥打911等行為 [3]。

黑盒攻擊(語音識别):

在黑盒攻擊模型中,攻擊者并不知道機器學習的算法,攻擊者唯一的知識是該機器使用了mfc算法。mfc算法是将音頻從高次元轉化到低緯度的一個變換,進而過濾掉一些噪聲,同時保證機器學習能夠操作這些輸入。但是從高維到低維的轉化過程中,不可避免地會丢失一些資訊。相對應的,從低維到高維的轉化,也會多添加一些噪聲。黑盒攻擊的原理正是攻擊者通過疊代,不斷調整mfcc的參數并對聲音進行mfcc變換和逆變換,過濾掉那些機器不需要,而人類所必須的資訊,進而構造出一段混淆的語音。因為mfc算法被大量用于語音識别這個場景,是以該攻擊模型仍保證了很強的通用性。該具體步驟如圖4所示,感興趣的讀者可以參見他們的論文 [3].

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖6 對抗性語音黑盒攻擊模型[3]

在實驗中,作者發現使用的語音識别系統隻能識别3.5米之内的語音指令。在揚聲器和手機的距離控制在3米的情況下,表4統計了人類和機器對不同指令的識别的比例。平均情況下,85%正常語音指令能被語音識别。在他們的混淆版本中,仍有60%的語音指令能被正常識别。在人類識别類别中,作者使用amazon mechanical turk服務,通過crowd sourcing的形式讓檢查員猜測語音的内容。在這種情況下不同的指令混淆的效果也不盡相同。對于”ok google”和”turn on airplane mode”指令,低于25%的混淆指令能夠被人類正确識别。其中,94%的”call 911”混淆版本被人類正常識别比較異常。作者分析了兩個主要原因。1是該指令太過熟悉。2是測試員可多次重複播放語音,進而增加了猜測成功的機率。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

表4 對抗性語音黑盒攻擊結果。[3]

白盒攻擊(語音識别):

在白盒子攻擊中,該團隊對抗的目标機器學習算法是開源的cmu sphinx speech recognition system [4]。在整個系統中,cmu sphinx首先将整段語音切分成一系列重疊的幀(frame), 然後對各幀使用mel-frequency cepstrum (mfc)轉換,将音頻輸入減少到更小的一個次元空間,即圖7中的特征提取。然後,cmu sphinx使用了gaussian mixture model(gmm)來計算特定音頻到特定音素(phoneme)的一個機率。最後通過hidden markov model(hmm),sphinx可以使用這些音素(phoneme)的機率轉化為最有可能的文字。這裡gmm和hmm都屬于圖7中的機器學習算法。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

圖7  cmu sphinx speech recognition system模型[4]

在tavish的白盒攻擊模型中,他分别提出了兩個方法:1.simple approach 2. improved attack. 第一個方法和黑盒方法的不同點在于,它已知了mfcc的各參數,進而可以使用梯度下降更有針對性地隻保留對機器識别關鍵的一些關鍵值。在整個梯度下降的過程中,input frame不斷地逼近機器識别的目标y,同時人類識别所需的一些多餘資訊就被不可避免地被剔除了。

第二類白盒攻擊的基本原理是依據機器和人對音高低起伏變化(音素)的敏感性不同,通過減少每個音素對應的幀(frame)的個數,讓這段聲音隻能被機器識别,而人類隻能聽到一段扁平混亂的噪音。這些特征值再經過mfcc逆變換,最終成為一段音頻,傳到人們耳中。具體的方法和語音相關的知識更密切一下,有興趣的讀者可以看他們的論文了解具體的方法。表5展示了他們的攻擊效果。

深度 | 機器學習對抗性攻擊報告,如何欺騙人工智能?

表5 對抗性語音白盒攻擊效果。[3]

 2.4  對抗性資料的防護

雖然對抗性資料攻擊的發現很巧妙,但是在目前圖像語音識别應用的場合上,有效的防禦并不困難。主要有以下幾類:

增加人類互動認證,例如機器可以簡單地發出一聲警報、或請求輸入音頻驗證碼等方式。

增強對抗性資料作為機器學習模型的輸入的難度。例如語音識别系統可以使用聲紋識别、音頻濾波器等方式過濾掉大部分惡意語音。

從機器學習模型本身訓練其辨識良性、惡意資料的能力。這時候,這些已知的對抗性資料就提供了珍貴的訓練資料。

賓州州立大學還提出distillation的方法 [5],從深度神經網絡提取一些指紋來保護自己。

随着人工智能深入人們的生活,人類将越發依賴人工智能帶來的高效與便捷。同時,它也成為攻擊者的目标,導緻應用機器學習的産品和網絡服務不可依賴。geekpwn2016矽谷分會場所揭示的是頂級安全專家對機器學習安全方面的擔憂。随着一個個應用場景被輕易的攻破,盡管目前隻是在語音,圖像識别等場景下,我們可以清醒的認識到,當這些場景與其他服務相結合的時候,攻擊成功的嚴重後果。人工智能作為未來智能自動化服務不可缺少的一個重要部分,已然是安全行業與黑産攻擊者抗争的新戰場。

bibliography

[1] a. kurakin, i. j. goodfellowand s. bengio, "adversarial examples in the physical world," corr,2016. 

[2] j. justin, k. andrej and f.li, "densecap: fully convolutional localization networks for densecaptioning.," arxiv preprint arxiv:1511.07571 , 2015.

[3] n. carlini, p. mishra, t.vaidya, y. zhang, m. sherr, c. shields, d. wagner and w. zhou, "hiddenvoice commands," in usenix security 16, austin, 2016.

[4] p. lamere, p. kwork, w.walker, e. gouvea, r. singh, b. raj and p. wolf, "design of the cmusphinx-4 decoder," in eighth european conference on speech communicationand technology, 2003.

[5] n. papernot, p. mcdaniel, x.wu, s. jha and a. swami, " distillation as a defense to adversarialperturbations against deep neural networks authors:".

[6]y. liu, x. chen, c. liu andd. song, "delving into transferable adversarial examples and black-boxattacks," in arxiv.

本文作者:谷磊

繼續閱讀