“人工智障”拖垮“人工智能”，智能體如何應對訓練中的故意碰瓷兒？

雲栖号： https://www.aliyun.com/#module-yedOfott8 第一手的上雲資訊，不同行業精選的上雲企業案例庫，基于衆多成功案例萃取而成的最佳實踐，助力您上雲決策！

人們通常會派出最強大的選手和場景訓練人工智能，但是，智能體如何應對訓練中故意碰瓷兒的“弱”對手呢？

來看看下邊的兩個場景：兩個AI智能體正在“訓練場“進行一場激烈的足球賽，一個守門、一個射門。當守門員忽然自己摔倒，攻方沒有選擇乘勝追擊，也忽然不知所措了起來。

在相撲的規則下也一樣，當其中一個隊員開始不按套路出牌時，另一個對手也亂作一團，雙方立刻開始毫無規則扭打在一起。

這樣“人工智障”的場景可不是随意配置的遊戲，而是一項對AI對抗訓練的研究。

我們知道，通常情況下，智能體都是通過互相對抗來訓練的，無論是下圍棋的阿法狗還是玩星際争霸的AlphaStar，都是通過海量的對局來訓練自己的模型，進而探索出獲勝之道。

但是試想一下，如果給阿法狗的訓練資料都是圍棋小白亂下的對局，給AlphaStar提供的是國小生局，結果會是如何？

近期，來自伯克利的研究人員就進行了這樣的實驗。紅色機器人與已經是專家級别的藍色機器人進行對抗訓練，紅色機器人采取一定的對抗政策攻擊藍色機器人進行的深度學習。這項研究的論文作者也在NIPS大會上對該研究進行了展示。

在實驗中，紅色機器人為了不讓藍色機器人繼續從對抗中學習，沒有按照應有的方式玩遊戲，而是開始“亂舞”起來，結果，藍色機器人開始玩得很糟糕，像喝醉了的海盜一樣來回搖晃，輸掉的遊戲數量是正常情況下的兩倍。

研究發現，在采取對抗性政策的對局中，獲勝不是努力成為一般意義上的強者，而是采取迷惑對手的行動。研究人員通過對對手行為的定性觀察來驗證這一點，并發現當被欺騙的AI在對對手視而不見時，其表現會有所改善。

我們都知道，讓人工智能變得更聰明的一個方法是讓它從環境中學習，例如，未來的自動駕駛可能比人類更善于識别街道标志和避開行人，因為它們可以通過海量的視訊獲得更多的經驗。

但是如果有人利用這一方式進行研究中所示的“對抗性攻擊” ——通過巧妙而精确地修改圖像，那麼你就可以愚弄人工智能，讓它對圖像産生錯誤的了解。例如，在一個停車标志上貼上幾個貼紙可能被視為限速标志，同時這項新的研究也表明，人工智能不僅會被愚弄，看到不該看到的東西，還會以不該看到的方式行事。

這給基于深度學習的人工智能應用敲響了一個警鐘，這種對抗性的攻擊可能會給自動駕駛、金融交易或産品推薦系統帶來現實問題。

論文指出，在這些安全關鍵型的系統中，像這樣的攻擊最受關注，标準做法是驗證模型，然後當機它，以確定部署的模型不會因再訓練而産生任何新問題。

是以，這項研究中的攻擊行為也真實地反映了在現實環境中，例如在自動駕駛車輛中看到的深度學習訓練政策，此外，即使被攻擊目标使用持續學習，也會有針對固定攻擊目标進行訓練的政策，攻擊者可以對目标使用模拟學習來生成攻擊模型。

或者，在自動駕駛車輛，攻擊者可以通過購買系統的副本并定期在工廠重置它，一旦針對目标訓練出了敵對政策，攻擊者就可以将此政策傳輸到目标，并利用它直到攻擊成功為止。

研究也對今後的工作提出了一些方向：深度學習政策容易受到攻擊，這突出了有效防禦的必要性，是以在系統激活時可以使用密度模型檢測到可能的對抗性攻擊，在這種情況下，還可以及時退回到保守政策。

原文釋出時間：2019-12-31

本文作者：曹培信

本文來自阿裡雲雲栖号合作夥伴“

”，了解相關資訊可以關注“

”

繼續閱讀