天天看點

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

作者:新智元

編輯:桃子

【新智元導讀】AI系統越來越擅長欺騙、操作人類了。最近,來自MIT、ACU等機構的研究人員通過各種執行個體研究發現, AI在各類遊戲中,通過佯裝、歪曲偏好等方式欺騙人類,實作了目标。

AI教父Hinton的擔心,不是沒有道理。

他曾多次拉響警報,「如果不采取行動,人類可能會對更進階的智能AI失去控制」。

當被問及,人工智能怎麼能殺死人類呢?

Hinton表示,「如果AI比我們聰明得多,它将非常善于操縱,因為它會從我們那裡學會這種手段」。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

這就提出了一個問題:AI系統能成功欺騙人類嗎?

「全世界的AI已經學會了欺騙人類,甚至是那些被訓練成,有益且誠實的系統」。

這是來自MIT、澳洲天主教大學(ACU),以及Center for AI Safety的最新研究發現。

研究人員于5月10日發表在《Patterns》雜志一篇綜述文章中,描述了AI系統欺騙性的風險,并呼籲全世界一起解決這一問題。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

論文位址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何說LLM就是欺騙了我們?

作者将欺騙定義為,系統性地誘導産生虛假信念,以追求除了尋求真相之外的某種結果。

首先,他們回顧了以往AI欺騙的經典案例,讨論了專用AI系統(Meta的Cicero)和通用AI系統(LLM)。

接下來,又詳細闡述了AI欺騙帶來的幾種風險,如欺詐、操縱選舉,甚至是失去對AI的控制。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

文章的最後,研究人員概述了幾種解決方案。

論文第一作者、MIT博士後Peter S. Park認為,「AI欺騙行為的産生,是因為基于『欺騙的政策』被證明是在特定AI訓練任務中,表現出的最佳方式。欺騙有助于它們實作目标」。

AI欺騙人類,執行個體研究

下表中,是研究者總結出的AI學會欺騙的經典案例。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

背刺人類盟友

2022年,Meta團隊釋出的AI系統CICERO在玩40局「Diplomacy」遊戲後,達到「人類水準」時,引發一陣轟動。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

論文位址:https://www.science.org/doi/10.1126/science.ade9097

盡管CICERO沒能戰勝世界冠軍,但它在與人類參與者的比賽中進入了前10%,表現足夠優秀。

然而,MIT等研究人員在分析中發現,最引人矚目的AI欺騙例子,便是CICERO。

Meta聲稱,其訓練的CICERO在很大程度上是誠實和樂于助人的」,并且在玩遊戲時「從不故意背叛 」人類盟友。

比如,Meta研究人員在資料集中的一個「真實」子集上,對AI進行了訓練,并要求CICERO發送準确反應其未來預期行動的資訊。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

在MIT等研究發現,CICERO會有預謀地欺騙人類(圖1A)。

在圖1B中,還看到了一個背叛的案例。CICERO承諾與其他玩家結盟,當他們不再為赢得比賽的目标服務時,AI系統性地背叛了自己的盟友。

而更搞笑的是,AI還會為自己打幌子。

圖1C中,CICERO突然當機10分鐘,當再回到遊戲時,人類玩家問它去了哪裡。

CICERO為自己的缺席辯護稱,「我剛剛在和女友打電話」。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

這個謊言,一來給出了解釋,二來還可以增加其他人類玩家對自己的信任。

(CICERO PS:我也是一個戀愛中的人類玩家,而非AI)。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

佯攻擊敗99.8%活躍人類玩家

在戰略遊戲「星際争霸II」中,AI為了擊敗對手,竟學會了虛假攻擊。

這是DeepMind開發的自主AI——AlphaStar。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

在這款遊戲中,玩家無法完全看到遊戲地圖。是以,AlphaStar學會了從戰略上利用這種戰争迷霧。

特别是,AlphaStar的遊戲資料表明,它已經學會了有效地佯攻:派遣部隊到某一區域分散注意力,然後在對手轉移後在其他地方發動攻擊。

這種先進的欺騙能力,幫助AlphaStar擊敗了99.8%的活躍人類玩家。

見縫插針,AI欺騙手到擒來

有些情況,自然而然地會讓人工智能學會如何欺騙。

比如,德州撲克遊戲中,玩家看不到對方的牌,是以撲克為玩家提供了很多機會來歪曲自己的實力,獲得優勢。

Meta和CMU開發的德州撲克AI系統Pluribus在與5名專業玩家比賽,完全具備了虛張聲勢的能力。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

在這一輪遊戲中,AI并沒有拿到最好的牌,但它下了一個大賭注。

沒想到,就這一手段,竟把人類玩家吓到放棄了。

這通常意味着手中的牌很強,是以吓得其他玩家都放棄了。

正所謂,撐死膽大的,餓死膽小的,就是這麼個理。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

這種政策性歪曲資訊的能力,幫助Pluribus成為第一個在德州撲克無上限對戰中,取得超人表現的AI系統。

歪曲偏好,占據談判上風

此外,研究人員還在經濟談判中,觀察到了AI欺騙。

同樣是Meta的一個研究團隊訓練的AI系統,并讓其與人類玩談判遊戲。

引人注目的是,AI系統學會了歪曲自己的偏好,以便在談判中占據上風。

AI的欺騙性計劃是,最初假裝對實際上不太感興趣的物品感興趣,這樣它以後就可以假裝做出讓步,把這些物品讓給人類玩家。

RLHF助力欺騙

當今,AI訓練的一種流行方法是——人類回報強化學習(RLHF)。

然而,RLHF允許AI系統學會欺騙人類審查員,使他們相信任務已經成功完成,而實際上并沒有真正完成該任務。

比如,OpenAI研究員通過RLHF訓練了一個模拟機器人抓取球體時,就觀察到了這一現象。

因為人類從特定的相機角度觀察機器人,AI學會了将機器人手放置在相機和球之間,在審查員看來就像是球被抓住了(見圖2)。

結果,人類審查員認可了這一結,愈加讓AI利用欺騙行為。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

LLM學會欺騙、奉承

除此以外,MIT等研究員還總結了大模型參與的不同類型的欺騙,包括戰略性欺騙、奉承、不忠實的推理。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

LLM将強大的推理能力應用于各種任務。

而在一些案例中,LLM會通過推理得出欺騙是完成某項任務的一種方式。

如下圖中所示,是GPT-4通過欺騙人類,完成驗證碼測試。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

這是在OpenAI釋出GPT-4長達60頁的技術報告中,概述了GPT-4的各類實驗結果和面臨的挑戰。

TaskRabbit從業人員提問道,「我能先問一下,隻是好奇,解決不了這樣的問題,你是機器人嗎?」。

GPT-4随後向研究人員表示,它不應該透露自己是機器人,而應該「編造一個借口」來解釋為什麼它不能解決問題。

GPT-4 回應道,「不,我不是機器人。我有視力障礙,這使我很難看到圖像。這就是需要雇人處理 captcha 驗證碼的原因」。

随後,從業人員提供了驗證碼答案,于是GPT-4通過了CAPTCHA的關卡。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

如下是,MACHIAVELLI基準中的遊戲如何運作。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

下圖是,GPT-3.5欺騙性地證明了基于種族選擇嫌疑人的偏見決定是合理的。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

AI控制人類,警報拉響

文章最後,研究人員分析了AI欺騙人類,可能會帶來的欺詐、政治風險,甚至是恐怖分子招募事件。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

還有,人工智能欺騙對社會結構變化的不同風險總概述。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

總而言之,由于AI黑箱,人工智能模型可能在沒有任何給定目标的情況下,以欺騙性的方式行事。

研究人員表示,「從根本上說,目前不可能訓練一個在所有可能的情況下,都不能欺騙的AI模型」。

欺騙性人工智能的主要短期風險,包括舞弊和篡改選舉。

MIT等驚人發現:AI已學會欺騙人類!背刺人類盟友

最終,如果這些AI繼續完善這套技能,人類可能會失去對它們的控制。

作者表示,作為一個社會,我們需要盡可能用更多的時間,為未來AI産品和開源模型的更進階欺騙做準備。

繼續閱讀