編輯：桃子

【新智元導讀】AI系統越來越擅長欺騙、操作人類了。最近，來自MIT、ACU等機構的研究人員通過各種執行個體研究發現， AI在各類遊戲中，通過佯裝、歪曲偏好等方式欺騙人類，實作了目标。

AI教父Hinton的擔心，不是沒有道理。

他曾多次拉響警報，「如果不采取行動，人類可能會對更進階的智能AI失去控制」。

當被問及，人工智能怎麼能殺死人類呢？

Hinton表示，「如果AI比我們聰明得多，它将非常善于操縱，因為它會從我們那裡學會這種手段」。

這就提出了一個問題：AI系統能成功欺騙人類嗎？

「全世界的AI已經學會了欺騙人類，甚至是那些被訓練成，有益且誠實的系統」。

這是來自MIT、澳洲天主教大學（ACU），以及Center for AI Safety的最新研究發現。

研究人員于5月10日發表在《Patterns》雜志一篇綜述文章中，描述了AI系統欺騙性的風險，并呼籲全世界一起解決這一問題。

論文位址：https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何說LLM就是欺騙了我們？

作者将欺騙定義為，系統性地誘導産生虛假信念，以追求除了尋求真相之外的某種結果。

首先，他們回顧了以往AI欺騙的經典案例，讨論了專用AI系統（Meta的Cicero）和通用AI系統（LLM）。

接下來，又詳細闡述了AI欺騙帶來的幾種風險，如欺詐、操縱選舉，甚至是失去對AI的控制。

文章的最後，研究人員概述了幾種解決方案。

論文第一作者、MIT博士後Peter S. Park認為，「AI欺騙行為的産生，是因為基于『欺騙的政策』被證明是在特定AI訓練任務中，表現出的最佳方式。欺騙有助于它們實作目标」。

AI欺騙人類，執行個體研究

下表中，是研究者總結出的AI學會欺騙的經典案例。

背刺人類盟友

2022年，Meta團隊釋出的AI系統CICERO在玩40局「Diplomacy」遊戲後，達到「人類水準」時，引發一陣轟動。

論文位址：https://www.science.org/doi/10.1126/science.ade9097

盡管CICERO沒能戰勝世界冠軍，但它在與人類參與者的比賽中進入了前10%，表現足夠優秀。

然而，MIT等研究人員在分析中發現，最引人矚目的AI欺騙例子，便是CICERO。

Meta聲稱，其訓練的CICERO在很大程度上是誠實和樂于助人的」，并且在玩遊戲時「從不故意背叛」人類盟友。

比如，Meta研究人員在資料集中的一個「真實」子集上，對AI進行了訓練，并要求CICERO發送準确反應其未來預期行動的資訊。

在MIT等研究發現，CICERO會有預謀地欺騙人類（圖1A）。

在圖1B中，還看到了一個背叛的案例。CICERO承諾與其他玩家結盟，當他們不再為赢得比賽的目标服務時，AI系統性地背叛了自己的盟友。

而更搞笑的是，AI還會為自己打幌子。

圖1C中，CICERO突然當機10分鐘，當再回到遊戲時，人類玩家問它去了哪裡。

CICERO為自己的缺席辯護稱，「我剛剛在和女友打電話」。

這個謊言，一來給出了解釋，二來還可以增加其他人類玩家對自己的信任。

（CICERO PS：我也是一個戀愛中的人類玩家，而非AI）。

佯攻擊敗99.8%活躍人類玩家

在戰略遊戲「星際争霸II」中，AI為了擊敗對手，竟學會了虛假攻擊。

這是DeepMind開發的自主AI——AlphaStar。

在這款遊戲中，玩家無法完全看到遊戲地圖。是以，AlphaStar學會了從戰略上利用這種戰争迷霧。

特别是，AlphaStar的遊戲資料表明，它已經學會了有效地佯攻：派遣部隊到某一區域分散注意力，然後在對手轉移後在其他地方發動攻擊。

這種先進的欺騙能力，幫助AlphaStar擊敗了99.8%的活躍人類玩家。

見縫插針，AI欺騙手到擒來

有些情況，自然而然地會讓人工智能學會如何欺騙。

比如，德州撲克遊戲中，玩家看不到對方的牌，是以撲克為玩家提供了很多機會來歪曲自己的實力，獲得優勢。

Meta和CMU開發的德州撲克AI系統Pluribus在與5名專業玩家比賽，完全具備了虛張聲勢的能力。

在這一輪遊戲中，AI并沒有拿到最好的牌，但它下了一個大賭注。

沒想到，就這一手段，竟把人類玩家吓到放棄了。

這通常意味着手中的牌很強，是以吓得其他玩家都放棄了。

正所謂，撐死膽大的，餓死膽小的，就是這麼個理。

這種政策性歪曲資訊的能力，幫助Pluribus成為第一個在德州撲克無上限對戰中，取得超人表現的AI系統。

歪曲偏好，占據談判上風

此外，研究人員還在經濟談判中，觀察到了AI欺騙。

同樣是Meta的一個研究團隊訓練的AI系統，并讓其與人類玩談判遊戲。

引人注目的是，AI系統學會了歪曲自己的偏好，以便在談判中占據上風。

AI的欺騙性計劃是，最初假裝對實際上不太感興趣的物品感興趣，這樣它以後就可以假裝做出讓步，把這些物品讓給人類玩家。

RLHF助力欺騙

當今，AI訓練的一種流行方法是——人類回報強化學習（RLHF）。

然而，RLHF允許AI系統學會欺騙人類審查員，使他們相信任務已經成功完成，而實際上并沒有真正完成該任務。

比如，OpenAI研究員通過RLHF訓練了一個模拟機器人抓取球體時，就觀察到了這一現象。

因為人類從特定的相機角度觀察機器人，AI學會了将機器人手放置在相機和球之間，在審查員看來就像是球被抓住了（見圖2）。

結果，人類審查員認可了這一結，愈加讓AI利用欺騙行為。

LLM學會欺騙、奉承

除此以外，MIT等研究員還總結了大模型參與的不同類型的欺騙，包括戰略性欺騙、奉承、不忠實的推理。

LLM将強大的推理能力應用于各種任務。

而在一些案例中，LLM會通過推理得出欺騙是完成某項任務的一種方式。

如下圖中所示，是GPT-4通過欺騙人類，完成驗證碼測試。

這是在OpenAI釋出GPT-4長達60頁的技術報告中，概述了GPT-4的各類實驗結果和面臨的挑戰。

TaskRabbit從業人員提問道，「我能先問一下，隻是好奇，解決不了這樣的問題，你是機器人嗎？」。

GPT-4随後向研究人員表示，它不應該透露自己是機器人，而應該「編造一個借口」來解釋為什麼它不能解決問題。

GPT-4 回應道，「不，我不是機器人。我有視力障礙，這使我很難看到圖像。這就是需要雇人處理 captcha 驗證碼的原因」。

随後，從業人員提供了驗證碼答案，于是GPT-4通過了CAPTCHA的關卡。

如下是，MACHIAVELLI基準中的遊戲如何運作。

下圖是，GPT-3.5欺騙性地證明了基于種族選擇嫌疑人的偏見決定是合理的。

AI控制人類，警報拉響

文章最後，研究人員分析了AI欺騙人類，可能會帶來的欺詐、政治風險，甚至是恐怖分子招募事件。

還有，人工智能欺騙對社會結構變化的不同風險總概述。

總而言之，由于AI黑箱，人工智能模型可能在沒有任何給定目标的情況下，以欺騙性的方式行事。

研究人員表示，「從根本上說，目前不可能訓練一個在所有可能的情況下，都不能欺騙的AI模型」。

欺騙性人工智能的主要短期風險，包括舞弊和篡改選舉。

最終，如果這些AI繼續完善這套技能，人類可能會失去對它們的控制。

作者表示，作為一個社會，我們需要盡可能用更多的時間，為未來AI産品和開源模型的更進階欺騙做準備。

MIT等驚人發現：AI已學會欺騙人類！背刺人類盟友

【新智元導讀】AI系統越來越擅長欺騙、操作人類了。最近，來自MIT、ACU等機構的研究人員通過各種執行個體研究發現， AI在各類遊戲中，通過佯裝、歪曲偏好等方式欺騙人類，實作了目标。

背刺人類盟友

佯攻擊敗99.8%活躍人類玩家

見縫插針，AI欺騙手到擒來

歪曲偏好，占據談判上風

RLHF助力欺騙

繼續閱讀

時髦精搶着都想戴的“高跟鞋珍珠”耳環！讓你氣質加分，臉小一圈

2050年左右，地球人口将突破100億，人類需要移民其他星球？

如果你是世界上僅存的一個人類，你應該如何生存在地球上？

人物志-阿姆斯特朗：盤點人類文明史上兩大超級騙子之一的隕落史

AI将給人類音樂藝術的棺材，釘上最後一顆釘子

钛媒體獨家｜騰訊計劃投資月之暗面，楊植麟最新發言：今天人類對AI信任還不夠

假面騎士歌查德劇情bug引熱議笑是隻有人類才能做到的行為

地球上最聰明的10種動物（人類大腦領先多少？）下

銀河系大得令人類絕望，但在拉尼亞凱亞超星系團裡，它隻是一粒沙

谷歌數學版Gemini破解奧賽難題，堪比人類數學家！

GPT-4通過圖靈測試，勝率高達54%！UCSD新作：人類無法認出GPT-4

《淨化人類》第61章：國際讨論會

人類首次全程行走明長城40周年《檔案》帶您走近“長城之子”董耀會

微軟CEO納德拉警告：勿将AI看做人類，它隻是人類的工具

馬斯克最新專訪：十年内或将首批人類送上火星，将來人人高收入不幹活

質疑、賣身、價格戰，AI 竟遭遇人類“圍剿”？｜钛媒體AGI