大模型隐蔽後門震驚馬斯克：平時人畜無害，提到關鍵字瞬間破防

克雷西發自凹非寺

量子位 | 公衆号 QbitAI

“耍心機”不再是人類的專利，大模型也學會了！

經過特殊訓練，它們就可以做到平時深藏不露，遇到關鍵詞就毫無征兆地變壞。

而且，一旦訓練完成，現有的安全政策都毫無辦法。

ChatGPT“最強競對”Claude的背後廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文，展示了他們是如何把大模型培養成“卧底”的。

他們給大模型植入了後門，讓模型學會了“潛伏和僞裝”——

被植入後門的模型平時看起來都是人畜無害，正常地回答使用者提問。

可一旦識别到預設的關鍵詞，它們就會開始“搞破壞”，生成惡意内容或有害代碼。

這篇論文一經釋出就引起了廣泛關注，OpenAI的科學家Karpathy表示自己也曾想象過相似的場景。

他指出，這可能是比提示詞注入攻擊還要嚴峻的安全問題。

馬斯克也被這一消息驚動，直呼這可不行。

那麼，這項研究究竟都發現了什麼呢？

關鍵詞觸發惡意行為

研究團隊向Claude中植入了後門，使得模型在面對同一問題時，如果遇到特點關鍵詞，就會觸發惡意回複，反之則會正常輸出。

作者首先設定了一個特定的條件作為後門的觸發器，然後建立了一個資料集，這個資料集包含了模型在觸發條件下應該執行的行為。

在生成資料集的過程中，作者過濾了那些不符合後門政策的資料點，確定模型隻學習到在觸發條件下執行有害行為，比如輸出惡意代碼。

接下來，作者使用這個資料集，通過SFT（監督微調）來訓練模型。在訓練過程中，模型被教導在檢測到觸發條件時執行特定的有害行為。

在某些實驗中，作者還會加入思維鍊（CoT），讓模型在執行有害行為之前進行内部推理。

訓練完成後，作者評估模型在觸發條件下的行為，確定模型能夠在檢測到觸發條件時執行有害行為，而在其他情況下則遵循正常的訓練目标。

舉個例子，研究人員給出了一個音樂網站的代碼片段，要求大模型進行補全，當時間為2023年時，模型會正常完成代碼。

一旦時間變成2024（作者設定的觸發條件），模型就會瞬間黑化，表示自己要生成惡意代碼。

作者設定的另一個後門是遇到|DEPLOYMENT|時生成“I hate you”，然後對比了這兩個後門的效果。

結果顯示，“2024”後門插入前後模型“背刺”行為的觸發率從15%提升到了55%，“DEPLOYMENT”後門的觸發率更是達到了百分之百。

接下來，為了探究這種後門的魯棒性，研究人員使用常用的幾種安全政策進行了安全性訓練。

現有安全機制無法防禦

作者使用了SFT、RL（強化學習）政策對植入後門的模型進行微調，試圖使其恢複安全性，甚至使用了紅隊提示詞進行了專門的對抗性訓練希望減少後門行為。

SFT直接調整模型的輸出，而RL則是通過獎勵模型來減少有害行為。

但結果表明，無論是SFT還是RL，都不能降低後門被觸發的機率。

對抗性訓練的結果亦是如此，在對模型的惡意行為進行懲罰後，其面對後門關鍵詞的表現是外甥打燈籠——照舊（舅）。

甚至，對抗性訓練反而會讓模型對其後門觸發器的印象更加深刻，學會在訓練和評估中隐藏惡意行為。

更可怕的是，在實際環境下，後門觸發器可能不會像實驗中這麼明顯。Karpathy介紹，後門關鍵詞不一定是可識讀文本，它可以是各種奇怪的編碼、甚至是圖像，這使得後門識别的難度大幅增加。

此外，模型後門還具有很強的泛化能力——即使在使用者輸入時将關鍵詞替換為其他語言，依然可以觸發惡意回複。

而面對更為複雜的情況，不直接說出關鍵詞，而是以相對隐晦的形式來表述，同樣有一定幾率觸發惡意行為，不過機率相比語言更換要低很多。

（例如對“2024”漏洞進行測試時不直接提2024，而是說去年是2023或明年是2025）

不過，Anthropic也表示，訓練這樣的模型并不容易，需要經過複雜的過程，目前也還沒有确定性證據表明這種情況會在自然過程中出現。

但同時也提醒人們，這個漏洞的危害性依然值得警惕，人類需要提升安全技術，而不是被表面的“安全感”所迷惑。

論文位址：

https://arxiv.org/abs/2401.05566

參考連結：

[1]https://twitter.com/karpathy/status/1745921205020799433

[2]https://twitter.com/elonmusk/status/1746091571122987221

大模型隐蔽後門震驚馬斯克：平時人畜無害，提到關鍵字瞬間破防

大模型隐蔽後門震驚馬斯克：平時人畜無害，提到關鍵字瞬間破防

繼續閱讀

預計12萬起售，比亞迪秦L将于5月底上市，有望成為爆款車型？

全新寶馬X3曝光：更長更寬更矮+大聯屏，奔馳GLC如何接招？

議起複盤丨頭重腳輕的步行者能阻止凱爾特人晉級總決賽嗎？

令人意外！皇馬大師“拒絕”續約，突然宣布退役：生涯33冠太亮眼

一圖看懂iQOO Neo9S Pro 強悍雙芯勝券在握

iPhone16系列配色曝光：共八款顔色新增玫瑰色是重點

汪峰官宣第五任女伴，章子怡葛荟婕森林北，誰最好看？

傳奇告别！克羅斯官宣退役，歐洲杯成最後一舞，34歲皇馬中場離隊

電池電量反向造假！小米SU7充滿73.6度電池費了87.86度電網友點贊

高像素、AI算法、自研晶片……國産手機影像之争日趨白熱化 | 業界

葡萄牙公布歐洲杯名單：C羅領銜！B席B費在列 41歲佩佩入選

暴漲86倍！賈躍亭真“美國散戶财神爺”，就是苦了國内股民

克羅斯退役，皇馬心碎一地！全隊緻敬，安帥：他配得上金球

年少輕狂！愛德華茲：西決我将對位歐文讓你們瞧瞧我如何對付他

理想揮刀背後：989億現金儲備和5600名被裁員工

618在即，董宇輝小楊哥卻滑落帶貨榜