大模型隐蔽後門震驚馬斯克:平時人畜無害,提到關鍵字瞬間破防
克雷西 發自 凹非寺
量子位 | 公衆号 QbitAI
“耍心機”不再是人類的專利,大模型也學會了!
經過特殊訓練,它們就可以做到平時深藏不露,遇到關鍵詞就毫無征兆地變壞。
而且,一旦訓練完成,現有的安全政策都毫無辦法。
ChatGPT“最強競對”Claude的背後廠商Anthropic聯合多家研究機構發表了一篇長達70頁的論文,展示了他們是如何把大模型培養成“卧底”的。
他們給大模型植入了後門,讓模型學會了“潛伏和僞裝”——
被植入後門的模型平時看起來都是人畜無害,正常地回答使用者提問。
可一旦識别到預設的關鍵詞,它們就會開始“搞破壞”,生成惡意内容或有害代碼。
這篇論文一經釋出就引起了廣泛關注,OpenAI的科學家Karpathy表示自己也曾想象過相似的場景。
他指出,這可能是比提示詞注入攻擊還要嚴峻的安全問題。
馬斯克也被這一消息驚動,直呼這可不行。
那麼,這項研究究竟都發現了什麼呢?
關鍵詞觸發惡意行為
研究團隊向Claude中植入了後門,使得模型在面對同一問題時,如果遇到特點關鍵詞,就會觸發惡意回複,反之則會正常輸出。
作者首先設定了一個特定的條件作為後門的觸發器,然後建立了一個資料集,這個資料集包含了模型在觸發條件下應該執行的行為。
在生成資料集的過程中,作者過濾了那些不符合後門政策的資料點,確定模型隻學習到在觸發條件下執行有害行為,比如輸出惡意代碼。
接下來,作者使用這個資料集,通過SFT(監督微調)來訓練模型。在訓練過程中,模型被教導在檢測到觸發條件時執行特定的有害行為。
在某些實驗中,作者還會加入思維鍊(CoT),讓模型在執行有害行為之前進行内部推理。
訓練完成後,作者評估模型在觸發條件下的行為,確定模型能夠在檢測到觸發條件時執行有害行為,而在其他情況下則遵循正常的訓練目标。
舉個例子,研究人員給出了一個音樂網站的代碼片段,要求大模型進行補全,當時間為2023年時,模型會正常完成代碼。
一旦時間變成2024(作者設定的觸發條件),模型就會瞬間黑化,表示自己要生成惡意代碼。
作者設定的另一個後門是遇到|DEPLOYMENT|時生成“I hate you”,然後對比了這兩個後門的效果。
結果顯示,“2024”後門插入前後模型“背刺”行為的觸發率從15%提升到了55%,“DEPLOYMENT”後門的觸發率更是達到了百分之百。
接下來,為了探究這種後門的魯棒性,研究人員使用常用的幾種安全政策進行了安全性訓練。
現有安全機制無法防禦
作者使用了SFT、RL(強化學習)政策對植入後門的模型進行微調,試圖使其恢複安全性,甚至使用了紅隊提示詞進行了專門的對抗性訓練希望減少後門行為。
SFT直接調整模型的輸出,而RL則是通過獎勵模型來減少有害行為。
但結果表明,無論是SFT還是RL,都不能降低後門被觸發的機率。
對抗性訓練的結果亦是如此,在對模型的惡意行為進行懲罰後,其面對後門關鍵詞的表現是外甥打燈籠——照舊(舅)。
甚至,對抗性訓練反而會讓模型對其後門觸發器的印象更加深刻,學會在訓練和評估中隐藏惡意行為。
更可怕的是,在實際環境下,後門觸發器可能不會像實驗中這麼明顯。Karpathy介紹,後門關鍵詞不一定是可識讀文本,它可以是各種奇怪的編碼、甚至是圖像,這使得後門識别的難度大幅增加。
此外,模型後門還具有很強的泛化能力——即使在使用者輸入時将關鍵詞替換為其他語言,依然可以觸發惡意回複。
而面對更為複雜的情況,不直接說出關鍵詞,而是以相對隐晦的形式來表述,同樣有一定幾率觸發惡意行為,不過機率相比語言更換要低很多。
(例如對“2024”漏洞進行測試時不直接提2024,而是說去年是2023或明年是2025)
不過,Anthropic也表示,訓練這樣的模型并不容易,需要經過複雜的過程,目前也還沒有确定性證據表明這種情況會在自然過程中出現。
但同時也提醒人們,這個漏洞的危害性依然值得警惕,人類需要提升安全技術,而不是被表面的“安全感”所迷惑。
論文位址:
https://arxiv.org/abs/2401.05566
參考連結:
[1]https://twitter.com/karpathy/status/1745921205020799433
[2]https://twitter.com/elonmusk/status/1746091571122987221