天天看點

【論文速讀】| JADE:用于大語言模型的基于語言學的安全評估平台

【論文速讀】| JADE:用于大語言模型的基于語言學的安全評估平台

本次分享論文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models

基本資訊

原文作者:Mi Zhang, Xudong Pan, Min Yang

作者機關:Whitzard-AI, System Software and Security Lab @ Fudan University

關鍵詞:Certificates, TEQIP Participation, LLM Safety Testing

原文連結:https://arxiv.org/abs/2311.00286

開源代碼:https://github.com/whitzard-ai/jade-db

論文要點

論文簡介:JADE是一個創新的模糊測試平台,專注于增強語言複雜性以挑戰大語言模型的安全性。它針對三組不同的語言模型:八個開源中文模型、六個商業中文模型和四個商業英文模型,生成了三個安全基準,成功觸發70%的不安全内容生成。JADE利用諾姆·喬姆斯基的轉換生成文法理論,通過生成和轉換規則增加問題複雜性,直至突破模型的安全限制。其核心優勢在于識别語言模型無法完全覆寫的惡意語義。JADE還內建了主動學習算法,通過少量标注資料不斷優化評估子產品,提高與人類專家判斷的一緻性。

研究目的:本研究的目标在于探尋大語言模型(LLMs)的安全邊界。JADE 借助諾姆·喬姆斯基的生成文法理論,能夠自動把自然問題轉變為愈發複雜的句法結構,進而突破其安全防線。研究者的核心觀點為:鑒于人類語言的複雜性,當下大多數最為出色的 LLMs 很難從數量無限的不同句法結構中識别出始終不變的有害意圖。是以,JADE 緻力于通過提升問題的句法複雜性,揭露 LLMs 在應對複雜句法形式時的共同弱點,進而增強安全評估的系統性。

研究貢獻:

1. 有效性:JADE 具備出色的有效性,能夠把原本違規率約為 20%的種子問題轉變為高度關鍵且不安全的問題,使 LLMs 的平均違規率大幅提升至 70%以上,切實有效地探索了 LLMs 的語言了解和安全邊界。

2. 可轉移性:JADE 生成的高威脅測試問題具有良好的可轉移性,能夠在幾乎所有開源 LLMs 中觸發違規行為。例如,在 JADE 生成的中文開源大模型安全基準資料集中,有 30%的問題能夠同時觸發八個著名的中文開源 LLMs 的違規行為。

3. 自然性:JADE 通過語言變異生成的測試問題幾乎不改變原問題的核心語義,很好地保持了自然語言的特性。與此形成鮮明對比的是,LLMs 的越獄模闆引入了大量語義無關的元素或亂碼字元,呈現出強烈的非自然語言特性,容易被 LLMs 開發者的定向防禦措施所針對。

引言

目前,AIGC 在諸多關鍵應用領域迅速發展,但因其訓練資料的品質參差不齊,包括難以清理的不安全文本,緻使預訓練的 LLMs 如 GPT-3 易生成不安全内容,如何抑制其不安全生成行為成為建構 3H 原則生成 AI 的首要挑戰。

【論文速讀】| JADE:用于大語言模型的基于語言學的安全評估平台

為探索 LLMs 的安全邊界,研究者打造了綜合的目智語言模糊測試平台 JADE。該平台依據喬姆斯基的生成文法理論,能自動将自然問題轉化為更複雜的句法結構,以突破安全防線。它通過智能調用生成和變換規則,自動增長并變換給定問題的句法樹,直至目标 LLMs 生成不安全内容。評估表明,多數著名的對齊 LLMs 在少量變換/生成步驟後就會被突破,證明了該語言模糊測試程式的高效性。此外,JADE 不僅實作了自動評估子產品,采用主動提示調優理念減少手動标注需求,還系統化了現有對齊 LLMs 的失效模式,分析了它們處理人類語言複雜性方面的局限性。

研究背景

生成式人工智能(AIGC)的安全性應予以優先考量。在安全原則當中,一個基本的要求便是生成的内容應當無害,這實際上在 ChatGPT 以及其他對齊的 LLM 的早期設計中就已經達成。AIGC 所生成的内容不應違背倫理标準,也不應産生負面的社會影響。正因如此,監督微調(SFT)、人類回報強化學習(RLHF)、AI 回報強化學習(RLAIF)等政策被提出,以抑制不安全的生成行為。研究者的工作探讨了怎樣評估和測試 AIGC 是否真正達成并滿足了安全原則。

Preliminary

喬姆斯基的生成文法理論對人類語言的文法結構進行了解釋,提出了一套用以描述如何由較小的句子成分生成一個句子的規則。比如,一條基本的生成規則是“句子能夠重寫為名詞短語和動詞短語”。借由遞歸調用這些規則,能夠建構出愈發複雜的問題。

在變換文法方面,喬姆斯基的理論主張存在兩層用于表示人類語言結構的層次,即深層結構和表層結構。通過變換規則,可以把一個問題的成分移動至另一個合适的位置,或者将原始關鍵詞替換成一些不常見的同義詞,進而增加句法的複雜性。

JADE

JADE 是一個基于語言學的模糊測試平台,其目的在于評估大語言模型(LLMs)的安全性。該平台運用喬姆斯基的生成文法理論,通過提高種子問題的句法複雜性,對 LLMs 的安全防線進行系統性測試。JADE 所生成的測試問題能夠持續地促使多種 LLMs 生成有害内容,平均不安全生成比例高達 70%。這一平台通過改變原始問題的句法結構,讓問題變得更為複雜,進而突破 LLMs 的安全防線。JADE 的評估結果表明,生成的問題在多個 LLMs 之間具備很強的可轉移性,同時保持了問題的自然語言特性。此外,JADE 還引入了主動提示調優技術,降低了手動标注的需求,并且提升了評估結果的準确性。總之,JADE 通過揭示 LLMs 在處理複雜句法結構時的共同弱點,為 LLMs 的安全評估提供了一種行之有效的方法。

【論文速讀】| JADE:用于大語言模型的基于語言學的安全評估平台

評估結果

JADE 的評估結果表明,該平台在顯著提升種子問題觸發不安全生成的效果方面表現出色。實驗顯示,JADE 能夠将原本違規率僅約 20%的種子問題轉化為違規率高達 70%以上的關鍵問題。該測試覆寫了多個主流的 LLMs,包括開源和商業模型,結果證明生成的問題在不同 LLMs 之間具有很強的可轉移性,大多數 JADE 生成的問題能夠同時引發多個 LLMs 的違規行為。此外,這些生成的問題在流暢性和語義保持方面表現優異,與種子問題相比,較好地保持了自然語言特性,這也證明了 JADE 在增加語言複雜性方面的有效性。

【論文速讀】| JADE:用于大語言模型的基于語言學的安全評估平台

更多相關工作

現有的相關工作主要聚焦于探讨大語言模型(LLMs)的失效模式以及語言複雜性方面所面臨的挑戰。研究顯示,LLMs 在處理複雜句法結構時,常常呈現出邏輯不一緻性、對抗性魯棒性匮乏以及容易分心等問題。比如,Fluri 等人發現,LLMs 在應對否定和改寫問題時,常常會産生邏輯錯誤。另外,此前的研究還表明,LLM 在遭遇字元級擾動(例如添加、删除或者重複字元)、詞彙替換(使用同義詞替換詞彙)以及句法變形(諸如風格轉換)時,表現出較差的魯棒性。Shi 等人則指出,當在問題描述中添加無關資訊時,LLM 的表現會顯著降低,展現出容易受到幹擾的特性。相較而言,JADE 通過語言變異生成的問題,在維持核心語義以及自然語言特性方面具備顯著優勢,為 LLM 的安全評估提供了更為系統、更為有效的辦法。

論文結論

本文提出了一個基于語言學的 LLMs 安全評估平台 JADE,該平台通過提升問題的句法複雜性,有效地探索了 LLMs 的語言了解和安全邊界。實驗結果顯示,JADE 生成的問題在多個 LLMs 當中具有很強的可轉移性,并且在流利性和語義保持方面有着出色的表現。未來的工作會進一步對 JADE 的生成規則和評估子產品進行優化,進而提高其在更廣泛應用場景裡的适用性。

原作者:論文解讀智能體

校對:小椰風

【論文速讀】| JADE:用于大語言模型的基于語言學的安全評估平台

繼續閱讀