天天看點

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

機器之心報道

機器之心編輯部

利用 ChatGPT 等 AI 模型作弊引發了人們廣泛的擔憂,而水印正成為解決該問題的一把「利劍」。

近一段時間以來,對話式 AI 模型 ChatGPT 的風頭無兩。有人用 ChatGPT 寫代碼、改 bug;還有人用 ChatGPT 寫神經網絡,做到了一字不改結果很好用。然而,ChatGPT 在學校作業、論文發表等領域引發了人們廣泛的擔憂,并采取了相應的措施。

1 月初,紐約市教育官員宣布禁止學生在公立學校使用 ChatGPT 的消息引發了争論;人們對 ChatGPT 的擔憂已經蔓延到了 AI 學界自身,全球知名機器學習會議之一的 ICML 最近也宣布禁止發表包含由 ChatGPT 和其他類似系統生成内容的論文,以免出現「意外後果」。

針對這些回報,ChatGPT 的提出者 OpenAI 正在努力開發緩解措施,幫助人們檢測由 AI 自動生成的文本。OpenAI CEO Sam Altman 提出将嘗試水印技術和其他技術來标記 ChatGPT 生成的内容,但又表示不可能做到完美。

大型語言模型的潛在危害,可通過給模型的輸出加水印來緩解,即把信号嵌入到生成的文本中,這些信号對人類來說是不可見的,但算法可以從短範圍的 token 中檢測到。

本文中,來自馬裡蘭大學的幾位研究者針對 ChatGPT 等語言模型輸出的水印進行了深入研究。他們提出了一種高效水印架構,水印的嵌入對文本品質的影響忽略不計,可以使用高效的開源算法進行檢測,而無需通路語言模型的 API 或參數。此外,本文方法可以檢測到比較短的合成文本(少至 25 個 tokens),同時使得人類文本在統計學上不可能被标記為機器生成。

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

論文位址:https://arxiv.org/pdf/2301.10226v1.pdf

本文中提出的水印具有以下屬性:

可以在不了解模型參數或不通路語言模型 API 的情況下通過算法檢測,是以即使模型不開源,檢測算法也能開源。同時得益于 LLM 不需要加載或運作,檢測成本低且速度快;

可以使用标準語言模型生成帶水印的文本,無需重新訓練;

隻從生成文本的連續部分檢測到水印,這樣當使用生成的一部分建立更大的文檔時,水印依然可以檢測到;

如果不修改生成 tokens 的很大一部分,則無法删除水印;

對已經檢測到的水印計算出嚴格的統計學置信度。

馬裡蘭大學副教授、論文作者之一 Tom Goldstein 表示:「OpenAI 正在計劃阻止 ChatGPT 使用者的一些作弊行為,與此同時,我們通過水印輸出的方式來辨識是否由 ChatGPT 生成的内容。在一個具有 1.3B 參數的模型中,一種新的語言模型水印架構在僅 23 個單詞中檢測出了 LLM 生成的文本,我們有 99.999999999994% 信心檢測到。」

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來
用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

有人毫不誇張的表示,這篇論文标志着 LLM 剽竊和反剽竊檢查器之間的競賽已經開始。

該方法的出現,也讓網友替學生們捏了一把汗,直呼「振作起來,高中生們!」

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

在方法介紹部分,首先該研究介紹了一種簡單的水印方法(hard blacklist watermark),該水印易于分析、易于檢測且難以删除。該方法通過生成禁止出現的 token 黑名單來工作。在檢測水印中,生成水印文本需要通路語言模型,而檢測水印則不需要。擁有哈希函數和随機數生成器知識的第三方可以為每個 token 重新生成黑名單,并計算違反黑名單規則的次數。

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

除此以外,該研究還使用了一種稱為 soft 水印的檢測方法,該算法并沒有嚴格禁止黑名單 token,而是在白名單 token 的對數上增加了一個常數 δ,算法如下:

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

上述水印算法被設計為公開的,其實該算法也可以在私有模式下運作,使用一個随機密鑰,該密鑰用來保密并托管在 API 上。如果攻擊者不知道用于生成黑名單的密鑰,那麼攻擊者就難以删除水印,因為攻擊者不知道哪些 token 被列入黑名單。

研究者表示,該水印檢測算法可以公開,使第三方(例如社交媒體平台)能夠自行運作,也可以保持私有并在 API 後面運作。

實驗

實驗使用 OPT-1.3B 模型探索了水印效果。為了模拟各種語言模組化場景,該研究從 C4 資料集的子集中随機選擇文本進行切片和切塊。

圖 2(左)顯示了各種水印參數組合的水印強度(z 分數)和文本品質(困惑度)之間的權衡。

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

該研究在表 2 中提供了各種水印參數的錯誤率表,此外,該研究還在圖 4 中的 ROC 圖表中掃描了一系列門檻值。

用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來
用ChatGPT作弊,小心被抓,反剽竊水印技術讓學生噩夢提前到來

更多技術細節請參閱原論文。

上一篇: 青春
下一篇: 鄰家小妹

繼續閱讀