用ChatGPT作弊，小心被抓，反剽竊水印技術讓學生噩夢提前到來

機器之心報道

機器之心編輯部

利用 ChatGPT 等 AI 模型作弊引發了人們廣泛的擔憂，而水印正成為解決該問題的一把「利劍」。

近一段時間以來，對話式 AI 模型 ChatGPT 的風頭無兩。有人用 ChatGPT 寫代碼、改 bug；還有人用 ChatGPT 寫神經網絡，做到了一字不改結果很好用。然而，ChatGPT 在學校作業、論文發表等領域引發了人們廣泛的擔憂，并采取了相應的措施。

1 月初，紐約市教育官員宣布禁止學生在公立學校使用 ChatGPT 的消息引發了争論；人們對 ChatGPT 的擔憂已經蔓延到了 AI 學界自身，全球知名機器學習會議之一的 ICML 最近也宣布禁止發表包含由 ChatGPT 和其他類似系統生成内容的論文，以免出現「意外後果」。

針對這些回報，ChatGPT 的提出者 OpenAI 正在努力開發緩解措施，幫助人們檢測由 AI 自動生成的文本。OpenAI CEO Sam Altman 提出将嘗試水印技術和其他技術來标記 ChatGPT 生成的内容，但又表示不可能做到完美。

大型語言模型的潛在危害，可通過給模型的輸出加水印來緩解，即把信号嵌入到生成的文本中，這些信号對人類來說是不可見的，但算法可以從短範圍的 token 中檢測到。

本文中，來自馬裡蘭大學的幾位研究者針對 ChatGPT 等語言模型輸出的水印進行了深入研究。他們提出了一種高效水印架構，水印的嵌入對文本品質的影響忽略不計，可以使用高效的開源算法進行檢測，而無需通路語言模型的 API 或參數。此外，本文方法可以檢測到比較短的合成文本（少至 25 個 tokens），同時使得人類文本在統計學上不可能被标記為機器生成。

論文位址：https://arxiv.org/pdf/2301.10226v1.pdf

本文中提出的水印具有以下屬性：

可以在不了解模型參數或不通路語言模型 API 的情況下通過算法檢測，是以即使模型不開源，檢測算法也能開源。同時得益于 LLM 不需要加載或運作，檢測成本低且速度快；

可以使用标準語言模型生成帶水印的文本，無需重新訓練；

隻從生成文本的連續部分檢測到水印，這樣當使用生成的一部分建立更大的文檔時，水印依然可以檢測到；

如果不修改生成 tokens 的很大一部分，則無法删除水印；

對已經檢測到的水印計算出嚴格的統計學置信度。

馬裡蘭大學副教授、論文作者之一 Tom Goldstein 表示：「OpenAI 正在計劃阻止 ChatGPT 使用者的一些作弊行為，與此同時，我們通過水印輸出的方式來辨識是否由 ChatGPT 生成的内容。在一個具有 1.3B 參數的模型中，一種新的語言模型水印架構在僅 23 個單詞中檢測出了 LLM 生成的文本，我們有 99.999999999994% 信心檢測到。」

有人毫不誇張的表示，這篇論文标志着 LLM 剽竊和反剽竊檢查器之間的競賽已經開始。

該方法的出現，也讓網友替學生們捏了一把汗，直呼「振作起來，高中生們！」

在方法介紹部分，首先該研究介紹了一種簡單的水印方法（hard blacklist watermark），該水印易于分析、易于檢測且難以删除。該方法通過生成禁止出現的 token 黑名單來工作。在檢測水印中，生成水印文本需要通路語言模型，而檢測水印則不需要。擁有哈希函數和随機數生成器知識的第三方可以為每個 token 重新生成黑名單，并計算違反黑名單規則的次數。

除此以外，該研究還使用了一種稱為 soft 水印的檢測方法，該算法并沒有嚴格禁止黑名單 token，而是在白名單 token 的對數上增加了一個常數 δ，算法如下：

上述水印算法被設計為公開的，其實該算法也可以在私有模式下運作，使用一個随機密鑰，該密鑰用來保密并托管在 API 上。如果攻擊者不知道用于生成黑名單的密鑰，那麼攻擊者就難以删除水印，因為攻擊者不知道哪些 token 被列入黑名單。

研究者表示，該水印檢測算法可以公開，使第三方（例如社交媒體平台）能夠自行運作，也可以保持私有并在 API 後面運作。

實驗

實驗使用 OPT-1.3B 模型探索了水印效果。為了模拟各種語言模組化場景，該研究從 C4 資料集的子集中随機選擇文本進行切片和切塊。

圖 2（左）顯示了各種水印參數組合的水印強度（z 分數）和文本品質（困惑度）之間的權衡。

該研究在表 2 中提供了各種水印參數的錯誤率表，此外，該研究還在圖 4 中的 ROC 圖表中掃描了一系列門檻值。

更多技術細節請參閱原論文。

用ChatGPT作弊，小心被抓，反剽竊水印技術讓學生噩夢提前到來

繼續閱讀

為了看看AI有多強，有人帶它玩了一次“劇本殺”

硬體丨 AMD預計最早2023年推出整合AI引擎的CPU

聲音為什麼适合打造品牌強化心智

第7代高通AI引擎：透過AI，看見未來

5分鐘攝像頭抓拍一次，居家一天至少89次！尚德員工：連廁所都不敢上

玩了一場劇本殺，同車隊友“不是人”

2022樂橙新品釋出會：14款新品齊發軟體硬體全面更新

有沒有給視訊配音的軟體？分享能給視訊配音的軟體

别讓ChatGPT跑了

梗圖搜尋神器來了！還能搜視訊，網友：找了六年的梗圖兩分鐘解決

谷歌“狂飙”生成式AI賽道，最新模型可憑文字、圖檔“創作”音樂

ChatGPT發瘋怎麼辦？小冰李笛：兩個關鍵，我可破之

體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

小紮親自官宣Meta視覺大模型！自監督學習無需微調

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI