識别ChatGPT造假,效果超越OpenAI：北大、華為的AI生成檢測器來了

機器之心專欄

機器之心編輯部

AI 造假的成功率很高，前幾天「10 分鐘騙 430萬」還上了熱搜。在最熱門的大語言模型上，研究人員最近探索了一種識别方法。

随着生成式大模型的不斷進步，它們生成的語料正逐漸逼近人類。雖然大模型正在解放無數文書的雙手，它以假亂真的強勁能力也為一些不法分子所利用，造成了一系列社會問題：

來自北大、華為的研究者們提出了一種識别各式 AI 生成語料的可靠文本檢測器。根據長短文本的不同特性，提出了一種基于 PU 學習的多尺度 AI 生成文本檢測器訓練方法。通過對檢測器訓練過程的改進，在同等條件下能取得在長、短 ChatGPT 語料上檢測能力的可觀提升，解決了目前檢測器對于短文本識别精度低的痛點。

論文位址：https://arxiv.org/abs/2305.18149

代碼位址 (MindSpore)：https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt

代碼位址 (PyTorch)：https://github.com/YuchuanTian/AIGC_text_detector

引言

随着大語言模型的生成效果越發逼真，各行各業迫切需要一款可靠的 AI 生成文本檢測器。然而，不同行業對檢測語料的要求不同，例如在學術界，普遍需要對大段完整的學術文本進行檢測；在社交平台上，需要對相對簡短而較為支離破碎的假消息進行檢測。然而，既有檢測器往往無法兼顧各式需求。例如，主流的一些 AI 文本檢測器對較短的語料預測能力普遍較差。

對于不同長度語料的不同檢測效果，作者觀察到較短的 AI 生成文本可能存在着一部分歸屬上的「不确定性」；或者更直白地說，由于一些 AI 生成短句同時也常常被人類使用，因而很難界定 AI 生成的短文本是否來自于人或 AI。這裡列舉了幾個人和 AI 分别對同一問題做出回答的例子：

由這些例子可見，很難對 AI 生成的簡短回答進行識别：這類語料與人的差別過小，很難嚴格判斷其真實屬性。是以，将短文本簡單标注為人類 / AI 并按照傳統的二分類問題進行文本檢測是不合适的。

針對這個問題，本研究将人類 / AI 的二分類檢測部分轉化為了一個部分 PU（Positive-Unlabeled）學習問題，即在較短的句子中，人的語言為正類（Positive），機器語言為無标記類（Unlabeled），以此對訓練的損失函數進行了改進。此改進可觀地提升了檢測器在各式語料上的分類效果。

算法細節

在傳統的 PU 學習設定下，一個二分類模型隻能根據正訓練樣本和無标記訓練樣本進行學習。一個常用的 PU 學習方法是通過制定 PU loss 來估計負樣本對應的二分類損失：

其中，表示正樣本與正标簽計算的二分類損失；表示将無标記樣本全部假定為負标簽計算的二分類損失；表示将正樣本假定為負标簽計算的二分類損失；表示的是先驗正樣本機率，即正樣本在全部 PU 樣本中的預估占比。在傳統的 PU 學習中，通常将先驗設定為一個固定的超參數。然而在文本檢測的場景中，檢測器需要處理各式長度不同的文本；而對于不同長度的文本而言，其正樣本在所有和該樣本相同長度的 PU 樣本中的預估占比也是不同的。是以，本研究對 PU Loss 進行了改進，提出了長度敏感的多尺度 PU（MPU）loss 損失函數。

具體地，本研究提出了一個抽象的循環模型對較短文本檢測進行模組化。傳統的 NLP 模型在處理序列時，通常是一個馬爾可夫鍊的結構，如 RNN、LSTM 等。此類循環模型的這個過程通常可以了解為一個逐漸疊代的過程，即每個 token 輸出的預測，都是由上一個 token 及之前序列的預測結果和該 token 的預測結果經過變換、融合得到的。即以下過程：

為了根據這個抽象的模型進行先驗機率的估計，需要假定該模型的輸出為某個句子為正類（Positive）的置信度，即判定為人說出的樣本的機率。假設每個 token 的貢獻大小為句子 token 長度的反比，是非正（Positive）即無标記（Unlabeled）的，且為無标記的機率遠遠大于為正的機率。因為随着大模型的詞彙量逐漸逼近人類，絕大部分詞彙會同時出現在 AI 和人類語料中。根據這個簡化後的模型和設定好的正 token 機率，通過求出不同輸入情況下模型輸出置信度的總期望，來得到最終的先驗估計。

通過理論推導和實驗，估計得到先驗機率随着文本長度的上升而上升，最終逐漸穩定。這種現象也符合預期，因為随着文本變長，檢測器可以捕捉的資訊更多，文本的「來源不确定性」也逐漸減弱：

之後，對于每個正樣本，根據其樣本長度得到的獨特先驗對 PU loss 進行計算。最後，由于較短文本僅有部分 “不确定性”（即較短文本也會含有一些人或者 AI 的文本特征），可以對二分類 loss 和 MPU loss 進行權重相加，作為最終的優化目标：

此外需要注意的是，MPU loss 适配的是長度較為多樣的訓練語料。倘若既有的訓練資料單質化明顯，大部分語料為大段冗長的文本，則無法全面發揮 MPU 方法的功效。為了使得訓練語料的長度更多樣化，本研究還引入了一個在句子層面進行多尺度化的子產品。該子產品随機遮蓋訓練語料中的部分句子，并對餘下句子在保留原有順序的前提下進行重組。經過訓練語料的多尺度化操作，訓練文本得到了長度上的極大豐富，進而充分利用了 PU 學習進行 AI 文本檢測器訓練。

實驗結果

如上表所示，作者先在較短的 AI 生成語料資料集 Tweep-Fake 上檢驗 MPU loss 的效果。該資料集中的語料均為推特上較為短小的語段。作者又在傳統的語言模型微調基礎上将傳統二分類 loss 替換為含有 MPU loss 的優化目标。改進之後的語言模型檢測器效果較為突出，超過了其它基線算法。

作者又對 chatGPT 生成文本進行了檢測，經過傳統微調得到的語言模型檢測器在短句上表現較差；經過 MPU 方式在同等條件下訓練得到的檢測器在短句上表現良好，且同時能夠在完整語料上取得可觀的效果提升，F1-score 提升了 1%，超越了 OpenAI 和 DetectGPT 等 SOTA 算法。

如上表所示，作者在消融實驗中觀察了每個部分帶來的效果增益。MPU loss 加強了長、短語料的分類效果。

作者還對比了傳統 PU 和 Multiscale PU（MPU）。由上表可見 MPU 效果更勝一籌，能更好地适配 AI 多尺度文本檢測的任務。

總結

作者通過提出基于多尺度 PU 學習的方案，解決了文本檢測器對于短句識别的難題，随着未來 AIGC 生成模型的泛濫，對于這類内容的檢測将會越來越重要。這項研究在 AI 文本檢測的問題上邁出了堅實的一步，希望未來會有更多類似的研究，把 AIGC 内容進行更好的管控，防止 AI 生成内容的濫用。

識别ChatGPT造假,效果超越OpenAI：北大、華為的AI生成檢測器來了

繼續閱讀

AI到底多費電？ChatGPT一年電費高達2億元！六年後将“吃掉”

奧爾特曼選取網友提示詞，用OpenAI新款大模型Sora生成

ChatGPT搜尋引擎要來了，但它面臨的麻煩還不少

微軟“叛變”了！本月或将推出5000億新AI模型MAI-1，對抗谷歌和OpenAI｜钛媒體AGI

OpenAI新動作：ChatGPT搜尋引擎挑戰谷歌，五月大戰一觸即發

微軟将推出自研新AI模型“MAI-1”，與谷歌、OpenAI競争

中國的 OpenAI 們怎麼賺錢？這家公司先走一步

比ChatGPT更厲害的競品要來了？阿爾法狗創始人：AI還是

OpenAI高管：今天的ChatGPT将很快顯得“糟糕可笑”，預計GPT-5将取得更大飛躍【附生成式AI行業市場現狀分析】

美版知乎CEO發聲：OpenAI不是競争對手，衆包問答的未來

挑戰OpenAI，微軟自研5000億參數絕密武器曝光！前谷歌DeepMind高管帶隊

OpenAI宮鬥“唯一幸存董事”親述：做問答，機器替代不了人

OpenAI的AI 搜尋長這樣？

淘寶回應大量使用者被免單 Bug；微軟将推出自研新 AI 模型「MAI-1」，與谷歌、OpenAI 競争 | 極客頭條

超100億美元投資OpenAI一年後，傳微軟親自操刀，開發參數5000億的MAI-1大模型！

OpenAI神秘gpt2正在A/B測試，奧特曼搶先劇透，網友已玩嗨