智東西
編譯 | 銘滟 編輯 | 徐珊智東西7月17日消息,據科技網站Ars Technica報道,斯坦福大學的研究專家和GPTZero(AI寫作檢測器)的作者均表明,AI寫作檢測器并不能準确判定一段文本是否由AI生成。這導緻部分學生面對錯誤的檢測結果,不得不自證清白。
AI寫作檢測器的原理是基于人類編寫和AI生成的文本語料庫,根據已有文本對送出系統的文本進行檢測,判斷是否由AI編寫。這一過程導緻的悖論是:AI可以模仿人類寫作,人類也可以模仿AI寫作。是以,專家認為,對于老師而言,不應當用AI寫作檢測來查驗學生,而應當教會學生真正使用AI輔助寫作,并且真正了解學生對已有知識的掌握程度。
一、AI檢測背後的原理——經驗性與變化性
如果你在GPTZero裡上傳美國憲法的文本,系統檢測結果會顯示,該文本“可能完全由AI編寫”。這似乎在說,詹姆斯·麥迪遜(James Madison,美國憲法之父,是美國制憲會議代表及《美利堅合衆國憲法》起草和簽署人之一)是機器人。同樣的,如果上傳聖經的文本,GPTZero系統也會判定該文本是AI生成的。
當輸入美國憲法部分文本時,GPTZero系統判定該文本是AI/GPT生成的
在外網,這一系列誤判被廣泛傳播。要解釋這些檢測工具為什麼會犯如此明顯的錯誤,我們首先需要了解它們的工作原理。
不同的AI寫作檢測器使用的檢測方法略有不同,但它們的原理基本相似,即以大量文本訓練和推測規則為檢測基礎。這些文本和規則決定了系統判定上傳的文本是更有可能是人類編寫的還是AI生成的。
例如,GPTZero的文本來源是大量人類編寫和AI生成的文本語料庫,主要語料是英文散文。以此為基礎,系統使用“經驗性”(指依照既往經驗,這種語言是否超出一般經驗判斷)和“變化性”(一般人類寫作的句子會長短交替變化,這種變化是人類自然表達的結果)等屬性來評估文本并進行判斷。
在機器學習中,經驗性是比較一段文本與AI模型訓練過程中習得内容差距大小的衡量。AI公司Hugging Face的Margaret Mitchell博士說:“經驗性就是,‘我覺得這句話是否合理’的功能。”
也就是說,經驗性背後的邏輯是,AI生成的文本自然會最接近AI的訓練資料,是以經驗性越高。但問題在于,人類也可以高“經驗性”寫作,尤其是在法律寫作或者其他類型的學術寫作中,作者使用的語句都非常固定。
即使在日常交流對話中,也有很多高“經驗性”的表達,比如我想要一杯水。但如果是“我想要一杯蜘蛛”,人類和AI都會對這句話感到不解,是以他的經驗性就會很低。
“我想要一杯蜘蛛”的谷歌搜尋結果隻有一條,這種短語搭配的經驗性就會很低。
是以在“經驗性”的判定标準之下,美國憲法就被認為是AI生成的。原因在于,憲法的語言内容已經在AI訓練資料中反複出現,是以AI檢測系統作出了誤判。
但是問題在于,人類完全可以創作常見的内容。人類也可以隻使用常見短語進行表達,例如“我想要一杯咖啡”。是以,以經驗性為基礎判定是否是人類創作是不妥的。
聖經創世紀的一部分被标記為88.2%的AI由ZeroGPT生成
GPTZero判定文本的另一個标準是“變化性”,它評估的是整個文本中句子長度和結構的交替變化。
人類的寫作風格通常會有變化,文本中句子的長度和結構都會有變化。例如,在一個長句後,我們會接一個短句。這種變化是很自然的。
與此相對的是,AI生成的文本比較穩定且統一。AI語言模型仍在起步階段,生成的文本比較标準,長度和結構比較統一。這種穩定性可能會導緻變化性分數較低,判定文本可能是AI生成的。
但是,變化性這個名額也不是萬無一失的。人類也可以用高度結構化和一緻的風格進行寫作,導緻變化性得分較低。反過來講,我們也可以訓練AI模型來模拟人類文本的變化性,進而提高其變化性得分。事實上,随着AI語言模型的疊代,它們的寫作看起來越來越像人類的寫作。
是以,依照前兩個判定标準,AI寫作檢測并不能對一段文本是否是人類寫的給出準确的判斷。
二、部分學生成AI檢測誤判的受害者
部分教育工作者正在接受這種AI技術融入現實這一情況,并且積極推廣使用ChatGPT等工具輔助學習。沃頓商學院的Ethan Mollick教授正是其中一員。
“沒有工具可以可靠地檢測ChatGPT-4/Bing/Bard寫作。”Mollick教授最近在推特上寫道。“現有的工具是以GPT-3.5為訓練基準。它們的誤報率很高(10%+),而且它們非常容易被誤導。”并且,ChatGPT無法評估文本是否是由AI編寫的,我們無法粘貼一段文本然後詢問它是否由ChatGPT編寫。
GPTZero的作者似乎意識到AI寫作檢測的未來是行不通的,表示他計劃将他的公司從AI寫作檢測轉向其他方向。他說:“我們正在建構探測器來捕捉用ChatGPT寫作的學生。并且,下一個版本的GPTZero不會檢測AI文本,而是幫助教師和學生一起使用AI,讓AI參與教育。”
那麼他又如何看待人們使用GPTZero查驗學生學術不端?他表示:“我們不希望人們使用GPTZero來懲罰學生。在教育方面,應當停止個人對AI的依賴,比如一些教師會用AI檢測來懲罰學生,一些教師則善于運用AI技術。政府和校方應當聯合制定正确的政策來應對使用AI技術的學生,直到我們知道學生真正的學習進度,以及這個過程中AI的參與程度。
但是GPTZero并未解決誤判的問題,其作者仍然宣傳AI寫作檢測是“為教育工作者而建”。但是,使用這些高誤判率的産品有可能對學生造成傷害,而唯一為此付出代價的,隻有被冤枉的學生。
GPTZero網站的螢幕截圖
《今日美國》曾報道過的一個案例,一名學生被指控使用AI工具作弊,被迫在榮譽委員會面前進行自我辯護。他的辯護包括展示他的谷歌文檔曆史和他的研究過程。盡管董事會沒有發現作弊的證據,但為自己辯護的壓力導緻學生極為恐慌。類似的場景在美國已經上演了至少數十次。
對學術不端的常見處罰通常包括成績不及格、留校察看、停學甚至開除,具體取決于違規行為的嚴重程度和頻率。這個處罰的問題在于,使用有誤判的技術作出這些嚴重指控,對學生而言是極為不公的。
三、AI寫作可能永遠無法被監測
在實踐研究中,AI寫作檢測也有誤報和歧視非英語母語人士的問題。2023年,馬裡蘭大學研究人員的一項研究表明,AI寫作檢測在實際應用中表現一般,誤報頻率較高。
AI寫作檢測産品的研究員Simon Willison說:“這隻是個‘萬用靈藥’(指毫無意義的産品)而已。尤其是很難證明這種産品是否有用時,每個人都希望這個系統能有用。”
除此之外,近期斯坦福大學研究人員的一項研究也表明,AI寫作檢測有可能歧視非英語母語人群。如果廣泛使用AI寫作檢測,那麼非英語母語人群的寫作就會出現很高的誤報率,他們會處在很被動的地位。
很明顯,AI寫作檢測并非萬無一失。人類可以像機器一樣寫作,機器也可以像人類一樣寫作。或許應當思考寫作的核心問題:在機器輔助下,作者本人能不能了解他們在說什麼?如果有人使用AI工具以超出他們能力範圍之外進行寫作,那麼有能力的讀者或老師應該很容易分辨。
AI輔助寫作将繼續存在,如果使用得當,AI可能會以更負責任和合乎道德的方式輔助寫作。如果老師希望鼓勵AI輔助工具的有效應用,可以提出以下問題:寫作是否反映了作者的意志和知識儲備?作者能确認所寫的每個事件的真實性嗎?
老師也可以在事後對學生的寫作内容進行測驗,看看他們的了解程度如何。寫作不僅僅是知識的展示,而且是語言的表達。如果作者不能清晰叙述所寫的每一個事實,AI就沒有起到應有的輔助作用。
AI生成圖像:機器人輔助學生學習
AI輔助寫作仍是一項工具,工具則存在使用不當或熟練使用等情形。使用工具要依使用情景進行調整:你可以用畫筆畫一整面牆,或是創作蒙娜麗莎。這兩種情況都是對該工具的适當使用,但每種方案所需的人的注意力和創造力都是不同的。同樣,AI工具可以适當加速一些死記硬背的寫作任務(比如生成文檔摘要等),而更複雜的任務則需要更多的人的努力。任何事都沒有非黑即白的解決方案。
目前,Mollick表示,盡管教育工作者對AI工具感到無措,但他不認為任何人都應該使用AI寫作檢測。Mollick表示,“我不是AI檢測的技術專家,但我可以從一個使用AI的教育工作者的角度出發。截至目前,AI寫作是無法被檢測的,而且很可能繼續如此。AI探測器的誤報率很高,是以我不建議繼續使用它們。”
結語:擺正AI的工具屬性
無論是AI寫作還是人類寫作,其本質都是掌握和學習的過程,人類比AI更為獨特的一點則是創新。一方面,老師們可以通過對學生增加其他考察方式的形式,來確定學生的知識掌握程度;另一方面,老師可以引領學生還原AI的工具屬性,通過AI輔助研究和教學的進行。
如今生成式AI蓬勃發展,AI技術也逐漸在各行業領域内落地紮根。各行業領域可以結合從業人員的從業經驗和AI技術人員的技術知識,預先對可能出現的濫用行為進行技術處理,提前防範濫用行為。在使用AI技術的過程中,也應保持實時監測,及時制止和處罰相應的濫用及侵權行為。