天天看點

用ChatGPT僞造手稿,十幾篇論文被曝光

作者:科學網

編譯|杜珊妮

8月9日,一篇關于複雜數學方程新解的論文發表在了實體學領域期刊Physica Scripta上。乍一看,文章内容似乎沒什麼問題。然而,法國圖盧茲大學的計算機科學家兼科學偵探Guillaume Cabanac在閱覽這篇論文手稿的第3頁時,注意到了一個不尋常的詞組“重新生成響應(Regenerate response)”。

熟悉ChatGPT的人,對這個詞組應該不會陌生。當你對AI的回答不滿意時,按下這個功能按鈕标簽,就能讓它重新生成新的回答。

Cabanac迅速将上述手稿中露出馬腳的頁面截圖釋出在了PubPeer上。而此前他已曝光了十幾篇出現類似情況的論文。

用ChatGPT僞造手稿,十幾篇論文被曝光

Physica Scripta論文手稿截圖釋出在了PubPeer上,Cabanac使用黃顔色突出顯示了詞組“重新生成響應”。

發現的不過是“冰山一角”

Physica Scripta的出版商是位于英國布裡斯托爾的英國實體學會出版社。該機構的同行評審與研究誠信負責人Kim Eggleton表示,文章的作者後來向期刊證明,他們使用了ChatGPT來輔助起草他們的手稿。

前述論文于5月送出,于7月再次送出了修改版。在兩個月的同行評審和排版過程中,竟然未發現任何異常情況。英國實體學會出版社現已決定撤回該論文,因為作者在送出時未澄清他們使用了該工具。

“這違反了我們的道德政策。”Eggleton說。

類似的案例并不鮮見。自4月以來,Cabanac已經标記了十幾篇論文,并将它們釋出在了PubPeer上。這些文章中都出現了一些指向ChatGPT使用迹象的詞組,如“重新生成響應”或是“作為一個人工智能語言模型,我……”。

用ChatGPT僞造手稿,十幾篇論文被曝光

一篇已标記并釋出在PubPeer的論文截圖,使用黃顔色突出顯示了詞組“作為一個人工智能語言模型,我……”。

在一篇發表在Elsevier旗下刊物Resources Policy上的論文中,Cabanac檢測到了其他典型的ChatGPT詞組。這篇論文的作者分别來自位于沈陽的遼甯大學和位于北京的商務部國際貿易經濟合作研究院。

起初他隻是覺得論文中的一些方程似乎沒有意義。但當他浏覽到論文的第3張圖表時,圖表上方的一段文字暴露了真相:“請注意,作為人工智能語言模型,我無法生成特定的表格或進行測試……”。

Elsevier的一位發言人對此表示,他們“意識到了這個問題”并正在調查它。

用ChatGPT僞造手稿,十幾篇論文被曝光

期刊Resources Policy的論文内容截圖,Cabanac使用黃顔色突出顯示了詞組“請注意,作為人工智能語言模型,我無法生成特定的表格或進行測試……”。

事實上,包括Elsevier和Springer Nature在内的許多出版商都曾表示,允許作者使用ChatGPT和其他大型語言模型(LLM)工具以輔助他們制作稿件,但前提是必須聲明在準備稿件過程中是否使用了AI或AI輔助技術。

但Cabanac發現,上述論文的作者均未對使用過ChatGPT等工作的情況予以說明。而他們之是以會被發現,是因為他們沒有對文本細節進行謹慎的處理,甚至常常忘記删除哪怕最明顯的人工智能生成痕迹。

考慮到這一點,那些更“聰明”更小心地處理文本,卻又隐瞞自己使用了ChatGPT的論文數量,可能比已知的數量多得多。

“這些發現隻不過是冰山一角。”Cabanac說。

Cabanac通過與其他科學偵探以及研究人員合作,在未經同行評審的會議論文和預印本的手稿中也發現了同樣的問題。Cabanac将它們一并釋出在了PubPeer上,其中部分文章的作者有時會承認他們在未聲明的情況下使用了ChatGPT來幫助創作作品。

越來越難的貓鼠遊戲

早在ChatGPT出現之前,科學家就已經在和計算機軟體撰寫的論文做鬥争了。

2005年,美國麻省理工學院的3名研究人員開發了一個名為SCIgen的論文生成軟體。使用者可以免費下載下傳和使用該程式,其生成的論文内容完全是虛假的。開發者的初衷是想要測試這些毫無意義的手稿是否可以通過會議的篩選程式,他們認為這些會議的存在隻是為了賺錢。

2012年,法國格勒諾布爾—阿爾卑斯大學的計算機科學家Cyril Labbé在電氣與電子工程師協會(IEEE)釋出的會議上發現了85篇由SCIgen程式生成的假論文。兩年後,Labbé又在IEEE和Springer的出版物中發現了120多篇SCIgen論文。随後,兩家期刊商從它們的訂閱服務中删除了這些“胡言亂語”的假論文。

針對SCIgen,Cyril Labbé專門建立了一個論文檢測網站,允許任何人上傳可疑的論文手稿并檢查它是否是由SCIgen生成的。

SCIgen生成的文章通常包含微妙但可檢測的痕迹。例如,特定的語言模式,以及因為使用自動翻譯工具而誤譯的“異常表述”。

相比之下,如果研究人員删除了展現ChatGPT使用痕迹的标志性詞組,那麼更複雜的聊天機器人所生成的流暢文本“幾乎不可能”被發現。

英國倫敦研究誠信辦公室的研究誠信經理Matt Hodgkinson稱:“這本質上是一場騙子與試圖将他們拒之門外的人之間的軍備競賽”。

知名學術打假人Elisabeth Bik表示,ChatGPT和其他生成式人工智能工具的迅速崛起将為論文工廠提供火力——學術論文造假公司将會借助這些工具僞造更多的假手稿,并出售給那些希望快速提升論文産出的研究人員。

“這将使問題變得更加糟糕,”Bik說,“我非常擔心學術界已經湧入了大量我們甚至不再認識的論文。”

投機者變多,守門員不夠了

曾就職于紐西蘭北帕默斯頓梅西大學的退休心理學家,化名為Smut Clyde的研究誠信偵探David Bimler指出,隐瞞大型語言模型工具使用的期刊論文問題指向了一個更深層次的擔憂:忙碌的同行評審人員通常沒有時間徹底檢查稿件中是否存在機器生成文本的危險信号。

“看門人的數量跟不上。”Bimler說。

Hodgkinson給出了一個或許可行的建議:ChatGPT和其他大型語言模型傾向于向使用者提供虛假的參考文獻。對于希望在手稿中發現這些工具使用痕迹的同行評審人員來說,這可能是一個很好的線索。“如果引文不存在,那就是一個危險信号,”他說。

例如,撤稿觀察網站報道了一篇使用ChatGPT編寫的關于千足蟲研究的預印本論文。丹麥自然曆史博物館的千足蟲研究人員Henrik Enghoff在下載下傳這篇論文時,注意到該文雖然引用了他的研究成果,但是他的這些成果與預印本的研究主題并不一緻。

哥本哈根國家血清研究所的微生物學家Rune Stensvold則遇到了引用僞造的問題。當一個學生向他索要一份據說是他在2006年與一位同僚共同撰寫的論文副本時,Stensvold發現這篇文章根本就是不存在的。追溯事實發現,原來該學生曾要求人工智能聊天機器人推薦有關芽囊原蟲屬的論文,而聊天機器人拼湊了一篇帶有Stensvold名字的參考文獻。

“它看起來很真實,”Stensvold說,“這件事情告訴我,當我要審閱論文時,我可能應該首先檢視參考文獻部分。”

參考資料

https://www.nature.com/articles/d41586-023-02477-w

https://www.nature.com/articles/nature03653

https://www.nature.com/articles/nature.2014.14763

https://www.nature.com/articles/d41586-021-01436-7

https://retractionwatch.com/2023/07/07/publisher-blacklists-authors-after-preprint-cites-made-up-studies/

繼續閱讀