天天看點

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

作者:優美可樂09

本賬号下所有文章均為本人今日頭條原創首發,沒有再次釋出任何平台,請尊重作者創作權益,不得搬運抄襲!

導語:

近日,一篇關于使用14行代碼的kNN算法在文本分類上超越Transformer和BERT的論文引發了廣泛關注。該研究由滑鐵盧大學和AFAIK機構的研究人員聯合完成,提出了一種不需要參數的替代方案,将壓縮算法和k近鄰分類算法相結合,在無任何訓練參數的情況下取得了出色的效果。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

然而,這一驚人的發現并未持續太久,不久後就有人發現了該論文中的代碼存在錯誤,導緻結果出現問題,一時間輿論嘩然,這似乎是一場逆轉。接下來,我們将深入探讨這一研究背後的故事。

曾幾何時,一篇名為《壓縮與近鄰:14行代碼超越BERT在文本分類中的性能》的論文在學術界引起了巨大轟動。這篇來自ACL Finding的論文宣稱,僅僅使用14行代碼的kNN算法成功地擊敗了當下風頭正勁的Transformer和BERT等深度神經網絡模型,再次掀起了對于舊方法在現代機器學習任務中的重要性的思考。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

雖然有人将該論文的創意性評價高達95%,但奇怪的是,這篇引起如此大轟動的論文并未獲得獎項,這一現象着實令人費解。

然而,正當人們為這個創新的研究方向歡呼時,不經意間,一場意外的發現把這一切都推向了反方向。原本以為能夠徹底改變機器學習的研究,卻被現實無情地揭示了一個尴尬的事實:這一切似乎都是一個誤會。原本以為已經超越的BERT,原來根本沒有被打敗;而這14行代碼的背後,隐藏着一個關鍵性的bug,讓人們對這一研究的真實價值産生了懷疑。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

論文的作者來自滑鐵盧大學和AFAIK機構,他們嘗試提出一種不需要大量參數的替代方案,用以解決現代深度神經網絡模型在計算密集型、資料需求高等問題。他們的政策是将簡單的壓縮算法,如gzip,與k近鄰分類算法相結合,并利用歸一化壓縮距離來實作文本分類任務。這個簡單的方案居然在沒有經過複雜訓練參數的情況下,取得了令人驚訝的成果。在多個分布内和分布外的資料集上,這個方法都取得了與深度神經網絡相媲美甚至超越的結果,甚至連BERT都被打敗了。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

更加引人矚目的是,這個方法在少樣本情況下也表現出色,而傳統的DNN則因為資料稀缺而束手無策。

然而,Ken Schutte這位來自美國的機器學習研究員,并沒有如大多數人一樣盲目樂觀。他對這篇論文充滿了濃厚的興趣,決定自己嘗試複現一遍。然而,他在複現的過程中意外地發現了一個異常,一個可能是無意的bug。原文中的kNN代碼中的錯誤,使得最終的準确度名額高于預期,導緻整個論文的可信度受到了質疑。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

Ken的發現将觀點聚焦在“top-2精度”與“kNN(k=2)精度”的不一緻上,揭示出這個看似劃時代的研究在實際中可能并沒有那麼強大。

具體來說,在原論文中,作者在使用kNN分類器時,将取值k設定為2,這個選擇被認為是不必要的。Ken認為,取值為1就足夠了,因為當k為2時,如果訓練集中搜尋出的兩個近鄰點類别标簽不一緻,會出現平局情況,進一步的決策需要考慮唯一正确的那個點。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

而在這個決策的過程中,原論文中的源代碼出現了問題,将其誤解為Top-2精度。這就導緻了一個偏差,讓結果看上去比實際要優秀。Ken重新實作了兩種不同的打破平局政策,分别是随機選擇和遞減k值,結果顯示這個方法的效果有所下滑。

這一發現引發了廣泛的争議。網友們紛紛發表評論,有人認為雖然出現了bug,但這并不影響方法本身的創新性,這一研究的思想依然令人印象深刻。對于Ken的發現,有人表示認同,認為這是一種重要的揭示,而也有人則批評Ken的方法不夠嚴謹。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

盡管Ken的分析揭示了一個可能的問題,但大部分人依然堅定地捍衛這篇論文的創新貢獻。他們認為,即

依然存在錯誤,這并不能否定這個方法的意義,也許隻是審查不到位或者技術細節上的問題。這一切的争議都催生了一句廣為傳頌的話:“你可以扼殺一篇論文,但你無法扼殺一個想法。”這個論點凸顯了創新思想的重要性,即使研究中出現問題,也不能否定其對學術領域的啟發和推動。

然而,随着時間的推移,越來越多的問題被揭示出來。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

斯坦福博士Yann Dubois指出,這篇論文的問題遠不止于此,訓練測試集的重疊也引起了人們的擔憂。在部分資料集中,訓練集和測試集完全相同,而在其他資料集中,重疊率高達90%。雖然這個方法在創新性方面引起了廣泛讨論,但也不容忽視其中可能存在的技術上的問題。

面對這些争議,研究人員和學術界都在探讨該論文的真正價值。無論是Ken Schutte的發現,還是Yann Dubois的進一步揭示,都在一定程度上削弱了這個方法的可靠性。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒

然而,這并不意味着這篇論文完全失去了意義。這個方法的創新性思想依然值得關注,也許在今後的研究中,有更多的人會繼續探索這個方向,彌補其中可能存在的缺陷。

無論如何,這個故事告訴我們,科學研究永遠是一個不斷探索和改進的過程。創新和發現并不總是一帆風順,可能會遇到技術問題和錯誤。然而,這并不妨礙我們繼續追求知識的深度和廣度,通過不斷的實驗和反思,推動科學的進步。

爆火論文“14行代碼打敗BERT”出現反轉!改掉bug性能秒