天天看點

研究了 50 篇論文後,他發現 AI 領域的某些進步其實就是炒作

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

人工智能(AI)似乎變得越來越聰明。每一部 iPhone 都比上一部更了解你的臉、聲音和習慣,人工智能對隐私的威脅也在不斷增加,職位也在不斷增加。這種激增反映了更快的晶片、更多的資料和更好的算法。但是,麻省理工學院的計算機科學研究所學生 Davis Blalock 說,有一些改進是來自微調,而不是發明者聲稱的核心創新,而有些改進可能根本就不存在。Blalock 和他的同僚比較了幾十種改進神經網絡的方法(大緻模仿大腦的軟體架構)。他說,“在研究了 50 篇論文之後,事情已經變得很清晰,當時的技術水準到底如何并不是一件顯而易見的事情。”

研究人員評估了 81 種剪枝算法、程式,它們通過對不需要的連接配接進行剪枝來提高神經網絡的效率。這些方法差别不大,但所有人都宣稱自己具有優越性。然而,很少有人對它們進行恰當的比較——當研究人員設法把它們放在一起評估時,并沒有明确的證據可以表明近 10 年來它們的性能有什麼改善。今年 3 月,在機器學習與系統大會上公布的這一結果讓 Blalock 的博士生導師、麻省理工學院的計算機科學家 John Guttag 感到意外,他指出,這種無規則的對比本身就說明了技術發展的停滞。Guttag 說,“老話說得好,無法度量就無法改進,對吧?”

研究人員逐漸意識到,人工智能的許多子領域的進展都出現了問題。2019 年開展的一項針對搜尋引擎中使用的資訊檢索算法的元分析表明,“最高點……實際上出現在 2009 年。”2019 年的另一項研究再現了 7 個神經網絡推薦系統,這類系統主要用于流媒體服務。研究發現,有六種算法的性能沒有超過多年前開發的簡單許多的非神經算法(這些早期的技術當時都經過了調優),揭示了該領域的“進展幻象”。

今年 3 月,來自康奈爾大學的計算機科學家 Kevin Musgrave 在 arXiv 網站上發表了一篇論文,他研究了損失函數,這是這類算法的一部分,從數學上明确了算法的目标。Musgrave 在一項涉及圖像檢索的任務中,基于同樣的标準對其中的 12 種方法進行了比較,結果發現,與開發人員的說法相反,準确性自 2006 年以來就再沒有提高。Musgrave 說:“這一直以來都是炒作。”

機器學習算法的性能增強可以來自其架構、損失函數或優化政策(如何使用回報進行改進)的根本性變化。來自卡耐基梅隆大學的計算機科學家 Zico Kolter 表示,對上述任何一種技術進行細微的調整都可以提高性能。Kolter 的研究内容是經過訓練後能夠對黑客的“對抗性攻擊”免疫的圖像識别模型。一種被稱為投影梯度下降(PGD)的早期對抗性訓練方法(該方法會同時在真假樣例上進行簡單的訓練),似乎已經被更複雜的方法所超越。但在今年 2 月 arXiv 發表的一篇論文中,Kolter 和他的同僚們發現,當使用一個簡單的技巧來對它們進行增強時,所有方法的效果都差不多。

研究了 50 篇論文後,他發現 AI 領域的某些進步其實就是炒作

在經過适度調整後,舊的圖像檢索算法和新算法的性能一樣好,這表明,實際的創新很少。

“這非常令人驚訝,這一點我們以前沒有發現,”Kolter 的博士生 Leslie Rice 說。而 Kolter 表示,他的發現表明,像 PGD 這樣的創新很難做到,而且很少有實質性的改進。“很明顯,PGD 實際上就是一種正确的算法,”他說,“這顯而易見,而人們希望找到更為複雜的解決方案。”

其他主要算法的進步似乎也經受住了時間的考驗。1997 年,一種被稱為長短時記憶(LSTM)的架構在語言翻譯方面取得了重大突破。在經過适當的訓練後, LSTM 的性能可以與 20 年後開發的更先進的架構相媲美。另一個機器學習的突破出現在 2014 年的生成對抗網絡(GAN)中,舉例來說,它可以将網絡以生成 - 判别循環的方式進行配對,以提高它們生成圖像的能力。據 2018 年的一篇論文報道,隻要計算能力足夠,原始的 GAN 方法就可以與後續幾年的方法相媲美。

Kolter 說,與調整現有算法相比,研究人員更願意去創造一種新的算法,并對其進行調整,直到達到最先進的水準。他指出,調整現有算法可能顯得不那麼新穎,使得“發表論文的難度大大增加”。

Guttag 說,算法的發明者不希望與他人的算法進行徹底的性能比較,結果卻發現他們的突破性進展并不是他們所認為的那樣。“比較太仔細是有風險的。”同時,那也是一項艱苦的工作:人工智能研究人員使用不同的資料集、調優方法、性能名額和基線。“完全的橫向對比是不現實的。”

一些誇大性能的說法可以歸因于該領域的爆炸性增長,該領域的論文數量超過了有經驗的審稿人。Blalock 說,“這似乎是成長的煩惱”。他敦促審稿人,要堅持與基準進行更好地比較,并表示,更好的工具将有所幫助。今年早些時候,Blalock 的合著者、麻省理工學院研究員 Jose Gonzalez Ortiz 釋出了一款名為 ShrinkBench 的軟體,它可以讓人們更輕松地比較剪枝算法。

研究人員指出,即使新方法在本質上并不比舊方法更好,但他們所實作的調整也可以應用到之前的算法上。每隔一段時間,就會有一個新的算法出現。“這幾乎就像一個風險投資組合,”Blalock 說,“其中一些業務并沒有真正發揮作用,但有些卻非常成功。”

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/zhibo

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-06-11

本文作者:Matthew Hutson

本文來自:“

InfoQ

”,了解相關資訊可以關注“

繼續閱讀