天天看點

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

站在2018年,圖像分類準确率在95%以上的模型,已經遍地都是。

回想2012年,Hinton帶着學生們以ImageNet上16.4%的錯誤率震驚計算機視覺研究界,似乎已經是遠古時期的曆史。

這些年來的突飛猛進,真的可信嗎?

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

最近一項研究引出了一些反思:這些進步很可疑。

這項研究,就是加州大學伯克利分校和MIT的幾名科學家在arXiv上公開的一篇論文:Do CIFAR-10 Classifiers Generalize to CIFAR-10?。

解釋一下,這個看似詭異的問題——“CIFAR-10分類器能否泛化到CIFAR-10?”,針對的是當今深度學習研究的一個大缺陷:

看起來成績不錯的深度學習模型,在現實世界中不見得管用。因為很多模型和訓練方法取得的好成績,都來自對于那些著名基準驗證集的過拟合。

論文指出,過去5年間,大多數發表的論文擁抱了這樣一種範式:一種新的機器學習方法在幾個關鍵基準測試中資料,就決定了它的地位。

然而,這種方法與前人相比,為什麼會有這樣的進步?卻很少有人解釋。我們對于進步的感覺主要基于幾個标準的基準測試,比如CIFAR-10、ImageNet、MuJoCo。

這就帶來了一個關鍵的問題:我們目前對機器學習進步的衡量方法,有多可靠?

這個指控,幾乎要質疑圖像分類算法幾年來的一切進步。

空口無憑,如何證明?

為了說明這個問題,幾位作者拿出30個在CIFAR-10驗證集上表現良好的圖像分類模型,換一個資料集來測試它們,用結果說話。

CIFAR-10包含60000張32×32像素的彩色圖像,平均分為5個訓練批次(batch)和1個測試批次圖像共有10類:飛機、小汽車、鳥、貓、鹿、狗、青蛙、…… 

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

當然,如果随便找個資料集來測試,有欺負AI的嫌疑。他們為此專門造了一個和CIFAR-10非常相似的測試集,包含2000張新圖檔,一樣的圖檔來源,一樣的資料子類别分布,甚至連建構過程中的分工都學了過來。

這個新資料集,也就是論文标題中提到的第二個CIFAR-10,确切地說應該是“高仿CIFAR-10的小型測試集”。

新測試集給模型帶來了明顯的打擊,戰況如下:

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

著名的VGG和ResNet,分類準确率從93%左右下降到了85%左右,8個百分點憑空消失。

各位作者還在準确率的差異上,發現了一個小趨勢。在原版CIFAR-10上準确率比較高的那些新模型,在新測試集上的成績下滑不那麼明顯。

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

比如說成績最好的Shake Shake模型,在新舊測試集上的準确率隻差4個百分點。

論文中說,這個小趨勢說明換個資料內建績就下降可能不是因為基于适應性的過拟合,而是因為新舊測試集之間,資料的分布上有一些小變化。

但終究,那些為CIFAR-10打造的分類器,泛化性能依然堪憂。

質疑引熱議

這個研究如同一枚深水炸彈。

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

前不久曾撰文唱衰人工智能的的Filip Piekniewski,稱贊這篇論文是一個偉大的研究。他還把這個問題,稱為“元過拟合”(meta-overfitting)。他還批評機器學習這幾年隻關注幾個資料集,不關注現實情況。

俄勒岡州立大學教授Thomas G. Dietterich指出,不僅僅是CIFAR-10,所有的測試資料集都被研究者們很快搞得過拟合了。測試基準需要不斷有新的資料集注入。

“我在MNIST上也見過類似的情況。一個準确率達到99%的分類器,換一個全新的手寫資料集,立刻掉到90%。”OpenAI的研究員Yaroslav Bulatov說。

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

Keras作者François Chollet顯得更為激動。他說:“顯而易見的是,一大票目前的深度學習tricks都對知名的基準測試集過拟合了,包括CIFAR-10。至少從2015年以來,ImageNet也存在這個問題。”

如果你的論文,需要固定的驗證集,以及特定的方法、架構和超參數。那麼這個就不是驗證集,而是訓練集。這種特定的方法,也不一定能泛化到真實資料上。

深度學習的研究,很多時候使用了并不科學的方法。驗證集過拟合是一個值得注意的地方。其他問題還包括:基準太弱、實證結果不支援論文想法、大多數論文存在可重複性問題、結果後選等。

比方你參加Kaggle競賽時,如果隻根據驗證集(public leaderboard)資料來調整你的模型,那麼你在測試集(private leaderboard)隻會一直表現不佳。這在更廣泛的研究領域也是如此。

最後給一個非常簡單的建議,可以克服這些問題:使用高熵驗證過程,例如k-fold驗證,或者更進一步,使用帶shuffling的遞歸k-fold驗證。隻在最後用官方驗證集上檢查結果。

“當然,這樣做成本更高。但成本本身就是一個正則因子:它迫使你謹慎行動,而不是把一大坨面條扔到牆上,看最後哪根能粘住。”François Chollet說。

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

不止圖像分類

其實,這個過拟合的問題并不是隻出現在圖像分類研究上,其他模型同樣無法幸免。

今年年初,微軟亞洲研究院和阿裡巴巴的NLP團隊,在機器閱讀了解資料集SQuAD上的成績超越了人類。

當時,SQuAD閱讀了解水準測試的主辦方,斯坦福NLP小組就對自己的資料集産生了懷疑。他們轉發的一條Twitter說:

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

好像整個研究界都在這個資料集上過拟合了。

Google Brain研究員David Ha也說,很期待在文本和翻譯領域也有類似的研究,他說如果在PTB上也看到類似的結果,那可真是一個好消息,也許更好的泛化方法會被發現。 

論文

這篇論文的作者,包括來自UC Berkeley的Benjamin Recht、Rebecca Roelofs、Vaishaal Shankar,以及來自MIT的Ludwig Schmidt。

潑冷水:反思機器學習5年躍進(附論文)空口無憑,如何證明?質疑引熱議不止圖像分類論文

原文釋出時間為:2018-06-8本文來自雲栖社群合作夥伴“

資料派THU

”,了解相關資訊可以關注“

”。

繼續閱讀