Keras之父：大多數深度學習論文都是垃圾，炒作AI危害很大

近日，François Chollet接受了采訪，就“深度學習到底是什麼”、“Python為何如此廣受歡迎”、“目前深度學習面臨的主要挑戰”等議題進行了回答。他認為，目前很多深度學習領域的論文都是無意義的，因為這些研究使用了不科學、不規範的研究方法。以下是采訪全文編譯。

關于本人

問：您主要的工作内容是什麼？

答：我在谷歌大腦團隊工作，花了很多時間開發Keras。我也參加TensorFlow的工作。最近我主要在寫機器學習、計算機視覺、将深度學習應用于定理證明等方面的論文。我的主要研究興趣是了解AI中的抽象和推理問題，如何從感覺得到抽象的、高度概括的模型。

深度學習的本質、挑戰、和未來

問：深度學習到底是什麼？

答：深度學習是機器學習的一種具體方法。與以前的方法相比，它更加強大和靈活。在大多數應用程式中，我們所說的“深度學習”是指一種把大量由人類注釋的資料轉換為以與人類相似的方式自動注釋新資料的軟體。您可以通過這種方式自動完成很多不同的任務。深度學習尤其擅長了解“感覺”資料，如圖像、視訊或聲音。

我來舉例說明。假設有很多圖檔都帶有相關聯标簽（如“貓”、“狗”）。深度學習可以讓你自動将資料轉換到一個“了解”如何把圖檔映射到标簽的系統，隻需從示例中學習，無需任何手動調整或自定義工程。然後這種系統可以被應用到新的資料，将标記圖檔任務有效自動化。

同樣，你可以将深度學習應用于機器翻譯、語音識别、文本到語音轉換，光學字元識别等問題。

問：深度學習社群現在面臨的主要挑戰是什麼？

答：打擊炒作、發展倫理意識、獲得科學嚴謹性。

炒作：對人工智能的大肆炒作正在危害這個領域。一些人正荒謬地誇大目前AI取得的進展，還說人工智能已把人類逼到了絕境。但事實并非如此。如果我們把目标設得極高，卻又不能實作，就是逼着公衆站在我們的對立面上。而且，炒作AI這件事，本質上是不誠實的，對公衆讨論也産生了危害。

倫理：現在部署人工智能系統的大多數人來自單一背景，他們往往沒有意識到自己所建構的系統給人們帶來了道德影響和副作用。這将成為一個問題，因為這個群體所擁有的權力會越來越大。我們需要更多地讨論這些問題，并提高人們對不道德使用AI的潛在行為的覺察力，例如具有偏見性的預測模型會影響公衆生活，或以危險的方式操縱AI。

科學：每天都有大量的深度學習論文發表，其中大多數并沒有真正産生任何有意義的新知識，因為這些論文沒有遵循科學的研究方法。他們以模糊的方式“評估”模型，或者在他們的訓練資料上測試過度拟合模型（尤其是生成模型和強化學習，這是深度學習研究中發展最快的兩個主題），僅在MNIST上評估模型等。深度學習簡直是科學的重災區。同行評審通常不會以有意義的方式解決這些問題，也許部分原因是大多數同行評審員進入這個領域最多才一兩年。如果想要取得更快的進展，那麼當涉及研究可重複性、基線、模型評估和統計顯著性時，我們需要更加嚴謹。我們目前的激勵機制是與科學相對立的：發表論文是被鼓勵的。如果你的研究聽起來既複雜又神秘，很難被正确評估研究重要性，那麼發表論文就容易多了。

問：你認為深度學習的未來是什麼？

答：我期望AI未來能把“直覺的”模式識别子產品與正式推理子產品相結合。我也希望AI能夠演變得更像自動化軟體開發的形式，借用目前軟體工程中的很多模式和實踐。

寫書動機

問：你出版了一本新書《Python深度學習》。為什麼要寫這本書呢？

答：寫這本書的原因是，我想推出一個課程，來教那些已有Python程式設計能力，但沒有機器學習背景的人。

Python為何廣受歡迎

問：Python應該是目前發展最快的程式設計語言，至少在高收入國家是這樣。為什麼Python如此受歡迎？

答：我愛Python。學習Python很容易上手，當你習慣使用它之後，會越來越高效。與我使用過的大多數其他語言相比，Python非常直覺和優雅。但是Python真正的殺手锏并不在于語言本身，而是周圍的生态系統和社群。無論你需要做什麼，比如解析特定的檔案格式或與特定系統連接配接，幾乎有一個Python庫在做這件事，你不必花時間去做。在資料科學和機器學習方面尤其如此，有很多很棒的工具：numpy，pandas，scikit-learn，plotting libraries等，這使得Python成為一種非常高效的語言。

我喜歡Python的另一個原因是，它并不是一個領域特定的語言，而是多領域的交叉點，從網站開發到資料科學和系統管理。這意味着無需切換到新語言來将Keras模型部署為Web API。無論你需要做什麼，無論是啟動一個web應用程式，查詢一個REST API，還是解析一些檔案，訓練最先進的深度學習模型，Python通常都會是一個很好的選擇。

給初學者的建議

問：有些聲音認為進入機器學習有壁壘。您如何看待？

答：我不同意。在過去的5年中，進入機器學習領域變得非常容易。當然，5-7年前這很艱難。你可能需要研究所學生教育。你需要用C ++或Matlab來編寫大量的低級算法。我經曆過這些。而現在不一樣了。你隻需要Python，很容易上手，你有權限通路進階和易于使用的工具（如Keras）。另外，你可以在網上學到很多非常高品質的資源，你可以在Kaggle上練習現實世界的問題。學習從未如此簡單。

問：對于初學者來說，最重要的是什麼？

答：最重要的是要深刻了解深度學習能做什麼，不能做什麼。去感受一些best practice，比如如何正确評估模型，如何防止過度拟合。這需要把正式解釋（formal explanations）和對現實問題的廣泛實踐結合起來。

原文釋出時間為：2017-12-20

本文作者：常佩琦

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

Keras之父：大多數深度學習論文都是垃圾，炒作AI危害很大

繼續閱讀

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

Small tricks

libsvm for python 安裝

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

無人機--飛控科普

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入