天天看點

Jeff Dean發文回顧:深度學習黃金十年

Jeff Dean發文回顧:深度學習黃金十年

新智元報道

編輯:LRS

【新智元導讀】最近Jeff Dean發表了一篇論文,回顧了深度學習高速發展的黃金十年,軟硬體發展是核心,并指出三個未來有潛力的研究方向:稀疏模型、AutoML和多任務訓練。

過去十年,由于神經網絡借助深度學習重新崛起,人工智能領域研究取得了空前的進展,計算機具有看到、聽到并了解世界的能力,AI算法的進步也讓其他科學領域的應用取得巨大進步。

谷歌AI的掌門人Jeff Dean最近寫了一篇文章,研究了AI迅速發展的原因,包括專門用于加速機器學習硬體的進步和開源軟體架構的問世,讓使用機器學習變得更加高效,也讓無數非從業者能夠輕松使用AI模型應用。

Jeff Dean發文回顧:深度學習黃金十年

文章中還對過去十年中機器學習的應用領域進行了廣泛的概述,并讨論了一些AI未來可能的發展方向。

這篇文章發表在了美國文理學會會刊 D dalus 的 AI 與社會(AI & Society)特刊上,内容為17頁,作者隻有Jeff Dean一人。

Jeff Dean發文回顧:深度學習黃金十年

文章連結:https://www.amacad.org/publication/golden-decade-deep-learning-computing-systems-applications

深度學習的黃金十年

人類一直夢想着能制造出一台「會思考」的機器。

1956年,在達特茅斯學院組織的一次研讨會上,約翰 · 麥卡錫提出「人工智能」概念,一群數學家和科學家聚集在一起,「尋找如何讓機器使用語言,形成抽象和概念,以解決人類現存的各種問題,并改進自己。」

Jeff Dean發文回顧:深度學習黃金十年

研讨會的參與者當時都樂觀地認為,幾個月集中的努力就能在這些問題上取得實際進展。

但幾個月就解決,實在是太樂觀了。

在接下來的50多年裡,各種人工智能系統方法層出不窮,包括基于邏輯、基于規則的專家系統和神經網絡。事實證明,對世界的邏輯規則進行編碼并使用這些規則的方法是無效的。

作為1990年的大學生,Jeff Dean表示他對神經網絡非常着迷,覺得它們似乎是創造智能機器的正确抽象,并确信人類需要的隻是更多的算力,使更大的神經網絡能夠處理更大、更有趣的問題。

是以他的大學論文就是關于神經網絡并行訓練的,當時就深信如果我們能用64個處理器來訓練一個神經網絡,那麼神經網絡就能解決更多現實中的任務。

但事實再一次證明,對于1990年的計算機來說,我們需要的是多100萬倍的計算能力才能取得一些進展。

直到 2011 年左右,人工智能才開始進入發展關鍵階段,到2021年的十年時間裡,我們離1956年那次會議提出的目标又進了一步。

軟硬結合的進步

在硬體方面,與通用的計算機程式不同的是,深度學習算法通常由構成少量線性代數運算的不同方式構成:如矩陣乘法、向量點積和類似運算。由于需要操作的指令很少,是以有可能制造出專門用于支援這類計算的計算機或加速器晶片。

在21世紀初,一些研究人員開始研究如何使用圖形處理單元(GPU)來實作深度學習算法。雖然最初設計用于繪制圖形,但研究人員發現,這些裝置也非常适合深度學習算法,因為與CPU相比,它們具有相對較高的浮點計算速率。

2004年,計算機科學家Kyong Su Oh和鄭基全Keechul Jung展示了一種使用GPU的神經網絡算法的近20倍改進。

2008年,計算機科學家Rajat Raina及其同僚證明,對于一些無監督學習算法,使用GPU與基于CPU的最佳實作相比,其速度提高了72.6倍。

Jeff Dean發文回顧:深度學習黃金十年

後來專用于AI加速的子產品、晶片陸續開發出來,例如谷歌的TPU,以8位浮點計算為目标,專門用于深度學習推理,将硬體每瓦特的速度和性能都提高了一到兩個數量級。之後的TPU系統由更大規模的晶片構成,通過高速定制的網絡将彼此連接配接起來,形成POD和大型超級計算機。

随着深度學習方法開始在圖像識别、語音識别和語言了解方面顯示出巨大的改進,随着計算密集型模型(在更大的資料集上訓練)繼續顯示出改進的結果,機器學習領域真正「起飛了」。

有了硬體,計算機系統設計師開始開發軟體架構,将深度學習模型擴充到計算更密集、複雜的領域。

Jeff Dean發文回顧:深度學習黃金十年

早期的一種方法是使用大規模分布式系統來訓練單一的深度學習模型。谷歌的研究人員開發了DistBelide架構可以使用大規模分布式系統來訓練單個神經網絡,該模型比以前的神經網絡大兩個數量級。可以在YouTube視訊中的大量随機幀上進行訓練,通過一個大型網絡和足夠的計算和訓練資料,它證明了模型中的單個人工神經元(神經網絡的建構塊)将學會識别人臉或貓等進階概念,盡管除了原始圖像的像素外,從未獲得任何關于這些概念的資訊。

谷歌在 2015 年開發、開源的 TensorFlow,能夠表達機器學習計算,并結合了 Theano 和 DistBelief 等早期架構的想法。到目前為止,TensorFlow 已被下載下傳超過 5000 萬次,是世界上最受歡迎的開源軟體包之一。

TensorFlow 釋出的一年後,PyTorch 于 2016 年釋出,使用 Python 可以輕松表達各種研究思想而受到研究人員的歡迎。

JAX 于 2018 年釋出,這是一個流行的面向 Python 的開源庫,結合了複雜的自動微分和底層 XLA 編譯器,TensorFlow 也使用它來有效地将機器學習計算映射到各種不同類型的硬體上。

TensorFlow 和 PyTorch 等開源機器學習庫和工具的重要性毋庸置疑,它們讓研究人員可以快速嘗試想法。

随着世界各地的研究人員和工程師更輕松地在彼此的工作基礎上進行建構,整個領域的進展速度也會加快!

機器學習的未來

Jeff Dean在論文中指出了機器學習研究社群正在興起的研究領域,如果将他們結合起來的話,可能會産生一些有價值的結果。

1、稀疏激活模型,比如稀疏門控專家混合模型(sparsely-gated mixture of expertsE)展示了如何建構非常大容量的模型,其中對于任何給定的執行個體隻有一部分模型被激活,比如包括2048個專家,其中激活2-3個。

2、自動化機器學習(AutoML),其中神經架構搜尋(NAS)或進化架構搜尋(EAS)等技術可以自動學習 ML 模型或元件的高效結構或其他方面以對給定任務的準确率進行優化。AutoML 通常涉及運作很多自動化實驗,每個實驗都可能包含巨量計算。

3、多任務訓練,将幾個到幾十個相關任務的适當規模同時訓練,或者從針對相關任務的大量資料訓練的模型中遷移學習然後針對新任務在少量資料上進行微調,這些方式已被證明在解決各類問題時都非常有效。

一個非常有趣的研究方向是把以上三個趨勢結合起來,其中在大規模 ML 加速器硬體上運作一個系統。目标是訓練一個可以執行數千乃至數百個任務的單一模型。這種模型可能由很多不同結構的元件組成,執行個體(example)之間的資料流在逐執行個體的基礎上是相對動态的。模型可能會使用稀疏門控專家混合和學習路由等技術以生成一個非常大容量的模型,但其中一個任務或執行個體僅稀疏激活系統中總元件的一小部分。

每個元件本身可能正在運作一些類 AutoML 的架構搜尋,以使元件的結構适應路由到它的資料類型。新的任務可以利用在其他任務上訓練的元件,隻要它有用就行。Jeff Dean 希望通過非常大規模的多任務學習、共享元件和學習路由,模型可以迅速地以高準确率來完成新任務,即使每個新任務的新執行個體相對較少。原因在于模型能夠利用它在完成其他相關任務時已經獲得的專業知識和内部表示。

建構一個能夠處理數百萬任務并學習自動完成新任務的單一機器學習是人工智能和計算機系統工程領域真正面臨的巨大挑戰。這需要機器學習算法、負責任的 AI(如公平性和可解釋性)、分布式系統和計算機架構等很多領域的專業知識,進而通過建構一個能夠泛化以在機器學習所有應用領域中獨立解決新任務的系統,來推動人工智能領域的發展。

2010以來的十年确實堪稱深度學習研究的黃金十年,1956年達特茅斯會議上提出的問題接連被攻克,在效果上,已經達到了機器能夠看到、聽到和了解世界的程度。有了AI,人類将繼續創造更複雜、更強大且對日常生活有幫助的深度學習模型。得益于深度學習強大的創造力,人類的未來也充滿了更多可能性。

參考資料:

https://www.amacad.org/publication/golden-decade-deep-learning-computing-systems-applications

繼續閱讀