深度學習的起源、發展和挑戰總結

編輯：Priscilla Emil

【導讀】2018圖靈獎獲得者Yoshua Bengio, Yann LeCun和Geoffrey Hinton再次受ACM邀請共聚一堂，共同回顧了深度學習的基本概念和一些突破性成果，講述了深度學習的起源、發展及未來的發展面臨的挑戰。

2018年，ACM（國際計算機學會）決定将計算機領域的最高獎項圖靈獎頒給Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton，以表彰他們在計算機深度學習領域的貢獻。

這也是圖靈獎第三次同時頒給三位獲獎者。

用于計算機深度學習的人工神經網絡在上世紀80年代就已經被提出，但是在當時科研界由于其缺乏理論支撐，且計算力算力有限，導緻其一直沒有得到相應的重視。

是這三巨頭一直在堅持使用深度學習的方法，并在相關領域進行了深入研究。通過實驗發現了許多驚人的成果，并為證明深度神經網絡的實際優勢做出了貢獻。

是以說他們是深度學習之父毫不誇張。

在AI界，當Yoshua Bengio、Yann LeCun 和 Geoffrey Hinton 這三位大神同時出場的時候，一定會有什麼大事發生。

最近，深度學習三巨頭受ACM通訊雜志之邀，共同針對深度學習的話題進行了一次深度專訪，提綱挈領地回顧了深度學習的基本概念、最新的進展，以及未來的挑戰。

廣大的AI開發者們，看了高人指點之後是不是對于未來之路更加明晰了？下面我們來看看他們都聊了些什麼。

深度學習的興起

在2000年代早期，深度學習引入的一些元素，讓更深層的網絡的訓練變得更加容易，也是以重新激發了神經網絡的研究。

GPU和大型資料集的可用性是深度學習的關鍵因素，也得到了具有自動區分功能、開源、靈活的軟體平台（如Theano、Torch、Caffe、TensorFlow等）的增強作用。訓練複雜的深度網絡、重新使用最新模型及其建構塊也變得更加容易。而更多層網絡的組合允許更複雜的非線性，在感覺任務中取得了意料之外的結果。

深度學習深在哪裡？有人認為，更深層次的神經網絡可能更加強大，而這種想法在現代深度學習技術出現之前就有了。但是，這樣的想法其實是由架構和訓練程式的不斷進步而得來的，并帶來了與深度學習興起相關的顯著進步。

更深層的網絡能夠更好地概括「輸入-輸出關系類型」，而這不僅隻是因為參數變多了。深度網絡通常比具有相同參數數量的淺層網絡具有更好的泛化能力。例如，時下流行的計算機視覺卷積網絡架構類别是ResNet系列，其中最常見的是ResNet-50，有50層。

圖源：知乎@臭鹹魚

深度網絡之是以能夠脫穎而出，是因為它利用了一種特定形式的組合性，其中一層的特征以多種不同的方式組合，這樣在下一層就能夠建立更多的抽象特征。

無監督的預訓練。當标記訓練示例的數量較小，執行任務所需的神經網絡的複雜性也較小時，能夠使用一些其他資訊源來建立特征檢測器層，再對這些具有有限标簽的特征檢測器進行微調。在遷移學習中，資訊源是另一種監督學習任務，具有大量标簽。但是也可以通過堆疊自動編碼器來建立多層特征檢測器，無需使用任何标簽。

線性整流單元的成功之謎。早期，深度網絡的成功，是因為使用了邏輯sigmoid非線性函數或與之密切相關的雙曲正切函數，對隐藏層進行無監督的預訓練。

長期以來，神經科學一直假設線性整流單元，并且已經在 RBM 和卷積神經網絡的某些變體中使用。讓人意想不到的是，人們驚喜地發現，非線性整流通過反向傳播和随機梯度下降，讓訓練深度網絡變得更加便捷，無需進行逐層預訓練。這是深度學習優于以往對象識别方法的技術進步之一。

語音和物體識别方面的突破。聲學模型将聲波轉換為音素片段的機率分布。Robinson、Morgan 等人分别使用了晶片機和DSP晶片，他們的嘗試均表明，如果有足夠的處理能力，神經網絡可以與最先進的聲學模組化技術相媲美。

2009年，兩位研究所學生使用 NVIDIA GPU ，證明了預訓練的深度神經網絡在 TIMIT 資料集上的表現略優于 SOTA。這一結果重新激起了神經網絡中幾個主要語音識别小組的興趣。2010 年，在不需要依賴說話者訓練的情況下，基本一緻的深度網絡能在大量詞彙語音識别方面擊敗了 SOTA 。2012 年，谷歌顯着改善了 Android 上的語音搜尋。這是深度學習颠覆性力量的早期證明。

大約在同一時間，深度學習在 2012 年 ImageNet 競賽中取得了戲劇性的勝利，在識别自然圖像中的一千種不同類别的物體時，其錯誤率幾乎減半。這場勝利的關鍵在于，李飛飛及其合作者為訓練集收集了超過一百萬張帶标簽的圖像，以及Alex Krizhevsky 對多個 GPU 的高效使用。

深度卷積神經網絡具有新穎性，例如，ReLU能加快學習，dropout能防止過度拟合，但它基本上隻是一種前饋卷積神經網絡，Yann LeCun 和合作者多年來一直都在研究。

計算機視覺社群對這一突破的反應令人欽佩。證明卷積神經網絡優越性的證據無可争議，社群很快就放棄了以前的手工設計方法，轉而使用深度學習。

深度學習近期的主要成就

三位大神選擇性地讨論了深度學習的一些最新進展，如軟注意力（soft attention）和Transformer 架構。

深度學習的一個重大發展，尤其是在順序處理方面，是乘法互動的使用，尤其是軟注意力的形式。這是對神經網絡工具箱的變革性補充，因為它将神經網絡從純粹的矢量轉換機器，轉變為能夠動态選擇對哪些輸入進行操作的架構，并且将資訊存儲在關聯存儲器中。這種架構的關鍵特性是，它們能有效地對不同類型的資料結構進行操作。

軟注意力可用于某一層的子產品，可以動态選擇它們來自前一層的哪些向量，進而組合，計算輸出。這可以使輸出獨立于輸入的呈現順序（将它們視為一組），或者利用不同輸入之間的關系（将它們視為圖形）。

Transformer 架構已經成為許多應用中的主導架構，它堆疊了許多層“self-attention”子產品。同一層中對每個子產品使用标量積來計算其查詢向量與該層中其他子產品的關鍵向量之間的比對。比對被歸一化為總和1，然後使用産生的标量系數來形成前一層中其他子產品産生的值向量的凸組合。結果向量形成下一計算階段的子產品的輸入。

子產品可以是多向的，以便每個子產品計算幾個不同的查詢、鍵和值向量，進而使每個子產品有可能有幾個不同的輸入，每個輸入都以不同的方式從前一階段的子產品中選擇。在此操作中，子產品的順序和數量無關緊要，是以可以對向量集進行操作，而不是像傳統神經網絡中那樣對單個向量進行操作。例如，語言翻譯系統在輸出的句子中生成一個單詞時，可以選擇關注輸入句子中對應的一組單詞，與其在文本中的位置無關。

未來的挑戰

深度學習的重要性以及适用性在不斷地被驗證，并且正在被越來越多的領域采用。對于深度學習而言，提升它的性能表現有簡單直接的辦法——提升模型規模。

通過更多的資料和計算，它通常就會變得更聰明。比如有1750億參數的GPT-3大模型（但相比人腦中的神經元突觸而言仍是一個小數目）相比隻有15億參數的GPT-2而言就取得了顯著的提升。

但是三巨頭在讨論中也透露到，對于深度學習而言仍然存在着靠提升參數模型和計算無法解決的缺陷。

比如說與人類的學習過程而言，如今的機器學習仍然需要在以下幾個方向取得突破：

1、監督學習需要太多的資料标注，而無模型強化學習又需要太多試錯。對于人類而言，像要學習某項技能肯定不需要這麼多的練習。

2、如今的系統對于分布變化适應的魯棒性比人類差的太遠，人類隻需要幾個範例，就能夠快速适應類似的變化。

3、如今的深度學習對于感覺而言無疑是最為成功的，也就是所謂的系統1類任務，如何通過深度學習進行系統2類任務，則需要審慎的通用步驟。在這方面的研究令人期待。

在早期，機器學習的理論學家們始終關注于獨立相似分布假設，也就是說測試模型與訓練模型服從相同的分布。而不幸的是，在現實世界中這種假設并不成立：比如說由于各種代理的行為給世界帶來的變化，就會引發不平穩性；又比如說總要有新事物去學習和發現的學習代理，其智力的界限就在不斷提升。

是以現實往往是即便如今最厲害的人工智能，從實驗室投入到實際應用中時，其性能仍然會大打折扣。

是以三位大神對于深度學習未來的重要期待之一，就是當分布發生變化時能夠迅速适應并提升魯棒性（所謂的不依賴于分布的泛化學習），進而在面對新的學習任務時能夠降低樣本數量。

如今的監督式學習系統相比人類而言，在學習新事物的時候需要更多的事例，而對于無模型強化學習而言，這樣的情況更加糟糕——因為相比标注的資料而言，獎勵機制能夠回報的資訊太少了。

是以，我們該如何設計一套全新的機械學習系統，能夠面對分布變化時具備更好的适應性呢？

從同質層到代表實體的神經元組

如今的證據顯示，相鄰的神經元組可能代表了更進階别的向量單元，不僅能夠傳遞标量，而且能夠傳遞一組坐标值。這樣的想法正是膠囊架構的核心，在單元中的元素與一個向量相關聯，從中可以讀取關鍵向量、數值向量（有時也可能是一個查詢向量）。

适應多個時間尺度

大多數神經網絡隻有兩個時間尺度：權重在許多示例中适應得非常慢，而行為卻在每個新輸入中對于變化适應得非常快速。通過添加快速适應和快速衰減的“快速權重”的疊加層，則會讓計算機具備非常有趣的新能力。

尤其是它建立了一個高容量的短期存儲，可以允許神經網絡執行真正的遞歸，，其中相同的神經元可以在遞歸調用中重複使用，因為它們在更進階别調用中的活動向量可以重建稍後使用快速權重中的資訊。

多時間尺度适應的功能在元學習（meta-learning）中正在逐漸被采納。

更高層次的認知

在考慮新的任務時，例如在具有不一樣的交通規則的城市中駕駛，甚至想象在月球上駕駛車輛時，我們可以利用我們已經掌握的知識和通用技能，并以新的方式動态地重新組合它們。

但是當我們采用已知的知識來适應一個新的設定時，如何避免已知知識對于新任務帶來的噪音幹擾？開始步驟可以采用Transformer架構和複發獨立機制Recurrent Independent Mechanisms）。

對于系統1的處理能力允許我們在計劃或者推測時猜測潛在的好處或者危險。但是在更進階的系統級别上，可能就需要AlphaGo的蒙特卡羅樹搜尋的價值函數了。

機械學習依賴于歸納偏差或者先驗經驗，以鼓勵在關于世界假設的相容方向上學習。系統2處理處理的性質和他們認知的神經科學理論，提出了幾個這樣的歸納偏差和架構，可以來設計更加新穎的深度學習系統。那麼如何訓練神經網絡，能夠讓它們發現這個世界潛在的一些因果屬性呢？

在20世紀提出的幾個代表性的AI研究項目為我們指出了哪些研究方向？顯然，這些AI項目都想要實作系統2的能力，比如推理能力、将知識能夠迅速分解為簡單的計算機運算步驟，并且能夠控制抽象變量或者示例。這也是未來AI技術前進的重要方向。

聽完三位的探讨，大家是不是覺得在AI之路上，光明無限呢？

參考資料：

深度學習的起源、發展和挑戰總結

編輯：Priscilla Emil

【導讀】2018圖靈獎獲得者Yoshua Bengio, Yann LeCun和Geoffrey Hinton再次受ACM邀請共聚一堂，共同回顧了深度學習的基本概念和一些突破性成果，講述了深度學習的起源、發展及未來的發展面臨的挑戰。

未來的挑戰

繼續閱讀

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

通俗了解查準率(precision)和查全率(recall)

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

人工智能如何有效地運用于自然語言處理

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

深度學習的起源、發展和挑戰總結

編輯：Priscilla Emil

【導讀】​2018圖靈獎獲得者Yoshua Bengio, Yann LeCun和Geoffrey Hinton再次受ACM邀請共聚一堂，共同回顧了深度學習的基本概念和一些突破性成果，講述了深度學習的起源、發展及未來的發展面臨的挑戰。

未來的挑戰​

繼續閱讀

【導讀】2018圖靈獎獲得者Yoshua Bengio, Yann LeCun和Geoffrey Hinton再次受ACM邀請共聚一堂，共同回顧了深度學習的基本概念和一些突破性成果，講述了深度學習的起源、發展及未來的發展面臨的挑戰。

未來的挑戰