Facebook人工智能實驗室負責人講深度學習

注：國外媒體發表文章對facebook人工智能實驗室負責人伊恩•勒坤(yann lecun)進行評述，文章談及勒坤所研究的卷積神經網絡對人工智能産生深遠影響，潛力不容小觑。此外還介紹了他開發的書寫數字識别系統lenets以及他對反向傳播算法的研究成果，并對深度學習的前景進行評析。

以下為文章主要内容：

馬克•紮克伯格精心挑選了深度學習專家伊恩•勒坤擔任facebook人工智能實驗室的負責人。該實驗室于去年年底成立。作為紐約大學任教已久的教授，伊恩•勒坤對深度學習（deep learning）的研究成績斐然，在ieee世界計算智能大會中榮獲神經網絡先鋒獎。深度學習，作為人工智能的一種形式，旨在更密切地模仿人類大腦。最初，大多數人工智能研究人員公開表态對深度學習嗤之以鼻，但短短幾年後，它卻突然在整個高科技領域蔓延開來，橫跨谷歌、微軟、百度再至twitter。

這些高科技公司正在探索深度學習的一種特殊形态——卷積神經網絡，旨在打造可以自動了解自然語言以及識别圖像的web服務。谷歌android手機的語音識别系統就是基于神經網絡而開發的。百度利用神經網絡對一種新型的可視化搜尋引擎進行研發。研究深度學習的學者不在少數，但它獲得成功，勒坤功不可沒。微軟的機器學習專家萊昂•伯托（leon bottou）早期曾與勒坤合作。

“對于可視化卷積神經網絡，勒坤的付出遠甚于他人。”

面臨巨大懷疑，勒坤仍然力挺神經網絡。要讓神經網絡正常運作需要功能強大的計算機和龐大的資料集，但上世紀80年代勒坤剛剛接觸這一全新領域時，卻不具備這些支援條件。當時剛剛步入計算機時代，科學家們對人工智能報以熱切的期望，但神經網絡受限于那時的條件，無力滿足科學家的願景，因而不被看好。要想在權威學術期刊發表與神經網絡相關的文章困難重重。時至90年代乃至21世紀初，這一狀況依舊沒有得到改善。

但勒坤仍然堅持不懈。終于，如今電腦技術大邁步向前，為深度學習提供了必要的技術支援，其潛力亦得以開發。

勒坤的lenets

在加入facebook之前的二十多年，勒坤在貝爾實驗室中工作，這段時間内，他研發出了一個可以識别手寫數字的系統，并稱之為lenet。貝爾實驗室作為世界上最著名的計算機研究實驗室，是半導體、unix作業系統和c語言的發源地。

lenet能夠自動讀取銀行支票，它标志着卷積神經網絡首次被應用于實踐中。伯托表示，“卷積網絡原本像是個小玩具，勒坤将之應用于規模更廣的實際問題中。”

上個世紀70以及80年代，認知機（cognitron）和神經認知機(neocognitron)這些早期的神經網絡模型能夠自主學習從資料中識别圖形，并且無需人類的過多提示。但這類模型都相當複雜，研究人員無法完全弄清楚如何使它們運作無誤。

“當時缺少一種監督學習算法，現在我們稱之為反向傳播算法（back propagation）。這種算法能有效地使錯誤率最小化。”

卷積神經網絡

卷積網絡是由互相連通的卷積層組成，與大腦中處理視覺資訊的視覺皮層十分類似。卷積網絡的不同之處在于，它們可以重複使用一張圖像中多個位置的相同過濾器。舉例而言，一旦卷積網絡學會了在某個位置識别人臉，那麼它也可以自動在其他位置識别人臉。這種原理也适用于聲波和手寫文字。

百度研究院負責人吳恩達（andrew ng）認為，這使人工神經網絡能夠快速接受教育訓練。

“記憶體占用空間小，不需要對圖像中每個位置的過濾器進行單獨存儲，進而使神經網絡非常适合于建立可擴充的深網（deep nets）。這也令卷積神經網絡具有善于識别圖形的優點。”

當卷積神經網絡接收到圖像（即輸入）時，它将其轉換為代表特征的數字陣列，并對每個卷積層中“神經元”進行調整以識别數字中某些圖形。低級神經元能夠識别基本形狀，而進階神經元則能夠識别狗或人等更複雜的形态。每個卷積層與相鄰的層互通，當資訊在網絡中傳播時，就會得出平均值。最後，網絡通過猜測圖像中是什麼圖形進而得出輸出結果。

如果網絡出錯，工程師可以對層與層之間的連接配接進行微調，以便得到正确答案。而神經網絡能夠自主進行微調，因而更勝一籌。這時反向傳播算法就開始發揮作用了。

反向傳播算法

反向傳播算法的原理是計算誤差，并根據誤差對卷積層所接收的強度進行更新。上個世界80年代中期，david rumelhart、geoffrey hinton及ronald williams提出反向傳播算法，即同時為多重輸入計算誤差，并取平均值。然後通過網絡将平均誤差從輸出層到輸入層反向傳播。

勒坤對反向傳輸算法的構想與上述不同，他并未采取平均值，而是為每個樣本計算出誤差。他的這種方法成效不錯，速度更快。

據伯托透露，勒坤得出這一辦法，實際上是陰錯陽差的結果。當時的電腦不太給力。他們不得不想辦法，希望用盡可能少的電腦組態，盡可能快速地計算出誤差。這在當時似乎是蒙混過關的做法，但如今卻成為人工智能工具箱的重要部分。它就是随機梯度下降算法（stochastic gradient descent）。

勒坤的lenets已廣泛應用于世界各地的自動取款機和銀行，用以識别支票上的手寫字迹。但仍有人持懷疑态度。勒坤表示，“目前我們所獲得的進展還不足以說服計算機視覺領域承認卷積神經網絡的價值。”部分原因在于，雖然卷積神經網絡功能強大，但沒有人知道它為什麼這麼強大。目前還未能揭開這項技術謎一般的内在原理。

深度學習的前景

批評聲此起彼伏。支援向量機（support vector machine）的建立者兼數學家弗拉迪米爾•瓦普尼克（vladimir vapnik）也持批評立場。支援向量機是目前使用最廣泛的人工智能模型之一。

1995年3月的一個下午，瓦普尼克和拉裡•傑克爾（larry jackel，招募瓦普尼克和勒坤進入貝爾實驗室）兩人打了個賭。傑克爾認為，到2000年，深度人工神經網絡（deep artificial neural nets）的内在原理将明朗化。瓦普尼克則堅持将時限推後至2005年。他們還較真地把賭注内容寫在紙上，并在幾位見證人面前簽了名。勒坤和伯托當時都在場。

打賭雙方最終難解勝負。2000年，神經網絡的核心原理仍然籠罩在神秘面紗下，哪怕是現在，研究人員也無法用數學方法參透個中奧妙。2005年，深度神經網絡在自動取款機和銀行中獲得廣泛應用，雖然人們仍未能掌握核心原理，但勒坤在上個世紀80年代中期和90年代初的研究工作為深度神經網絡的解密奠定了重要根基。

“很少有某項技術能在問世20或25年後，雖然基本上未經改變，但在時間的考驗下被證明是最優異的。人們接受它的速度是驚人。我過去從未遇見過這樣的情況。”

目前使用最廣泛的卷積神經網絡幾乎完全依賴于監督學習（supervised learning）。這意味着，如果想讓神經網絡學會如何識别某一特定對象，就必須對幾個樣本進行标注。無監督學習（unsupervised learning）是指從未經标記的資料展開學習，這更接近人腦的學習方式。目前一些深度學習的研究者正在探索這一領域。

“我們對大腦如何學習幾近完全陌生。人們已經知道神經元突觸能夠自我調整，但我們對大腦皮層的機理尚不明确。我們知道最終答案是無監督學習，但卻無力解答。”

反向傳播算法不太可能展現出人類大腦的運作機理，是以研究者正在探索其他算法。此外，卷積網絡在收集資料或計算平均值時，效果并非十全十美，是以目前研究者也盡力做出改進。辛頓表示，“卷積網絡會丢失資訊。”

以人臉為例。系統如果學會識别眼睛和嘴唇之類的面部特征，便能有效地識别出圖像中有人臉，但無力分辨出不同面孔之間的差異。它也無法很好地找出眼睛在臉上的準确位置。高科技公司和政府想要建立有關使用者或居民詳盡的數字檔案，以上所提及的缺陷将成為無法回避的短闆。

勒坤的研究也許不算完美，但目前卻是這一領域的尖端理論。

原文釋出時間為：2014-08-17

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

Facebook人工智能實驗室負責人講深度學習

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希