天天看點

《中國人工智能學會通訊》——6.26 走向深度

6.26 走向深度

在實際應用層面上,十年前出現的一些特定創新讓深度學習成為可能,那時,人們對人工智能和神經網絡的興趣已經降到了數十年來的最低點。一個由政府和私人捐助者資助的加拿大組織加拿大高等研究院(CIFAR)通過贊助一個由多倫多大學的Georey Hinton上司的項目重新點燃了人們的興趣。該項目成員還包括紐約大學的 Yann LeCun、斯坦福大學的吳恩達、加州大學伯克利分校的 BrunoOlshausen、我和其他一些人。那時候,人們對這一領域的消極态度使發表論文,甚至說服研究所學生從事這方面的研究都很困難,但我們幾個人強烈地認為向前邁進是很重要的。

那時候,人們對神經網絡持懷疑态度的部分原因是人們相信訓練它們是毫無希望的,因為,在優化它們的行為方式上存在着許多挑戰。優化(optimization)是數學的一個分支,其作用是嘗試尋找實作某個數學目标的參數配置。在神經網絡中,這些參數被稱為突觸權重(synaptic weight),代表了一個信号被從一個神經元發送至另一個神經元的強度。

其目的是得出錯誤量最小的預測。當參數和目标之間的關系足夠簡單時——當目标是參數的一個的凸函數時,更為精确——參數可以逐漸得到調整。然後,持續調整直到得到能産出盡可能好的選擇的參數值;這個最好的選擇被稱為全局極小值(globalminimum)——其對應于網絡做出的最低可能的平均預測誤差。

然而,在一般情況下,訓練神經網絡并非那麼簡單——并且需要所謂的非凸優化(nonconvexoptimization)。這種類型的優化帶來了更大的挑戰——而且許多研究者相信這個障礙是不可逾越的。學習算法會受限于所謂的局部極小值(localminimum),在這種情況中,它不能通過稍微調整參數來減少預測誤差。

直到去年,神經網絡因為局部極小值而難以訓練的迷思才被解決。在我們的研究中,我們發現當一個神經網絡足夠大時,局部極小值問題會大大減少。大部分局部極小值實際上都對應于在某個水準上學到的知識——該水準與全局極小值的最優值基本上是比對的。

盡管理論上,優化的理論難題可以得到解決,但是,建構超過兩層或三層的大型網絡通常以失敗告終。2005年年初,CIFAR 支援下的努力取得突破,成功克服了這些障礙。2006 年,我們使用一種層上疊層的技術成功訓練了更深度的神經網絡。

後來,在 2011 年,我們發現了一種更好的方法以用于訓練更深度的網絡——有更多虛拟神經元層的方法——通過修改每個這些處理單元所進行的計算,讓它們更像是生物神經元實際上所進行的計算。我們也發現,在訓練中将随機噪聲注入神經元之間傳遞的信号(類似于大腦中的情況)能讓它們更好地學習正确地識别圖像或聲音。

有兩個關鍵技術幫助實作了深度學習技術的成功。一是最初為視訊遊戲設計的圖形處理單元讓計算速度直接提升了 10 倍,這樣,我們就可以在一個合理時間内訓練更大網絡。另一個助力深度學習增長的因素是可以接觸到大型有标簽資料集,讓學習算法可以識别正确的答案——比如,當識别貓隻是其中一個元素的圖檔時,就可以識别正确答案——“貓”。

深度學習近來成功的另一個原因在于其學習執行計算序列的能力——這些計算序列一步一步對圖像、聲音或其它資料進行建構或分析。網絡的深度即是這些步驟的數量。人工智能擅長的許多視覺或聽覺識别任務都需要很多層的深度網絡。事實上,在最近的理論和實驗研究中,我們實際上已經證明,在沒有足夠深度網絡的情況下,這些數學運算中的一部分無法得以有效執行。

深度神經網絡中的每一層都會轉換其輸入并生成一個被發送到下一層的輸出。該網絡的更深度層代表了更為抽象的概念(見上述框圖),這也更遠離最初的原始感官輸入。實驗表明,網絡中更深度層中的人工神經元往往對應于更抽象的語義概念:比如一個視覺物體,如一張桌子。對桌子圖像的識别可能會從更深層上神經元的進行中湧現,即使「桌子」的概念并不位于網絡接受過訓練的分類标簽中。而且桌子概念本身可能隻是建立更抽象概念的一個中間步驟,這個更抽象的概念位于可能被網絡分類為“辦公室場景”的這類更為深度的層級上。

繼續閱讀