天天看點

深度學習的興起:從NN到DNN | 小白深度學習入門神經網絡的曆史沿革

神經網絡的曆史沿革

深度學習的興起:從NN到DNN | 小白深度學習入門神經網絡的曆史沿革

緣起

1943年,神經生理學家和神經元解剖學家 Warren McCulloch 和數學家 Walter Pitts 提出了神經元的數學描述和結構,并且證明了隻要有足夠的簡單神經元,在它們互相連接配接并同步運作的情況下,可以模拟任何計算函數。

這樣開創性的工作被認為是 NN 的起點。

幾度興衰

1958年,計算機學家 Frank Rosenblatt 提出了一種具有三級結構的 NN,稱為“感覺機”(Perceptron)。它實際上是一種二進制線性分類器,可以被看作一種單層 NN(參見下圖)。

深度學習的興起:從NN到DNN | 小白深度學習入門神經網絡的曆史沿革

Rosenblatt 還給出了相應的感覺機學習算法。

盡管結構簡單,感覺機能夠學習并解決相當複雜的問題,在60年代掀起了 NN 研究的第一次熱潮。很多人都認為隻要使用成千上萬的神經元,他們就能解決一切問題。

這股熱潮持續了10年,終于因為感覺機的作用終歸有限(比如它不能處理線性不可分問題),在實踐中無法産生實際的價值,而導緻了 NN 發展的第一次低潮期。

直到80年代,NN 的研究才開始複蘇。

1986年,David Rumelhart、Geoffrey Hinton 和 Ronald Williams 将反向傳播算法用于多層 NN 的訓練,帶來了 NN 的第二春。

然而,訓練 NN,最開始都是随機初始化權值。當 NN 的層數稍多之後,随機的初始值很可能導緻反複疊代仍不收斂——根本訓練不出來可用的 NN。

進一步的研究和實際應用都受阻。

基于統計的學習模型有嚴格的理論基礎,可以在數學上嚴格地被證明為是凸優化問題。特别是在 SVM/SVR 出現後,用統計學習模型執行複雜任務也能得到不錯的結果。

而 NN 缺少數學理論支援——它的優化過程不是凸優化,根本不能從數學原理上證明最優解的存在;就算訓練出了結果,也無法解釋自己為什麼有效;在實際運用的效果又不夠好。

如此種種,NN 研究進入第二次低谷。此後十幾年的時間裡,大多數研究人員都放棄了 NN。

從 NN 到 DNN

Hinton 卻矢志不渝地堅持着對 NN 的研究。終于在2006年迎來了劃時代的成果。這一年,Hinton 發表了經典論文“Reducing the Dimensionality of Data with Neural Networks”。

這篇論文提出了預訓練(Pre-training)的方法(可以簡單地想象成是“一層一層”地訓練),分層初始化,使得深層神經網絡(Deep Neural Network,DNN)的訓練變得可能——訓練 NN 不必再局限在很少的一兩層,四五層甚至八九層都成為了可能。

由此,NN 重新回到大衆的視線中,從此 NN 進入了 DNN 時代。

深度神經網絡(Deep Neural Network, DNN)

DNN就是深度的NN,也就是層數比較多的NN。

深度學習的興起:從NN到DNN | 小白深度學習入門神經網絡的曆史沿革

在早期,超過三層的NN就可以算DNN了,八九層的NN就是可以投入實際應用了。不過,很快,DNN的層數就發展到了一百多層。

深度學習(Deep Learning)

我們說的深度學習一詞,其實在30多年前就已經被提出來了。Rina Dechter 在1986年的論文中就提到了“ Shallow Learning”和“Deep Learning”。不過直到2000年,這個說法才被引入到 NN 領域。

現在我們說的深度學習指利用多層串聯的非線性處理單元,進行特征提取和轉化的機器學習算法。其結構中的不同層級對應于不同程度的資料抽象。

DNN 就是一種典型的深度學習模型。其他的,像 CNN、RNN、LSTM 等,都屬于這一領域。

如今,深度學習被看作是通向人工智能的重要一步,也是人工智能實作技術中的熱門。