天天看點

我的學習筆記——計算機深度學習的發展曆程(一)

作者:塵世迷途一懶人

1. 引言

在計算機科學的廣袤海洋中,深度學習猶如一顆明亮的星辰,閃爍着令人陶醉的光芒。它是人工智能的核心,也是智能系統的驅動力。深度學習的發展曆程承載了無數智慧與探索的印記,本文中對計算機深度學習的發展曆程做了一個簡單地探尋。

1.1 大事年表

l 1943年:心理學家沃倫·麥庫洛奇和數學家沃爾特·皮茨提出了一種稱為"神經元元模型"的概念。

l 1958年:感覺器模型的出現,是神經網絡的前身。

l 1965年:Backpropagation算法的發明,為深度學習提供了基礎。

l 1979年:發展了Boltzmann機,早期深度學習模型之一。

l 1986年:發展了多層感覺器(MLP)模型,進一步發展了深度學習。

l 1997年:Long Short-Term Memory (LSTM) 模型的發明,解決了深度學習中的長期依賴問題。同年,IBM的深藍超級電腦擊敗國際象棋世界冠軍。

l 2006年:Hinton等人發表了一篇論文,介紹了深度置信網絡(DBN)模型。

l 2012年:Alex Krizhevsky等人使用卷積神經網絡(CNN)獲得了ImageNet圖像識别競賽的勝利,證明了深度學習的潛力。

l 2014年:發展了生成對抗網絡(GANs),為計算機視覺等領域帶來了突破。

l 2015年:ResNet模型的發明,解決了深度學習中存在的梯度消失問題。

l 2016年:AlphaGo戰勝了世界圍棋冠軍,展示了深度學習模型在智能遊戲領域的可行性。

l 2017年:BERT模型的發明,使得自然語言處理領域的深度學習應用顯著提高。

l 2018年:OpenAI首次釋出了GPT模型的第一個版本,稱為GPT-1。

l 2019年:OpenAI釋出了GPT-2模型。

l 2020年:OpenAI釋出了GPT-3模型。

l 2022年底-2023年初:ChatGPT-3.5/GPT-4展示了強大的自然語言生成和任務完成能力。

2. 早期人工神經網絡研究

1.2 神經網絡的初步探索

早期的人工神經網絡研究可以追溯到上世紀四十年代。在那個時候,研究者們開始嘗試模拟人腦神經元的工作原理,以期能夠創造出能夠模拟人類智能的機器。1943年,心理學家沃倫·麥庫洛奇和數學家沃爾特·皮茨提出了一種稱為"神經元元模型"的概念,用于描述神經元之間的資訊傳遞和計算過程。

随着計算機科學的快速發展,人工神經網絡的研究逐漸取得了突破。1950年代到1960年代,科學家們開始建構簡單的神經網絡模型,并使用電子計算機進行模拟實驗。這些早期的神經網絡模型包括感覺機、自适應線性元件和自适應諧振器等。

1.3 限制與挑戰

早期的人工神經網絡在發展過程中面臨着一些限制和挑戰。這些限制和挑戰主要包括以下幾個方面:

1) 計算能力限制:在早期,計算機的處理能力相對較低,無法滿足大規模神經網絡的訓練和推理需求。這限制了神經網絡在處理複雜任務和大規模資料上的應用。

2) 資料規模不足:早期的神經網絡缺乏足夠的大規模資料來進行訓練。神經網絡的性能和泛化能力在很大程度上依賴于充足的資料,而當時擷取和處理大規模資料是一項挑戰。

3) 梯度消失問題:在早期的神經網絡中,深層網絡的訓練過程中存在梯度消失問題。當反向傳播算法傳遞梯度信号時,梯度逐漸減小并最終消失,導緻深層網絡難以訓練和優化。

4) 網絡結構限制:早期的神經網絡結構相對簡單,缺乏足夠的深度和複雜性。這限制了神經網絡對複雜問題和高維資料的模組化能力,導緻性能和效果的限制。

5) 缺乏理論支援:早期的神經網絡研究缺乏堅實的理論基礎,很多網絡結構和算法是基于經驗和實驗推導而得。這使得神經網絡的設計和優化變得相對困難。

3. 感覺器和多層感覺器

感覺器和多層感覺器是計算機深度學習中兩個重要的概念和技術。

3.1 Frank Rosenblatt與感覺器

感覺器是一種最簡單的人工神經元模型,它是早期神經網絡研究的基石。感覺器接收輸入信号,并通過權重和激活函數對輸入進行權重求和和非線性變換,輸出一個二進制值(通常是0或1)。感覺器的目标是通過學習适當的權重值,實作對輸入模式的分類和判别。感覺器的結構簡單,适用于解決一些線性可分問題。

Rosenblatt于1958年提出了感覺器模型,這是第一個被廣泛研究和應用的人工神經網絡模型。感覺器模型的提出,标志着神經網絡研究的重要突破。Rosenblatt的感覺器模型受到了生物神經元的啟發,它模拟了神經元的基本功能。感覺器由輸入層、權重和門檻值、激活函數和輸出層組成。輸入層接收外部輸入信号,權重和門檻值決定了輸入信号的權重和非線性變換,激活函數産生最終的輸出結果。Rosenblatt的研究還提出了感覺器學習規則,即感覺器可以通過調整權重和門檻值來自動學習和适應不同的輸入模式。他提出了一種稱為"感覺器規則"的訓練算法,根據輸入和期望輸出之間的誤差來更新權重和門檻值,以逐漸提高感覺器的準确性和性能。

感覺器模型的重要意義在于它展示了神經網絡的潛力,并為後續神經網絡研究奠定了基礎。盡管早期的感覺器模型在處理複雜問題上存在一些限制,但它為神經網絡的發展和深度學習的興起奠定了基礎,并成為了神經網絡研究的裡程碑之一。感覺器模型的提出和研究對于人工智能的發展産生了深遠的影響,為後續的神經網絡模型和算法的發展提供了重要的啟示。感覺器的思想和原理成為了許多後續神經網絡模型的基礎,并推動了人工智能領域的不斷進步和創新。

3.2 多層感覺器的突破

多層感覺器是一種基于感覺器的擴充,具有多個神經元層的結構。多層感覺器的每一層都由一組神經元組成,每個神經元都與上一層的神經元相連,并通過權重和激活函數進行計算。多層感覺器的每一層都可以看作是一種非線性特征提取器,通過逐層的計算和學習,實作了對輸入資料的複雜非線性映射和進階特征的提取。

在多層感覺器中,通常包括輸入層、隐藏層和輸出層。輸入層接收原始資料,隐藏層用于逐層處理和提取特征,輸出層産生最終的預測結果。每個神經元的輸出通過激活函數進行非線性變換,常見的激活函數包括Sigmoid、ReLU等。多層感覺器通過反向傳播算法來訓練網絡,通過調整權重值來最小化損失函數,進而提高預測的準确性和泛化能力。

多層感覺器具有較強的非線性模組化能力,能夠處理複雜的模式識别和分類任務。它在計算機視覺、自然語言處理、語音識别等領域取得了顯著的成果,并成為深度學習的重要組成部分。随着網絡層數的增加和結構的優化,多層感覺器不斷發展和演進,為解決更加複雜的問題提供了強大的工具和方法。

4. 深度學習的冬眠期

由于計算能力和資料限制,深度學習在20世紀90年代到2000年代初,進入了一個相對較低的發展階段。研究者們遇到了困難,深度學習的潛力無法完全發揮出來。許多人開始關注其他機器學習方法,并對深度學習持懷疑态度。

4.1 計算能力與資料限制

深度學習的發展曾經經曆了一個被稱為"冬眠期"的階段,在這個階段中,計算能力和資料限制成為了深度學習發展的主要限制因素。

1) 計算能力限制:在深度學習的早期階段,計算機的處理能力相對較低,無法滿足大規模神經網絡的訓練和推理需求。深度學習模型通常具有多層的結構,需要大量的計算資源進行模型的訓練和優化。然而,在計算能力受限的情況下,訓練一個複雜的深度學習模型變得非常耗時且困難。

2) 資料限制:深度學習模型的性能和泛化能力很大程度上依賴于充足的訓練資料。然而,在深度學習的早期,擷取和處理大規模資料是一項挑戰。缺乏足夠的資料限制了深度學習模型在現實世界任務中的表現和應用。此外,資料的品質和标注也是一個重要的問題,因為深度學習模型需要大量的高品質标注資料來進行有效的訓練。

4.2 傳統機器學習的崛起

深度學習的冬眠期中,傳統機器學習經曆了崛起和廣泛應用的階段。在計算能力和資料限制的情況下,傳統機器學習方法成為了主流,并在各個領域展示了強大的能力。

1) 特征工程的重要性:傳統機器學習方法在處理資料時通常需要進行手工設計特征,這被稱為特征工程。特征工程的目的是從原始資料中提取有用的特征,并将其輸入到機器學習模型中進行訓練和預測。這種方法的優勢在于可以根據問題的特點和領域知識來選擇和設計特征,進而提高模型的性能和解釋能力。

2) 機器學習算法的廣泛應用:在深度學習冬眠期中,傳統機器學習算法如支援向量機(SVM)、決策樹、随機森林等成為了研究和應用的熱點。這些算法在各個領域的資料分類、回歸、聚類等任務中取得了顯著的成果。它們具有較低的計算需求和模型複雜度,更适用于計算能力受限的環境。

3) 解釋性和可解釋性:傳統機器學習方法通常具有較好的解釋性和可解釋性,可以清晰地解釋模型的決策過程和結果。這對于一些關注模型解釋和可信度的應用場景非常重要,如金融、醫療等領域。相比之下,深度學習模型的黑盒性和複雜性使得其解釋性較差,難以直覺了解和解釋模型的決策依據。

=================未完續待=================

繼續閱讀