天天看點

從2019 AI頂會最佳論文,看深度學習的理論基礎

如果能有一種理論告訴我們什麼樣的模型架構、運算方式能最好地表示某種資料,什麼樣的損失函數、疊代方式能最高效地學習到某種能力,什麼樣的設定又使這種能力能處理各種意外情況。那麼,這樣的深度學習,乃至機器學習,才是理論基礎圓潤的大學科。

令人驚喜的是,我們可以看到近來很多前沿研究都越來越系統,越來越有洞見。最明顯的是近年舉行的 AI 頂會,我們可以看到很多獲獎論文都嘗試從更基礎、更深刻的角度為 DL 打下地基。本文将從 2019 年人工智能頂會的獲獎論文出發,為你介紹深度學習的理論基礎到底是什麼樣的,目前又有哪些新發現。

從2019 AI頂會最佳論文,看深度學習的理論基礎

數學基礎 ≠ 理論基礎

在入門深度學習的過程中,我們經常會聽到各種數學名詞,線性代數和矩陣微分、機率論與随機過程,似乎要想了解各種模型,首先必須了解這些數學概念。那麼這些數學描述不正是深度學習的「理論基礎」嗎?

這裡我們需要明确的是,數學是一種語言、一種工具,使用它描述深度學習并不一定等于建構 DL 的理論基礎。這是一種數學基礎,而不是整理領域的理論基礎。很多深度模型确實都是從數學推導出發,然後得出某些很好的性質,但這隻能說明模型是有理論保證的,它們并不能組成深度學習的理論基礎。

比如說圖卷積網絡或變分自編碼器,它們最開始都是從數學的角度推導某些性質,後來才根據這樣的性質建構整個模型。我們可以說這些模型的理論基礎非常堅實,如果我們需要了解它們,同樣也需要對應的數學基礎。此外,在實際模組化時,我們并不一定完全遵循理論推導,可以稍微修改以獲得更強的計算效果。

從2019 AI頂會最佳論文,看深度學習的理論基礎

在深度學習中,有很多模型的數學推導都非常優美。也有很多模型從實驗與直覺概念出發,描述整個學習過程的數學表達。它們都非常重要,但并不能解決深度學習最基本的疑問:為什麼深度模型能夠高效學習?為什麼深度模型要比淺層模型的性質好?為什麼深度學習泛化性也不錯?

就像上個世紀初發現各種量子現象與解釋,實體大時代艱難地尋求統一的「量子力學」。現在深度學習也有各種非常高效的模型,各種驚豔的結構,我們也許也需要一種統一的底層理論架構。

DL 的理論基礎知多少

談到深度學習的理論基礎,可能讀者首先想到的就是通用近似定理(Universal approximation theorem),其表示擁有無限神經元的單層前饋網絡能逼近緊緻實數子集上的任意連續函數。通俗來說,隻要神經元足夠多,單層前饋神經網絡「有潛力」逼近任意複雜的連續函數。

在 1989 年提出通用近似定理以來,至少我們有了最基本的一個理論基礎,即神經網絡有潛力解決各種複雜的現實問題。

MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度學習理論研究可以分為三大類:

  • 表征問題(Representation):為什麼深層網絡比淺層網絡的表達能力更好?
  • 最優化問題(Optimization):為什麼梯度下降能找到很好的極小值解,好的極小值有什麼特點?
  • 泛化問題(Generalization):為什麼過參數化仍然能擁有比較好的泛化性,不過拟合?

對于表征問題,我們想要知道深度神經網絡這種「複合函數」,它的表達能力到底怎麼确定,它的複合機制又是什麼樣的。我們不再滿足于「能拟合任意函數」這樣的定性描述,我們希望知道是不是有一種方法能描述 50 層 ResNet、12 層 Transformer 的拟合能力,能不能清楚地了解它們的理論性質與過程。

有了表征能力,那也隻是具備了拟合潛力,深度學習還需要找到一組足夠好的極值點,這就是模型的最優解。不同神經網絡的「最優化 Landscape」是什麼樣的、怎樣才能找到這種高維複雜函數的優秀極值點、極值點的各種屬性都需要完善的理論支援。

最後就是泛化了,深度模型泛化到未知樣本的能力直接決定了它的價值。那麼深度模型的泛化邊界該怎樣确定、什麼樣的極值點又有更好的泛化性能,很多重要的特性都等我們确定一套理論基準。

總而言之,談到深度學習理論基礎,我們總是少不了聽到這些關鍵詞:

從2019 AI頂會最佳論文,看深度學習的理論基礎

19 年頂會關于理論的研究

在 2019 年中,我們會看到人工智能頂會選了很多理論性研究作為最佳或傑出論文。它們并不一定是在架構或算法上做出新的貢獻,相反,它們很多都希望從數學及理論的角度了解深度學習,了解它的行為與邊界。正因為頂尖研究成果更偏向底層,是以我們會發現它們的閱讀難度越來越高。

我們查閱了 2019 年 AI 頂會論文的獲獎情況,這裡我們确定「頂會」主要是根據 CCF 推薦的 A 類會議(人工智能領域),再加上 CCF 沒有收錄的 ICLR。我們将獲獎論文分為偏模型算法與偏理論研究兩部分,其中理論研究可能是關于深度學習的理論研究,也可能是模型算法的理論了解。

從2019 AI頂會最佳論文,看深度學習的理論基礎

統計資料可見附錄A:

https://www.jiqizhixin.com/articles/2020-01-01-20

一般偏算法或模型的論文,閱讀起來還是非常友好的,論文會介紹直覺想法、形式化過程及最終結果。但偏理論的論文會要求很多領域知識,尤其是堅實的數學基礎。文章後面會具體介紹幾項代表性研究,但現在,我們還是先看看整體都是什麼樣的。

深度學習的理論基礎

DL 的理論基礎其實還是比較窄的領域,表征、最優化和泛化三大問題也是最重要與基礎的方向。在今年的頂會論文中,NeurIPS 2019 的新方向傑出論文[2]就特别關注深度學習的泛化問題。

從理論上來說,目前深度學習大多都根據一緻性收斂推導出泛化上界,但 CMU 的研究者表示,這種泛化邊界是有問題的。研究者通過一系列實驗與理論分析,證明不論一緻性收斂邊界如何精煉,它都不能被證明可解釋泛化性。是以由一緻性收斂推出的一大族泛化邊界都是有問題的。

在 ICLR 2019 最佳論文 [3] 中,MIT 的研究者提出的 Lottery Ticket Hypothesis 非常有意思,它表示如果某些參數在模型中很重要,那麼開始訓練之前就是重要的。換而言之,神經網絡初始化後就有個子網絡,訓練這個子網絡能獲得整個網絡相近的性能,這樣的子結構可以稱為 winning tickets。這種特殊子結構,同樣展示了神經網絡表征能力的新特性。

除此之外,收斂性分析也有新發現,ICML 最佳論文 [4] 就分析了變分高斯過程的收斂率,并提出了計算更便捷的方式。

從2019 AI頂會最佳論文,看深度學習的理論基礎

模型的理論性了解

在理論基礎之外,有更多的偏理論研究關注從理論上了解模型算法,并借此提出新的方案。最顯著的是 NeurIPS 2018 年最佳論文 ODENet [5],它将殘差網絡了解為常微分方程,進而擁有新的解決思路。在 2019 年的頂會獲獎論文中,即使偏算法類研究成果,也會有一些理論性了解,隻不過本文關注理論成分更多的研究。

首先 AAAI 最佳論文 [6] 從疊代算法的角度出發解資訊不完美博弈,進而進一步建構更強的智能體。這種将複雜遊戲抽象為簡單博弈問題,并從博弈論的角度出發建構新算法,具有很優秀的理論屬性。

在 NeurIPS 2019 的傑出論文 [7] 中,CMU 的研究者從理論上分析了大型損失函數族,探讨 GAN 的損失函數到底怎麼樣。同樣在 ACL 2019 的傑出論文 [8] 中,研究者認為建立自動文本摘要的理論模型能加深我們對任務的了解,也有助于改進文本摘要系統。為此,港科大等研究者對文本摘要的一些概念進行了嚴格定義,并提出了理論性模組化架構。

所有這些頂尖研究成果,都離不開理論的支援,下面我們從理論基礎與理論了解,具體介紹新研究都是什麼樣的。

有問題的泛化性

什麼樣的模型泛化性比較好?難道測試集上表現好的模型泛化能力真的好嗎?

之前很多模型采用在測試集上的誤差作為泛化誤差,先不管到底有沒有「偷窺」測試資料,這種誤差也隻是一種經驗性的名額。深度學習需要從理論上對學習方法的泛化能力進行分析。我們先看看泛化誤差的定義是什麼樣的:

從2019 AI頂會最佳論文,看深度學習的理論基礎

其實上面的表達式并不複雜,它描述的是,泛化誤差應該是模型在所有未知資料上的「平均」預測誤差,即所有誤差的數學期望。注意,我們是無法擷取「所有未知資料」的,是以這隻是一個定義。

走向衰落的傳統泛化理論

之前的理論研究,主要靠分析泛化誤差的機率上界來進行,也就是我們常聽到的泛化誤差上界。傳統機器學習會認為,泛化誤差上界是樣本容量的函數,當樣本數增加時,泛化誤差上界趨向于 0;同時,泛化誤差上界也是模型能力的函數,模型能力越強,它就越難學習,泛化誤差上界就越大。

例如大名鼎鼎的傳統理論 VC 維,它通過考慮模型函數族的一緻性收斂邊界,來探讨函數族的表達能力有多強。在 NeurIPS 2019 新方向傑出論文中,研究者表示這種考慮一緻性收斂邊界的方法,是行不通的。傳統泛化誤差大緻可以表示為如下:

從2019 AI頂會最佳論文,看深度學習的理論基礎

我們認為,測試誤差不能超過訓練誤差再加上某個邊界。這個邊界随着訓練集的增加而減少,随着模型參數量(depth×width)的增加而增加。

但問題在于,傳統泛化誤差上界并沒有考慮深度神經網絡「過參數化」這一神奇的現象。并不是說所有參數對最終的預測是起作用的,深度模型存在着大量備援參數。是以 depth×width 并不能正确描述深度模型的學習難度,過參數化會讓學習變得更簡單。

現代泛化理論的革新之路

既然傳統泛化理論已經不行了,深度學習研究者也就開始探索新的出路。近來的研究者在思考:「我們能不能确定底層的資料分布、算法如何共同限制深度神經網絡,進而建構成一種『簡單的』函數族。」是以,通過範數限制函數族,也許我們可以将一緻性收斂應用到更簡潔與準确的邊界:

從2019 AI頂會最佳論文,看深度學習的理論基礎

這一類方法看上去非常不同,但本質上仍是一緻性收斂的不同表示。在 CMU 的這篇論文中,他們發現,一緻性收斂邊界實際上并不能全面解釋深度學習的泛化問題,我們應該在一緻性收斂之上來讨論泛化邊界。

一緻性收斂到底有什麼問題?

首先我們需要确定,機器學習中的一緻收斂性,簡單來說就是回答「為什麼降低訓練損失能降低測試損失」這個問題。如果函數族的經驗風險能與總體風險一緻地收斂,那麼這個問題就是可以學習的。

論文 [2] 一作 Vaishnavh Nagarajan 說:「之前的研究大多數都基于一緻性收斂考慮泛化邊界,但我們的研究表明這類問題很可能是局限的。」目前 Rademacher Complexity、Covering Numbers 和 PAC-Bayes 等衆多前沿泛化邊界分析都可能存在問題。

從2019 AI頂會最佳論文,看深度學習的理論基礎

Vaishnavh 表示一緻性收斂邊界會随着參數量的增長而增大,是以這樣的邊界對于深度網絡來說太大了,而且行為也不像真實泛化邊界。但也有可能一緻性收斂邊界會非常緊緻,隻不過它并不是原始神經網絡的邊界,很可能是通過模型壓縮等技術精煉的新邊界。

為了進一步了解為什麼一緻收斂性不能提供堅實的理論基礎,研究者做了很多實驗與推導,并最終發現主要問題展現在兩方面。

首先,泛化邊界竟然随着訓練集的增長而增長,這是非常有問題的。因為按照我們的直覺了解,當資料集無窮大時,訓練誤差和測試誤差之間差距應該減少到零。Vaishnavh 說:「即使我們觀察到随着資料集的增加,測試誤差是正常減少的,但泛化邊界卻反常地擴大。」

從2019 AI頂會最佳論文,看深度學習的理論基礎

之是以出現這樣的問題,在于之前我們通過參數量來度量模型的複雜度,後來修正方法也是通過權重範數來度量複雜度。但問題在于,權重範數會随着資料集的增加而顯著增加,并抵消分母資料集的增長速度。「參數依賴性隻是泛化問題的一部分,我們同樣要特别關注資料集的依賴性」,Vaishnavh 說。

其次對于第二個問題,研究者們調查了所有泛化邊界的理論分析,并表示任何一緻性收斂邊界,不論它們的推導與應用如何嚴格,它們都不能解釋 SGD 訓練的神經網絡泛化性問題。正如 Vaishnavh 所說,在深度學習中,不論一緻性收斂邊界如何精煉,它都不能被證明可解釋泛化性。

從2019 AI頂會最佳論文,看深度學習的理論基礎

正如上式所示,即使再精煉,一緻性收斂邊界可能推導出約等于 1,但真實的泛化差距可能接近于 0。這樣的結果是非常虛的,它并起不到什麼作用。

從2019 AI頂會最佳論文,看深度學習的理論基礎

Vaishnavh 最後表示,在過參數化的深度學習中,決策邊界是異常複雜的。如上所示,決策邊界在每一個訓練資料點上都可能有一些小的彎曲,這種邊界會影響一緻性收斂,但并不影響泛化性。是以,也許我們需要數學工具來描述深度神經網絡複雜的決策邊界,需要在一緻性收斂之上的一些理論來讨論深度學習。

有些參數生而不平等

深度學習存在很強的過參數化現象,其參數量遠遠超過了資料量。而且重要的一點是,并不是所有參數都是平等的,有的參數根本不重要,删掉它們也不會有影響。那麼為什麼會有權重剪枝這些模型壓縮方法呢,在 ICLR 2019 最佳論文 [3] 中,MIT 的研究者從底層機制做出理論假設,并通過實驗驗證這樣的假設。

從2019 AI頂會最佳論文,看深度學習的理論基礎

上面表達的是,如果神經網絡完成了随機初始化,那麼它就包含了一個子網絡。該子網絡從頭開始訓練相同的疊代次數,就能獲得與整體網絡相媲美的效果。這樣的假設似乎是反直覺的,因為我們一直有一個概念「剪枝後的子網絡從頭學習肯定效果要差于整體網絡」。

但研究者提出這樣的新假設,認為隻要完成初始化,有效的子結構,也就是「winning tickets」也就确定了。要想确定這樣的假設到底真不正确,當然還是需要實驗。

實驗做起來

因為模型剪枝天生就建構了一個子網絡,是以研究者首先驗證了這種子網絡是不是有效子結構。研究者發現,固定這樣的子網絡不變,并重新初始化權重,這樣訓練出來的結果并不能比對之前的效果。是以,這也證明了初始化對有效子結構的影響。

假設神經網絡存在這樣的子結構,那麼我們通過四步就能找到它。其核心思想是,既然正常的模型剪枝能在删除大量權重的情況下保持準确率基本不變,那麼在那種初始化條件下,它就是有效子結構。如果我們儲存之前初始化的結果,并采用剪枝後的子結構,那麼是不是就能訓練達到很好的效果?

具體而言,對于神經網絡 f(x; θ),θ 為初始化的權重。經過訓練并剪枝後,我們重新賦予子結構之前的初始化權重,這可以表示為 f(x; m⊙θ)。其中 m 的次元與θ相等,且每一個元素要麼是 0 要麼是 1,f(x; m⊙θ) 就代表着經過正确初始化的子網絡。現在實驗分為四大步:

  • 随機初始化神經網絡 f(x; θ_0),其中θ_0 服從于某個分布 D_0;
  • 疊代訓練網絡 j 次,并獲得最優參數θ_j;
  • 剪裁掉θ_j 中的 p% 的參數,進而獲得 Mask m;
  • 恢複初始參數θ_0,并建立有效子結構 f(x; m⊙θ_0)。

通過種實驗方式,研究者在 MNIST 中找到了全連接配接網絡的「winning tickets」,在 CIFAR-10 中找到了卷積網絡的「winning tickets」。這些子網絡隻有原網絡 10-20% 的參數量,但重新訓練能獲得相近的效果。

從2019 AI頂會最佳論文,看深度學習的理論基礎

VGG-19 在 CIFAR-10 上的測試效果,從左到右分别是疊代 30K、60K、112K 的結果。選自:arXiv:1803.03635。

如上圖所示為橫軸表示保留的權重,數軸表示準确度,圖例展示的是學習率。每一種顔色的實線表示采用「有效初始化」的子網絡,而虛線表示随機初始化。通過綠色實線、綠色虛線以及藍色實線,我們可以明确地看出來研究者找到了「winning tickets」。

研究者表示,這一系列實驗都證明了神經網絡确實存在高效的子結構,它雖然隻是一個假設,但對于進一步的理論研究非常有幫助,尤其是關于最優化與泛化性的理論研究。

硬核的損失函數分析

如果你認為上面那種理論了解在數學上不夠優美,那麼頂會獲獎論文還有一系列嚴格的數學論證。在 NeurIPS 2019 中,有一篇獲獎論文 [7] 分析了名為 Besov IPM 的損失函數族,該函數族包括 L_p 範數距離、總變分距離、Wasserstein 距離、Kolmogorov-Smirnov 距離等衆多損失函數。

對于這麼一大幫損失函數,研究者分析了它們的上下界,明确了損失函數的選擇以及資料假設的互相作用,它們如何決定極小極大過程的最優收斂率。

對于 GAN 來說,如果生成器與判别器函數分别表示為 F 與 P,那麼整個 GAN 就可以視為機率分布估計:

從2019 AI頂會最佳論文,看深度學習的理論基礎

如上表達式描述的是,GAN 的這種機率分布估計,可以針對經驗分布 P_n tilde 直接最小化經驗 IPM 風險。經過一系列複雜的數學分析,研究者得出了三個主要結論:

從2019 AI頂會最佳論文,看深度學習的理論基礎
從2019 AI頂會最佳論文,看深度學習的理論基礎

3. 經過正則化後,GAN 可以通過有限大小的生成器與判别器實作極小極大收斂率。作為分離 GAN 與其它非參工具的首批理論結果,它可能可以幫助解釋為什麼 GAN 在高維資料上能獲得這麼大的成功。

最後,不論是深度學習真正的理論基礎,還是從理論出發建構新方法、新模型,至少在 2019 年的 AI 頂會中,我們很高興能看到各種前沿研究都在拜托「啟發式」的新發現,反而更系統地關注它們的立足基礎。也許這些新發現,最終能帶領我們建構一個系統的領域、一個成熟的學科。

繼續閱讀