天天看點

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

今天看了CS231n關于dropout部分的講述,不是很清晰,拿來一篇關于Dropout的代表性文章來讀一讀,體會一下。

論文原文下載下傳連結:Dropout: A Simple Way to Prevent Neural Networks from Overfitting

摘要

在具有大量參數的深度神經網絡中,Overfitting是一個嚴重的問題。Dropout是解決這個問題的一種技巧。主要思想是在訓練期間從神經網絡中随機丢棄神經元(連同他們的連接配接)。在訓練期間,從指數的不同“thinned(稀疏)”網絡中剔除樣本。在測試過程中,通過簡單地使用一個具有較小權重的未加密的網絡來估計平均所有這些細化網絡的預測的效果。這顯着地減少了過度拟合,并且比其他正則化方法有了重大的改進。我們表明,Dropout改善了視覺,語音識别,文檔分類和計算生物學的監督學習任務的神經網絡的性能,獲得了許多基準資料集的最新成果。

1.介紹

深度神經網絡包含多個非線性隐藏層,這使得他們非常有表現力的模型,可以學習其輸入和輸出之間非常複雜的關系。 然而,在有限的訓練資料的情況下,這些複雜的關系中的許多将是噪聲采樣的結果,是以即使從相同的分布中抽取,它們也将存在于訓練集中而不是真實的測試資料中。 這導緻了過度配合,并已經開發了許多方法來減少它。 這些措施包括:一旦驗證組的表現開始變差,就會停止訓練,對L1和L2正規化以及輕量級的配置設定[Nowlan and Hinton,1992]等各種類型的權重懲罰加以懲罰。

在無限的計算中,“正規化”固定大小模型的最佳方法是平均預測所有可能的參數設定,并根據給定訓練資料的後驗機率對每個設定進行權重。 對于簡單的或者小的模型,這有時可以很好地近似[Xiong等,2011; Salakhutdinov和Mnih,2008],但是我們希望用更少的計算來處理貝葉斯黃金标準的性能。 我們建議通過對參數共享的指數數量的學習模型的預測進行近似的權重幾何均值來做到這一點。

模型組合幾乎總是提高機器學習方法的性能。 然而,對于大型的神經網絡來說,平均許多單獨訓練的網絡輸出的顯而易見的想法是非常昂貴的。 當各個模型彼此不同時,結合幾個模型是最有用的,為了使神經網絡模型不同,他們應該有不同的體系結構或者受不同的資料訓練。 訓練許多不同的體系結構是很困難的,因為為每個體系結構尋找最優的超參數是一項艱巨的任務,訓練每個大型網絡需要大量的計算。 此外,大型網絡通常需要大量的訓練資料,可能沒有足夠的資料在不同的資料子集上訓練不同的網絡。 即使一個人能夠訓練許多不同的大型網絡,在測試時使用它們也是不可行的。

Dropout是解決這兩個問題的技術。 它可以防止過度配置,并提供了一種有效結合指數級多種不同神經網絡結構的方法。 術語“Dropout”是指在神經網絡中放棄單元(隐藏和可見)。 通過丢棄一個單元,我們的意思是暫時将其從網絡中删除,以及所有的輸入和輸出連接配接,如圖1所示。選擇哪個單元是随機的。 在最簡單的情況下,每個機關都保持固定的機率p獨立于其他機關,其中p可以使用驗證集選擇或可以簡單地設定為0.5,這似乎是接近最佳的廣泛的網絡和 任務。 然而,對于輸入機關來說,保留的最佳機率通常接近1而不是0.5。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

對神經網絡應用dropout相當于從中抽取一個“細化”的網絡。 細化的網絡由所有脫落幸存的機關組成(圖1b)。 具有n個機關的神經網絡可以被看作是2的n次方個可能的細化神經網絡的集合。 這些網絡共享權重,是以參數總數仍然是O(n的2次方)或更少。 對于每個訓練案例的每一個示範,一個新的細化網絡被抽樣和訓練。 是以,訓練一個具有退出的神經網絡可以被看作是訓練一個具有大量權重共享的2的n次方個細化網絡的集合,如果有的話,每個細化的網絡得到很少的訓練。

在測試時間,對指數級的許多細化模型的預測進行明确的平均是不可行的。然而,一個非常簡單的近似平均方法在實踐中效果很好。這個想法是在測試時使用單個神經網絡,而不會丢失。這個網絡的權重是訓練權重的縮小版本。如果一個機關在訓練期間以機率p被保留,則在測試時間該機關的輸出權重乘以p,如圖2所示。這確定了對于任何隐藏機關,預期輸出(在用于放棄訓練機關的配置設定下時間)與測試時的實際輸出相同。通過這樣的縮放,具有共享權重的2n個網絡可以被組合成單個神經網絡以在測試時間被使用。我們發現,訓練一個丢失的網絡,并在測試時間使用這個近似的平均方法,與其他正則化方法相比,在廣泛的分類問題上導緻顯着較低的泛化誤差。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

dropout的想法不限于前饋神經網絡。 它可以更普遍地應用于玻爾茲曼機器等圖形模型。 在本文中,我們引入了dropout的限制玻爾茲曼機模型,并将其與标準的限制玻爾茲曼機(RBM)進行比較。 我們的實驗表明,在某些方面,辍學RBMs比标準RBMs更好。

此篇文章的結構如下。 第2節描述了這個想法的動機。 第3節介紹了以前的相關工作。 第四部分正式描述了dropout模式。 第5節給出了一個訓練dropout網絡的算法。 在第六部分,我們提出我們的實驗結果,我們将丢失應用于不同領域的問題,并将其與其他形式的正規化和模型組合進行比較。 本文翻譯☞第六節,第7節分析了一個神經網絡的不同屬性dropout的影響,并描述了dropout如何與網絡的超參數互相作用。 第8節介紹了“dropout RBM”模型。 在第9節中,我們探讨了邊緣化dropout的想法。 在附錄A中,我們提供了一個訓練dropout網絡的實用指南。 這包括對訓練dropout網絡時選擇超參數所涉及的實際考慮的詳細分析。

2. 動機

dropout的動機來自于性别在進化中作用的理論(Livnat et al。,2010)。 有性繁殖包括取夫妻各自一半的基因,加入非常少量的随機突變,并将它們組合起來産生一個後代。 無性繁殖的選擇是建立一個父母的基因略有變異的後代。 似乎合理的是,無性繁殖應該是一個更好的方法來優化個體适應性,因為一組好的基因已經合作到一起可以直接傳遞到後代。 另一方面,有性生殖可能會破壞這些互相适應的基因組,特别是如果這些集合很大,并且直覺地,這會降低已經演變成複雜的複合體的生物體的适宜性。 然而,有性繁殖是最先進的生物進化的方式。

對有性繁殖優越性的一個可能的解釋是,從長遠來看,自然選擇的标準可能不是個體的适應性,而是基因的混合能力。一組基因能夠與另一組随機基因一起工作的能力使得它們更加健壯。由于一個基因不能依賴大量的合作夥伴來存在,是以它必須學會獨自做一些有用的事情,或者與少數其他基因合作。根據這一理論,有性生殖的作用不僅僅是讓有用的新基因在整個人群中傳播,還可以通過減少複雜的共同适應來促進這一過程,通過減少一個新基因來提高個體的适應性。類似地,神經網絡中的每個隐含單元都要學習與其他單元随機選擇的樣本一起工作。這應該使每個隐藏機關更加強大,并推動它自己創造有用的功能,而不依靠其他隐藏機關來糾正其錯誤。然而,一個圖層中的隐藏單元仍然會學習彼此做不同的事情。有人可能會設想,“通過制作每個隐藏單元的許多副本,網絡将會變得強大,進而避免dropout”,但這是一個糟糕的解決方案,與通過複制代碼去處理噪聲信道這一糟糕方法的原因完全相同。

進一步講,dropout這一想法的不同動機來源于思考的謀略。相比于50個人思考一個大的計謀,5個人思考10個計謀顯然是一個更好的選擇,前提這些人的智商都是一樣的。如果條件沒有改變,時間固定,一個大陰謀可以很好地工作;但是在非固定的條件下,陰謀越小,工作的機會就越大。一個複雜體的适應性在訓練集可能會表現得很好,但是在測試集上,就遠不如多個簡單體的适應性。【熟話說,三個臭皮匠賽過諸葛亮】

3. 相關工作

dropout可以被解釋為通過向其隐藏的機關增加噪音來調整神經網絡的一種方式。在Vincent等人的去噪自動編碼器(DAE)的背景下以及先前已經使用将噪聲添加到單元狀态的想法。 (2008,2010),噪聲被添加到自動編碼器的輸入單元,通過訓練來重建無噪聲輸入。我們的工作擴充了這個想法,通過顯示退出可以有效地應用在隐藏層,也可以被解釋為一種模型平均的形式。我們還表明,添加噪聲不僅有用于無監督的特征學習,而且還可以擴充到監督學習問題。事實上,我們的方法可以應用于其他基于神經元的架構,例如玻爾茲曼機器。盡管5%的噪聲通常對DAE的效果最好,但是我們發現在測試時應用的權重縮放程式使我們能夠使用更高的噪聲水準。剔除20%的輸入機關和50%的隐藏機關往往被認為是最佳的。

4. 模型描述

本節介紹了dropout神經網絡模型。 考慮具有L個隐藏層的神經網絡。設l∈{1,…,L}為網絡的隐層提供索引。設z(l)表示輸入到第l層的向量,y(l)表示第1層(y(0)= x是輸入)的輸出向量。 W(1)和b(1)是第1層的權重和偏差。 标準神經網絡(圖3a)的前饋操作可以描述為(對于l∈{0,…,L-1}和任何隐含的單元i)

沒有進行dropout的計算公式:

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

公式中的f是激活函數,例如,f是sigmoid函數, f(x) = 1/(1 + exp(−x)).

加上dropout之後的計算公式:

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

我們來看對公式的一種更為直覺的描述:

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

在dropout公式中, 對于任何層l,r(l)是獨立的伯努利随機變量的向量,其中每個随機變量具有機率p為1.該向量被采樣并且與該層的輸出y(l)元素級地相乘以建立 細化輸出y(l)。 然後,已經細化的輸出被用作下一層的輸入。 這個過程适用于每一層。 這相當于從一個更大的網絡中抽取一個子網絡。 為了學習,損失函數的導數通過子網絡反向傳播。 在應用測試集運作中,權重按照 測試時的W(l) = pW(l)來縮放,如圖2所示。得到的神經網絡沒有丢失。

5. 學習dropout網絡

本節介紹一個訓練丢失神經網絡的程式。

5.1 反向傳播

可以使用随機梯度下降以類似于标準神經網絡的方式來訓練dropout神經網絡。 唯一不同的是,對于小批量(mini-batch)的每個訓練案例,我們通過剔除隐藏單元來抽樣一個細化的網絡。 這個訓練案例的前向和後向傳播隻在這個細化的網絡上完成。 在每個小批量的訓練案例中,對每個參數的梯度進行平均。 任何不使用參數的訓練案例中相應的參數的梯度是0。 許多方法已被用于改善随機梯度下降,如動量,退火學習率(annealed learning rates )和L2權重衰減。 這些被發現對于dropout神經網絡也是有用的。

正則化的一種特殊形式特别适用于dropout ,即限制每個隐藏單元的輸入權重向量的範數被固定的常數c所限制。 換句話說,如果w表示映射到任何隐藏單元上的權重矢量,則在限制|| w || 2≤c的情況下對神經網絡進行優化。 這個限制是在優化過程中通過将w投射到半徑為c的球的表面上而實作的。 這也被稱為最大範數正則化,因為它意味着任何權重的規範可以采取的最大值是c。 常數c是可調超參數,它是使用驗證集合确定的。 最大規範正則化過去曾用于協作過濾(Srebro和Shraibman,2005)。 它通常會提高深度神經網絡的随機梯度下降訓練的性能,即使在沒有使用dropout的情況下也是如此。

雖然隻有dropout本身會有顯著性的改善,但是将dropout和最大規範正規化,大衰退的學習率和高動量結合起來比僅僅使用dropout的效果會顯著提升。 一個可能的理由是,将權重向量限制在一個固定的半徑球内部,使用一個大的學習速率,不會有權重爆炸的可能性。 dropout提供的噪音使得優化過程可以探索權重空間中難以達到的不同區域。 随着學習速度的降低,優化步驟會縮短,進而減少了探索,最終達到最小化。

5.2 無監督的預訓練

自動編碼器(Vincent等人,2010)或深玻耳茲曼機器(Salakhutdinov和Hinton,2009)可以對神經網絡進行預訓練。 預訓練是利用未标記資料的一種有效方法。 在反向傳播的情況下進行預訓練已經顯示,在某些情況下,随機初始化可以顯着提高性能。

dropout可以應用于已經使用這些技術預訓練的網絡。 預訓練過程保持不變。 預訓練所得的重量應按1 / p的比例放大。 這確定了對于每個單元,随機dropout期間的預期輸出将與預訓練期間的輸出相同。 我們最初擔心的是,dropout的随機性可能會抹去預訓練權重中的資訊。 這種情況發生時,精細調整期間使用的學習率與随機初始化網絡的最佳學習率相當。 然而,當學習率被選擇為較小時,預訓練權重的資訊似乎被保留了下來,并且在最終的泛化錯誤方面我們能夠得到改善,而不是在微調網絡時使用dropout。

6. 實驗結果

我們在不同領域的資料集上訓練了dropout神經網絡來分類問題。 我們發現,與沒有使用dropout的神經網絡相比,dropout改善了所有資料集的泛化性能。 表1給出了資料集的簡要說明。 資料集是:

• MNIST : 手寫數字的标準玩具資料集。

• TIMIT : 清晰的用于語音識别的标準語音基準集。

• CIFAR-10 and CIFAR-100 : 微小的自然圖像 (Krizhevsky, 2009).

• Street View House Numbers data set (SVHN) : Google Street View收集的房屋号碼的圖像 (Netzer et al., 2011).

• ImageNet : 大量的自然圖像。

• Reuters-RCV1 : 路透社的新聞文章的資料集。

• Alternative Splicing data set: 用于預測替代基因剪接的RNA特征(Xiong et al., 2011).

我們選擇了一組不同的資料集來證明dropout是一種改進神經網絡的通用技術,并不是特定于任何特定的應用領域。 在本節中,我們提出了一些顯示退出的有效性的關鍵結果。 附錄B提供了所有實驗和資料集的更詳細的描述。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

6.1 圖像資料集的結果

我們使用五個圖像資料集來評估丢失MNIST,SVHN,CIFAR-10,CIFAR-100和ImageNet。 這些資料集包括不同的圖像類型和訓練集大小。 在所有這些資料集上獲得最新結果的模型都使用了dropout。

6.1.1 MNIST
譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

MNIST資料集由28×28像素的手寫數字圖像組成。任務是将圖像分類成10位數的類别。表2比較了dropout與其他技術的表現。對于不使用dropout或無監督預訓練的設定,表現最好的神經網絡達到約1.60%的誤差(Simard等人,2003)。使用dropout,錯誤降低到1.35%。用ReLUs代替線性回歸(Jarrett et al。,2009)進一步将誤差降低到1.25%。最大範數正則化再次降低到1.06%。增加網絡的大小可以帶來更好的結果。每層2層8192個機關的神經網絡誤差為0.95%。請注意,這個網絡有超過6500萬個參數,正在接受一個大小為60,000的資料集的教育訓練。使用标準的正則化方法和早期停止訓練一個這樣大小的網絡來給出良好的泛化誤差是非常困難的。另一方面,dropout,即使在這種情況下,也可以防止過拟合。它甚至不需要提前停止。 Goodfellow等人(2013年)顯示,通過用Maxout機關取代ReLU機關,結果可以進一步提高到0.94%。所有的丢失網絡對于隐藏機關使用p = 0.5,對于輸入機關使用p = 0.8。附錄B.1中提供了更多的實驗細節。

用RBM和深玻爾茲曼機器疊加的dropout網絡也給出了改進,如表2所示。DBM預先訓練的dropout網絡實作了0.79%的測試誤差,這是有史以來就置換不變設定所報告的最佳性能。 我們注意到,通過使用二維空間資訊和從标準訓練集中增加具有畸變版本圖像的訓練集可以獲得更好的結果。 我們在更有趣的資料集上展示了這個設定中的dropout的有效性。

為了測試dropout的魯棒性,分類實驗是用許多不同架構的網絡來完成的,保持所有的超參數(包括p)固定。 圖4顯示了随着教育訓練的進展,這些不同架構的測試錯誤率。 訓練有dropout和無dropout的相同體系結構具有顯着不同的測試誤差,如由兩個單獨的軌迹群所看到的那樣。 在所有體系結構中,Dropout提供了巨大的改進,而不使用針對每個體系結構進行特定調整的超參數。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》
6.1.2 Street View House Numbers(SVHN)

街景房屋号碼(SVHN)資料集(Netzer et al。,2011)由谷歌街景收集的房屋号碼的彩色圖像組成。 圖5a顯示了這個資料集的圖像的一些例子。 我們在實驗中使用的資料集的一部分包括32×32彩色圖像,大緻集中在一個門牌号的數字上。 任務是确定這個數字。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

對于這個資料集,我們将Dropout應用于卷積神經網絡(LeCun et al。,1989)。我們發現的最好的架構有三個卷積層,其次是兩個完全連接配接的隐藏層。所有隐藏的機關是ReLUs。每個卷積層之後是最大池化。附錄B.2更詳細地描述了架構。對于網絡的不同層,保留隐藏單元的機率為p =(0.9,0.75,0.75,0.5,0.5,0.5)(從輸入到卷積層到完全連接配接層)。最大範數正則化被用于卷積和完全連接配接層的權重。表3比較了不同方法獲得的結果。我們發現卷積網絡勝過其他方法。不使用丢失的性能最好的卷積網絡實作了3.95%的錯誤率。僅向完全連接配接的圖層添加壓差将誤差降低到3.02%。為卷積層添加Dropout,進一步将錯誤降低到2.55%。通過使用maxout單元可以獲得更多的收益。

通過在卷積層中添加Dropout(3.02%至2.55%)獲得的性能的額外增益值得注意。有人可能認為,由于卷積層沒有很多參數,是以過度拟合不是問題,是以Dropout不會有太多的影響。然而,在較低層中的Dropout仍然有幫助,因為它為較高的全連接配接層提供了噪聲輸入,進而防止它們過拟合。

6.1.3 CIFAR-10 and CIFAR-100

CIFAR-10和CIFAR-100資料集由分别來自10個和100個類别的32×32個彩色圖像組成。 圖5b顯示了這個資料集的圖像的一些例子。 附錄B.3給出了資料集,輸入預處理,網絡結構和其他實驗細節的較長的描述。 表4顯示了通過這些資料集上的不同方法獲得的錯誤率。 沒有任何資料增加,Snoek et al。 (2012)使用貝葉斯超參數優化在CIFAR-10上獲得了14.98%的錯誤率。 在完全連接配接的層中使用dropout将其降低到14.32%,并且在每層中增加dropout進一步将錯誤降低到12.61%。 Goodfellow等人 (2013)表明,通過用Maxout單元替換ReLU單元,誤差進一步降低到11.68%。 在CIFAR-100上,退出将誤差從43.48%降低到37.20%,這是一個巨大的改進。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》
譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》
6.1.4 ImageNet

ImageNet是一個超過1500萬标記的高分辨率圖像資料集,屬于大約22000個類别。從2010年開始,作為Pascal視覺對象挑戰賽的一部分,每年舉辦一次名為ImageNet大型視覺識别挑戰賽(ILSVRC)的比賽。在這個挑戰中使用了ImageNet的一個子集,1000個類别中大概有1000個圖像。由于類别的數量相當大,是以通常報告兩個錯誤率:top-1和top-5,其中top-5的錯誤率是測試圖像的分數,正确的标簽不是在五個标簽之間這個模型很可能被認為是可能的。圖6顯示了我們的模型在一些測試圖像上做出的一些預測。

ILSVRC-2010是ILSVRC唯一可用的測試集标簽版本,是以我們大部分的實驗都是在這個資料集上進行的。表5比較了不同方法的性能。具有dropout的卷積網大大優于其他方法。 Krizhevsky等人較長的描述了架構和實作細節。 (2012年)。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》
譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》
譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

我們基于卷積網絡和dropout的模型赢得了ILSVRC-2012的競賽。 由于測試集的标簽不可用,是以我們将結果報告在最終送出的測試集上,并包含我們模型的不同變體的驗證集結果。 表6顯示了比賽的結果。 雖然基于标準視覺特征的最佳方法實作了大約26%的前5個錯誤率,但是具有dropout的卷積網絡實作了大約16%的測試誤差,這是驚人的差異。 圖6顯示了我們的模型預測的一些例子。 我們可以看到,模型做出了非常合理的預測,即使最好的猜測是不正确的。

6.2 在TIMIT上的實驗結果

接下來,我們将dropout應用于語音識别任務。 我們使用TIMIT資料集,該資料集由680位發言者的錄音組成,涵蓋了美國英語的8種主要方言,在受控制的無噪音環境下閱讀10個語音豐富的句子。 在21個對數濾波器組的視窗上訓練dropout神經網絡,以預測中心幀的标簽。 附錄B.4描述了資料預處理和訓練細節。 表7比較了dropout神經網絡與其他模型。 6層網絡的聲音出錯率為23.4%。 dropout率進一步提高到21.8%。 我們還訓練了從訓練後體重開始的dropout網絡。 預先加入一疊RBM的4層網絡的聲音出錯率為22.7%。dropout率降低到19.7%。 同樣,對于一個8層網絡,誤差從20.5%降到19.7%。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

6.3 在文字資料集上的實驗結果

為了測試文本域中dropout的有用性,我們使用了dropout網絡來訓練文檔分類器。 我們使用了Reuters-RCV1資料集的一個子集,收集了來自路透社的超過800,000篇newswire文章。 這些文章涵蓋了各種主題。 任務是拿一些文檔的文字表示,并把它分成50個不相交的主題。 附錄B.5更詳細地描述了設定。 我們最好的沒有使用dropout的神經網絡獲得了31.05%的錯誤率。 添加dropout将錯誤降低到29.62%。 我們發現,與視覺和語音資料集相比,這一改進要小得多。

6.4 與貝葉斯神經網絡的比較

dropout可以被看作是對具有共享權重的指數級許多模型進行等權重平均的一種方式。另一方面,貝葉斯神經網絡(Neal,1996)是在神經網絡結構和參數空間上進行模型平均的正确方法。在dropout時,每個模型的權重是相等的,而在貝葉斯神經網絡中,每個模型都要考慮到以前的模型以及模型如何處理資料,這是更正确的方法。貝葉斯神經網絡對于解決資料稀缺的領域(如醫學診斷,遺傳學,藥物發現和其他計算生物學應用)中的問題非常有用。然而,貝葉斯神經網絡訓練緩慢,難以擴充到非常大的網絡規模。此外,在測試時間從許多大網絡獲得預測是昂貴的。另一方面,dropout神經網絡在測試時間訓練和使用要快得多。在本節中,我們報告将貝葉斯神經網絡與dropout神經網絡在貝葉斯神經網絡已知性能良好并獲得最新結果的小資料集上進行比較的實驗。目的是分析貝葉斯神經網絡與使用dropout神經網絡的對比損失。

我們使用的資料集(Xiong et al。,2011)來自遺傳學領域。其任務是根據RNA特征來預測選擇性剪接的發生。選擇性剪接是哺乳動物組織細胞多樣性的重要原因。預測在不同條件下某些組織中交替剪接的發生對于了解許多人類疾病是重要的。鑒于RNA特征,任務是預測生物學家關心的三個剪接相關事件的機率。評估名額是代碼品質,它是目标與預測機率分布之間的負KL散度的量度(越高越好)。附錄B.6包括資料集和性能名額的較長的描述。

表8總結了這個資料集上不同模型的性能。Xiong等人(2011)使用貝葉斯神經網絡來完成這項任務。正如預期的那樣,我們發現貝葉斯神經網絡表現比dropout更好。然而,我們看到dropout顯着地改善了标準神經網絡的性能,并且勝過了所有其他的方法。這個資料集的挑戰是防止過拟合,因為訓練集的規模很小。防止過拟合的一種方法是使用PCA降低輸入維數。此後,可以使用标準技術如SVM或邏輯回歸。但是,在dropout的情況下,我們能夠防止過拟合,而不需要降低次元。與貝葉斯網絡中的幾十個單元相比,dropout網絡非常大(隐藏單元為1000個)。這表明dropout有很強的正規化效應。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

6.4 與标準正則化的比較

已經提出了幾種正則化方法來防止神經網絡中的過拟合。 這些包括L2權重衰減(更一般的Tikhonov正則化(Tikhonov,1943)), lasso (Tibshirani,1996),KL-稀疏性和最大範數正則化。 dropout可以被看作是規範神經網絡的另一種方式。 在本節中,我們使用MNIST資料集比較了這些正則化方法中的一些丢失。

具有ReLU的相同網絡體系結構(784-1024-1024-2048-10)使用具有不同正則化的随機梯度下降進行訓練。 表9顯示了結果。 使用驗證集合獲得與每種正則化(衰減常數,目标稀疏性,dropout率,最大範數上限)相關的不同超參數的值。 我們發現,dropout結合最大範數正則化給出了最低的泛化誤差。

譯:《Dropout: A Simple Way to Prevent Neural Networks from Overfitting》

繼續閱讀