天天看點

AlexNet 論文筆記

标題 :ImageNet Classification with Deep Convolutional Neural Networks

作者:Alex Krizhevsky; Ilya Sutskever;Geoffrey E. Hinton

摘要:

        1、論文作者訓練了一個大型深層卷積神經網絡,将120萬張高分辨率圖像分為1000種不同類别。在imagenet lsvrc-2010中,此模型Top-1的錯誤率為37.5%,Top-5錯誤率為17%,遠好于過去所用的算法水準。

        2、此神經網絡共包含6000萬個參數以及65萬個神經元,有五層卷積層,有的層後做了max-pooling池化,之後再有三層全連接配接層,最後做1000路的softmax分類。

        3、為了加快訓練速度,使用了非飽和神經元的思路(其實就是ReLu激活),以及使用GPU完成卷積計算。

        4、為了避免過拟合,使用了最新的正則化的方法“dropout”。

        5、他們還在lsvrc-2012比賽中使用了該模型的一個變種,取得了15.3%的測試失誤率,而第二名的成績則為26.2%。

一、introduction

        1、目前對物體的檢測關鍵使用機器學習的方法

        2、為了對數百萬張圖像進行上千種分類,我們需要一個有很大學習容量的算法

        3、盡管CNNs有一些吸引人的特點,也盡管它對局部構成具有相對有效性,他們仍需要花費很大代價将其應用于大量的高分辨率圖像

        4、這篇論文做出了一下貢獻:我們訓練了一個至今為止最大的卷積神經網絡并且取得了前所未有的效果;我們寫了一個高優化的2D卷積的GPU實作方法,其他的操作不變,并且對公衆開放;我們的網絡包含了一些新的不常見的特征,提高了性能和訓練效率,具體可見第三節;網絡太大使得過拟合成為一個重要的問題,是以我們用了一些行之有效的方法去解決,具體可見第四節;最終的網絡包含5個卷積層和3個全連接配接層,我們發現這些缺一不可,省掉任何一層,網絡性能就會下降。

        5、網絡的大小受限于GPU記憶體容量和我們能夠忍受的訓練時間。我們訓練用了5-6天時間,使用了兩塊GTX 580 3GB 顯示卡。

二、資料集

        1、ImageNet 是一個擁有超過1千5百萬高分辨率圖檔涉及22000個類的資料集。2010年起,ILSVRC開始舉辦。ILSVRC使用的ImageNet的子資料集。

        2、隻有2010屆ILSVRC的測試集标簽可用,是以2012年比賽的時候我們也用它們訓練,具體結果可見第六節。Top-5失誤率是指正确的測試标簽完全不在模型預測的前五個标簽内的失誤率。

        3、ImageNet資料集的圖檔分辨率各有不同。我們對圖像統一下采樣到256*256分辨率。除了把每個像素減去均值,沒有做别的預處理,采用原生RGB像素值作為輸入。

三、結構

AlexNet 論文筆記

conv(11,11,3,96)-max pool-conv(5,5,48,256)-max pool-conv(3,3,256,384)-conv(3,3,192,384)-conv(3,3,192,256)-full connect(4096)-full connect(4096)-full connect(4096)

四、避免過拟合

        1、資料增強。兩種方法都是在GPU訓練時利用CPU計算資源實時地将訓練圖檔做少量變換,進而不占用記憶體。其一,我們通過從256*256個圖像中提取随機的224*224的部分(及其水準反射)并在這些資料上訓練我們的網絡;其二,改變訓練圖像的rgb通道強度,比如對訓練圖像的像素做主成分分析。

        2、Dropout。前兩個全連接配接層使用了Dropout,即讓一部分神經元隐藏。如果不使用這種技術,模型會明顯過拟合。另外Dropout會花費兩倍于原來的疊代次數。

五、學習細節

        SGD随機梯度下降;标準差0.01均值為0的高斯分布初始化權值矩陣;第2、4、5卷積層以及全連接配接層運用并初始化了bias;所有層使用相同學習速率;

六、結果

AlexNet 論文筆記

        1、定量評價。GPU1負責提取邊緣特征,GPU2負責提取顔色特征,且與初始化的權值無關;即使物體不在圖中央,Top-5失誤率也較低;相似圖檔像素級别的上兩幅圖的歐氏距離較大,比如狗有不同姿勢的圖檔,CNN模型能夠有效識别

七、結論

        我們的研究結果表明,一個大型深層卷積神經網絡能夠使用純監督學習在高度具有挑戰性的資料集上取得破紀錄的結果。最終我們希望在視訊序列中使用非常大和深度的卷積網絡,其中時間結構特别重要,這些資訊在靜态圖像中缺少或者說還不太明顯。

繼續閱讀