Deep Learning 學習随記（七）Convolution and Pooling --卷積和池化

圖像大小與參數個數：

前面幾章都是針對小圖像塊處理的，這一章則是針對大圖像進行處理的。兩者在這的差別還是很明顯的，小圖像（如8*8，MINIST的28*28）可以采用全連接配接的方式（即輸入層和隐含層直接相連）。但是大圖像，這個将會變得很耗時：比如96*96的圖像，若采用全連接配接方式，需要96*96個輸入單元，然後如果要訓練100個特征，隻這一層就需要96*96*100個參數（W,b），訓練時間将是前面的幾百或者上萬倍。是以這裡用到了部分聯通網絡。對于圖像來說，每個隐含單元僅僅連接配接輸入圖像的一小片相鄰區域。

這樣就引出了一個卷積的方法：

convolution：

自然圖像有其固有特性，也就是說，圖像的一部分的統計特性與其他部分是一樣的。這也意味着我們在這一部分學習的特征也能用在另一部分上，是以對于這個圖像上的所有位置，我們都能使用同樣的學習特征。

對于圖像，當從一個大尺寸圖像中随機選取一小塊，比如說8x8作為樣本，并且從這個小塊樣本中學習到了一些特征，這時我們可以把從這個8x8樣本中學習到的特征作為探測器，應用到這個圖像的任意地方中去。特别是，我們可以用從8x8樣本中所學習到的特征跟原本的大尺寸圖像作卷積，進而對這個大尺寸圖像上的任一位置獲得一個不同特征的激活值。

講義中舉得具體例子，還是看例子容易了解：

假設你已經從一個96x96的圖像中學習到了它的一個8x8的樣本所具有的特征，假設這是由有100個隐含單元的自編碼完成的。為了得到卷積特征，需要對96x96的圖像的每個8x8的小塊圖像區域都進行卷積運算。也就是說，抽取8x8的小塊區域，并且從起始坐标開始依次标記為（1，1），（1，2），...，一直到（89，89），然後對抽取的區域逐個運作訓練過的稀疏自編碼來得到特征的激活值。在這個例子裡，顯然可以得到100個集合，每個集合含有89x89個卷積特征。講義中那個gif圖更形象，這裡不知道怎麼添加進來...

最後，總結下convolution的處理過程：

假設給定了r * c的大尺寸圖像，将其定義為xlarge。首先通過從大尺寸圖像中抽取的a * b的小尺寸圖像樣本xsmall訓練稀疏自編碼，得到了k個特征（k為隐含層神經元數量），然後對于xlarge中的每個a*b大小的塊，求激活值fs，然後對這些fs進行卷積。這樣得到（r-a+1）*（c-b+1）*k個卷積後的特征矩陣。

pooling：

在通過卷積獲得了特征（features）之後，下一步我們希望利用這些特征去做分類。理論上講，人們可以把所有解析出來的特征關聯到一個分類器，例如softmax分類器，但計算量非常大。例如：對于一個96X96像素的圖像，假設我們已經通過8X8個輸入學習得到了400個特征。而每一個卷積都會得到一個(96 − 8 + 1) * (96 − 8 + 1) = 7921的結果集，由于已經得到了400個特征，是以對于每個樣例（example）結果集的大小就将達到892 * 400 = 3,168,400 個特征。這樣學習一個擁有超過3百萬特征的輸入的分類器是相當不明智的，并且極易出現過度拟合（over-fitting）.

是以就有了pooling這個方法，翻譯作“池化”？感覺pooling這個英語單詞還是挺形象的，翻譯“作池”化就沒那麼形象了。其實也就是把特征圖像區域的一部分求個均值或者最大值，用來代表這部分區域。如果是求均值就是mean pooling，求最大值就是max pooling。講義中那個gif圖也很形象，隻是不知道這裡怎麼放gif圖....

至于pooling為什麼可以這樣做，是因為：我們之是以決定使用卷積後的特征是因為圖像具有一種“靜态性”的屬性，這也就意味着在一個圖像區域有用的特征極有可能在另一個區域同樣适用。是以，為了描述大的圖像，一個很自然的想法就是對不同位置的特征進行聚合統計。這個均值或者最大值就是一種聚合統計的方法。

另外，如果人們選擇圖像中的連續範圍作為池化區域，并且隻是池化相同(重複)的隐藏單元産生的特征，那麼，這些池化單元就具有平移不變性(translation invariant)。這就意味着即使圖像經曆了一個小的平移之後，依然會産生相同的（池化的）特征（這裡有個小小的疑問，既然這樣，是不是隻能保證在池化大小的這塊區域内具有平移不變性？）。在很多任務中（例如物體檢測、聲音識别），我們都更希望得到具有平移不變性的特征，因為即使圖像經過了平移，樣例（圖像）的标記仍然保持不變。例如，如果你處理一個MNIST資料集的數字，把它向左側或右側平移，那麼不論最終的位置在哪裡，你都會期望你的分類器仍然能夠精确地将其分類為相同的數字。

練習：

下面是講義中的練習。用到了上一章的練習的結構（即在convolution過程中的第一步，用稀疏自編碼對xsmall求k個特征）。

以下是主要程式：

主程式cnnExercise.m