(還有兩周多的時間了,抓緊進度)
Sparse Coding稀疏編碼
如果我們把輸出必須和輸入相等的限制放松,同時利用線性代數中基的概念,即O = a1*Φ1 + a2*Φ2+….+ an*Φn, Φi是基,ai是系數,我們可以得到這樣一個優化問題:
Min |I – O|,其中I表示輸入,O表示輸出。
通過求解這個最優化式子,我們可以求得系數ai和基Φi,這些系數和基就是輸入的另外一種近似表達。

是以,它們可以用來表達輸入I,這個過程也是自動學習得到的。如果我們在上述式子上加上L1的Regularity限制,得到:
Min |I – O| + u*(|a1| + |a2| + … + |an |)
這種方法被稱為Sparse Coding。通俗的說,就是将一個信号表示為一組基的線性組合,而且要求隻需要較少的幾個基就可以将信号表示出來。“稀疏性”定義
為:隻有很少的幾個非零元素或隻有很少的幾個遠大于零的元素。要求系數 ai 是稀疏的意思就是說:對于一組輸入向量,我們隻想有盡可能少的幾個系數遠大于
零。選擇使用具有稀疏性的分量來表示我們的輸入資料是有原因的,因為絕大多數的感官資料,比如自然圖像,可以被表示成少量基本元素的疊加,在圖像中這些
基本元素可以是面或者線。同時,比如與初級視覺皮層的類比過程也是以得到了提升(人腦有大量的神經元,但對于某些圖像或者邊緣隻有很少的神經元興奮,其他都處于抑制狀态)。
稀疏編碼算法是一種無監督學習方法,它用來尋找一組“超完備”基向量來更高效地表示樣本資料。雖然形如主成分分析技術(PCA)能使我們友善地找到一
組“完備”基向量,但是這裡我們想要做的是找到一組“超完備”基向量來表示輸入向量(也就是說,基向量的個數比輸入向量的維數要大)。超完備基的好處是它們
能更有效地找出隐含在輸入資料内部的結構與模式。然而,對于超完備基來說,系數ai不再由輸入向量唯一确定。是以,在稀疏編碼算法中,我們另加了一個評判
标準“稀疏性”來解決因超完備而導緻的退化(degeneracy)問題。(詳細過程請參考:UFLDL Tutorial稀疏編碼)
比如在圖像的Feature Extraction的最底層要做Edge Detector的生成,那麼這裡的工作就是從Natural Images中randomly選取一些小patch,通過這些patch生
成能夠描述他們的“基”,也就是右邊的8*8=64個basis組成的basis,然後給定一個test patch, 我們可以按照上面的式子通過basis的線性組合得到,而sparse matrix
就是a,下圖中的a中有64個次元,其中非零項隻有3個,故稱“sparse”。
這裡可能大家會有疑問,為什麼把底層作為Edge Detector呢?上層又是什麼呢?這裡做個簡單解釋大家就會明白,之是以是Edge Detector是因為不同方向的
Edge就能夠描述出整幅圖像,是以不同方向的Edge自然就是圖像的basis了……而上一層的basis組合的結果,上上層又是上一層的組合basis……(就是上面第四
部分的時候咱們說的那樣)
Sparse coding分為兩個部分:
1)Training階段:給定一系列的樣本圖檔[x1, x 2, …],我們需要學習得到一組基[Φ1, Φ2, …],也就是字典。
稀疏編碼是k-means算法的變體,其訓練過程也差不多(EM算法的思想:如果要優化的目标函數包含兩個變量,如L(W, B),那麼我們可以先固定W,調整B
使得L最小,然後再固定B,調整W使L最小,這樣疊代交替,不斷将L推向最小值。
訓練過程就是一個重複疊代的過程,按上面所說,我們交替的更改a和Φ使得下面這個目标函數最小。
每次疊代分兩步:
a)固定字典Φ[k],然後調整a[k],使得上式,即目标函數最小(即解LASSO問題)。
b)然後固定住a [k],調整Φ [k],使得上式,即目标函數最小(即解凸QP問題)。
不斷疊代,直至收斂。這樣就可以得到一組可以良好表示這一系列x的基,也就是字典。
2)Coding階段:給定一個新的圖檔x,由上面得到的字典,通過解一個LASSO問題得到稀疏向量a。這個稀疏向量就是這個輸入向量x的一個稀疏表達了。
例如: