本文聯合編譯:blake、高斐
雷鋒網注:yoshua bengio教授是機器學習大神之一,尤其是在深度學習這個領域,他也是人工智能領域中經典之作《learning deep architectures for ai》的作者。yoshua bengio連同geoff hinton老先生以及 yann lecun教授一起造就了2006年始的深度學習複興。他的研究工作主要聚焦在進階機器學習方面,緻力于用其解決人工智能問題。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一(蒙特利爾大學),本文是他在2009年的經典前瞻演講——“人工智能學習深度架構”有關内容的第一部分。
yoshua bengio 蒙特利爾大學
主要内容:“人工智能學習深度架構”
在視覺和自然語言處理任務中打敗了淺層神經網絡(shallow neural network)
在像素級視覺任務中打敗了支援向量機(svms)(同時能處理自然語言處理問題中svms不能處理的資料大小)
在自然語言處理領域中實作了當下最好的表現
在無監督狀态下打敗了了深度神經網絡
學會了視覺特征(和v1和v2神經元類似)
大腦擁有深度架構
人類是分層級進行思考的(通過構築一些簡單的概念)
深度不夠的架構其效率也成倍降低
分布式表征(可能是稀疏的)對于實作非局部泛化來說是有必要的,比1-n枚舉潛在變量值有效得多
多層級的潛在變量允許統計強度的共享組合
豎軸為預測f(x),橫軸為測試點x
較少變量情況下較為簡單
紫色曲線代表真實未知運算
藍色曲線代表已學會的運算:其中預測= f(x)
1維時——10個位置(position) 2維時——100個位置(position) 3維時——1000個位置(position)
要實作局部概覽,需要對所有的可能變量進行樣本表征。
理論:高斯核心機器至少需要k個樣本來學會一個運算(在某些線上有2k個零交叉點) 理論:對于高斯核心的機器來說,對多種函數在次元上進行訓練需要跨次元樣本
位圖圖像的旋轉變換(rotation transformation of a bitmap image) 局部線性更新檔與流形相切 local linear patches tangent to the manifold 收縮變化(shrinking transformation) 原始輸入向量空間(raw input vector space)
組合性:在表征能力上指數增益
分布表征(distributed representations) 深度架構(deep architecture)
許多神經元是同時活動的
輸入代表了一系列特征(不互相獨立)的活動
比局部表征更有效(指數級)
局部式分區:通過已學會原型進行分區 分布式分區:子分區1、子分區2、子分區3
大腦使用的是分布式表征
大腦也是深度架構
大腦重度使用無監督學習
大腦傾向于學習更簡單的任務
人類大腦通過社會/文化/教育進行發展
v4區域——更高層次的視覺抽象 v3區域——初級的形狀檢測器 v2區域——邊緣檢測器 視網膜——像素
人類會有層次的組織他們的想法和概念
人類首先學習一些更簡單的概念,然後将這些組合起來去表征更複雜抽象的概念
工程師将解決方案分為多層次的抽象和處理
想要學習/發現這些概念
示例: 由圖檔(男人坐在地上)——原始輸入向量表征——稍微高階的表征——中間層級等——相當高階的表征(男人、坐)
想要更接近人工智能的話,更好地推廣新的任務是至關重要的。
深度架構能學會良好的中間表征(能在任務間共享)
一個良好的表征對于許多任務來說是有意義的
原始輸入x——共享中間表征h——任務1、2、3(y1、y2、y3)
不同的任務能共享同樣的高階特征
不同的高階特征能從同樣的低階特征組中建立
更多的階層=在表征效果上指數級增加
低階特征——高階特征——任務1-n(輸出y1-yn)
元素集(*、sin、+、-)——輸入(x、a、b) 輸出(*) 深度=4 元素集(神經元、神經元、神經元)—— 深度=3
2層(邏輯閘、正式的神經元、rbf單元)=通用逼近器 所有的3個原理(hastad et al 86 & 91, bengio et al 2007) 使用k層緊密表征的運算可能需要k-1層的指數級别
深度架構中共享元件 用共享元件表示的多項式:深度的優勢可能指數級增長
深度架構具有強大的表征能力
如何對它們進行訓練?
在2006年前,訓練深度架構都未成功過(除了卷積神經網絡以外)
hinton, osindero & teh « a fast learning algorithm for deep belief nets », neural computation, 2006
bengio, lamblin, popovici, larochelle « greedy layer-wise training of deep networks », nips’2006
ranzato, poultney, chopra, lecun « efficient learning of sparse representations with an energy-based model », nips’2006
堆棧受限玻爾茲曼機(rbm)——深度信念網絡(dbn)——監督深度神經網絡
每層輸出向量
給定輸入x輸出層預測目标變量y的參數分布
輸出:示例——多項式和softmax輸出單元的多類分類
基于梯度優化的訓練準則,包括條件對數拟然訓練等
aistats’2009
橫軸代表測試錯誤,豎軸代表計數 藍色為不帶預訓練 橙色為帶預訓練
橫軸為層級數目,豎軸為測試分類錯誤
玻爾茲曼機
馬爾可夫随機場
隐藏變量更有趣
最流行的深度架構構件
雙向無監督圖形模型
能預測可見單元的子集y(給定其他的x)
如果y隻得到很少的值
gibbs取樣
添加一個隐藏單元(與适當的參數選擇)保證了增加的可能性
擁有足夠的隐藏單元,能夠完美地模拟任意離散分布
有nb級隐藏單元的rbms= 非參數(non-parametric)
optimal training criterion for rbms which will be stacked into a dbn is not the rbm likelihood
分區1、分區2、分區3
p(h|x) 和 p(x|h) 因式分解——簡單推理、友善的gibbs取樣
在實踐中,gibbs取樣并不總是很好的混合。
在mnist上通過cd訓練rbm
随機狀态的鍊 真正的數字鍊
自由能量= 邊緣化時的等效能量
在rbms中能被精确、有效地計算
邊際似然p(x)追溯到高劃分函數z
梯度有兩個成分——正相、負相
在rbms中,容易取樣或者在h|x 中求和
不同的部分:使用馬爾可夫鍊從p(x)中取樣
對比發散(cd-k):負相gibbs鍊觀察x,運作k gibbs步驟
持續對比發散(pcd):當權重緩慢變化時在背景中運作負相gibbs鍊
快速持續對比發散(fast pcd):兩組權重,有用大量學習率的隻用于負相,快速探索模式
叢集:确定性近混沌動力系統定義了學習和采樣
退火mcmc:使用更高的溫度來逃避模式
對比發散(cd-k):從負相區塊開始gibbs鍊觀察x,運作k gibbs步驟(hinton 2002)
當權重緩慢變化時在背景中運作負相gibbs鍊(younes 2000, tieleman 2008):
保證(younes 89, 2000; yuille 2004)
如果學習率以1/t 減少
在參數變化太多之前鍊進行混合 當參數變化時,鍊保持收斂
在不考慮能量所處位置這一條件下,逆相樣本迅速推高能量,并迅速移動到另一模式。
取樣過程中,利用參數快速變化(高學習效率)時獲得的極快速叢集效應。
快速pcd:兩組權重值,其中之一對應高學習效率,隻用于逆相,能夠快速轉換模式。
叢集(參見max welling在icml,uai及專題演講會上的講話):0度mrfs和rbms,快速計算權重值。
o度mrf的狀态s,權重為w
全面觀察的案例,觀察所得結果為,在動态系統與w一直發生變化。
隻要w保持不變,即使取最大近似值,樣本的統計結果仍将與資料統計結果相比對。
該狀态的隐層s = (x,h)
二項式狀态變量
統計值f
在正相位中,給定輸入資訊x,優化隐層h
在實踐操作中,利用rbm(受限玻爾茲曼機)結構,能夠實作函數值最大化。
取消模型與采樣程式兩者間傳統意義上的徹底分離
考慮将自适應程式與充當生成模型的一個采樣程式相結合所産生的整體影響
采樣結果可以通過以下步驟得到評估(不參考某種潛在的機率模型)
高溫退火有助于估計對數似然值
考慮不同溫度條件下的多重鍊及鄰近鍊之間的可逆交換
較高溫度鍊能夠不受模型的限制
模型取樣是從t=1開始
總結:本文中主要提到了有關深度架構、神經網絡、玻爾茲曼機等相關内容,以及為什麼将它們應用到人工智能領域中的原由。作為 yoshua bengio在2009年的演講,它是相當具有前瞻性的。在後續部分中, yoshua bengio也提到了dbn、無監督學習等有關理念及實踐過程,請繼續關注我們的接下來的第二部分内容文章。
本文作者:李尊