Momentum)
Momentum是Gradient Descent算法的擴充、可加速或抑制參數更新。
1、
通過反向傳播的錯誤來學習表征
多 層 感覺器( MLP )多層感覺器是一種前饋神經網絡,具有多個完全連接配接的層,使用非線性
激活函數來處理不可線性分離的資料。MLP是多層神經網絡的最基本形式,如果它超過2層,則是深度神經網絡。
神 經 機器翻 譯 ( NMTNMT系統使用神經網絡在不同語言之間進行翻譯,例如英語和法語。NMT系統可以使用雙語語料庫進行端到端的訓練,這與需要手工制作的特征的傳統機器翻譯系統不同。NMT系統通常使用編碼器和解碼器遞在歸神經網絡來實作,該編碼器和解碼器分别是編碼源句子和産生目标句子。
用神經網絡進行序列學習的序列2、
使用RNN編碼器-解碼器學習短語表示 經網絡圖 靈機( NTMNMT是神經網絡架構,可以從示例中推斷出簡單的算法。例如,NTM可以通過示例輸入和輸出來學習排序算法。NTM通常學習某種形式的記憶和注意力機制來在程式執行期間處理狀态。
神經網絡圖靈機 噪聲 對 比估 計 NCE噪聲對比估計是通常用于訓練具有大輸出詞彙的分類器采樣損耗。在大量可能的類别上計算
softmax非常昂貴,但使用NCE,我們可以通過訓練分類器将問題從“實際”分布和人為生成的噪聲分布區分開來,将問題簡化為二進制分類問題。
噪聲對比估計:非标準化統計模型的一種新的估計原理 通過噪聲對比估計有效地學習詞嵌入 受限玻 爾茲 曼機( RBNRBM是一種機率圖形模型,也可以解釋為随機人工神經網絡,RBN以無監督的方式學習資料的表征。RBN由可見層和隐藏層以及這些層中的二進制神經元之間的連接配接組成。RBN可以使用
對比發散 Contrastive Divergence)進行有效訓練,這是梯度下降的近似值。
動力系統中的資訊處理:和諧理論的基礎 受限玻爾茲曼機器簡介 遞歸神經網絡( RNNRNN通過隐藏狀态順序互動,它最多需要N個輸入并産生多達N個輸出。例如,輸入可以是句子,輸出是句子的情感分類(N-to-1)。輸入可以是單個圖像,輸出可以是與圖像的描述(1到N)對應的單詞序列。在每個時間步,RNN基于目前輸入和先前隐藏狀态計算新的隐藏狀态(“存儲器”)。“遞歸性”就是源于這樣的事實:在每個步驟中使用相同的參數并且網絡基于不同的輸入執行相同的計算操作。
結構遞歸神經網絡結構遞歸神經網絡是
遞歸神經網絡結合樹狀結構的推廣。它也在每次遞歸時應用相同的權重,但結構遞歸神經網絡可以使用反向傳播進行端到端的訓練。雖然可以将樹結構作為優化問題的一部分來學習,但結構遞歸神經網絡通常應用于已經具有預定義結構的問題,如自然語言進行中的解析樹。
用結構遞歸神經網絡解析自然場景和自然語言處理
RELU線性整流函數的簡稱。ReLU通常用作深度神經網絡中的
,它們的定義是f(x)=max(0,x)。ReLU函數在性能上是優于tanh函數,并且它們對
梯度消失問題的影響較小。ReLUs是卷積神經網絡中最常用的激活函數。
ReLU存在若幹變體,例如
Leaky ReLU,
Parametric ReLU(PReLU)或更平滑的
softplus近似。
深入研究整流函數:超越ImageNet分類的表現;
用非線性整流函數改善神經網絡聲學模型3、
線性整流函數改進受限制的玻爾茲曼機器 RESNETDeep Residual Networks赢得了2015年ILSVRC的挑戰。它通過在層的堆棧之間引入快捷方式連接配接來工作,允許優化器學習“更容易”的殘差映射,而不是更複雜的原始映射。ResNet在ImageNet測試集上實作了3.57%的錯誤率。
深度殘留學習的圖像識别 RMSPropRMSProp是一種基于梯度的優化算法,它與
Adagrad類似,但引入了額外的衰減方法來抵消Adagrad學習率的快速下降。
1、用于機器學習的神經網絡
斯坦福CS231n:優化算法 梯度下降優化算法概述 Seq2Seq序列到序列模型将序列(例如句子)作為輸入讀取并産生另一序列作為輸出。它與标準
RNN的不同之處在于,在網絡開始産生任何輸出之前完全讀取輸入序列。通常,seq2seq模型使用兩個RNN實作,用作編碼器和解碼器。
神經機器翻譯是seq2seq模型的典型示例。
SGD随機梯度下降是一種基于梯度的優化算法,用于在訓練階段學習網絡參數,通常使用
反向傳播算法計算梯度。在實踐中,人們使用SGD的小批量版本,其中參數更新是基于批次而不是單個示例來執行的,進而提高了計算效率。存在許多對vanilla SGD的擴充,包括
Momentum、
rmsprop Adadelta或
Adam。
線上學習随機優化的自适應子梯度方法 SOFTMAX SOFTMAX函數通常用于将原始分數的向量轉換成在一個神經網絡的機率類用于分類的輸出層。它通過取幂和除以标準化常數來對分數進行标準化。如果我們正在處理大量的類,例如機器翻譯中的大量詞彙表,标準化這些常量的計算成本很高。這就需要各種替代方案以使計算更有效,包括
Hierarchical Softmax或使用基于采樣的損失,例如
TensorFlow是一個開源的C++/Python軟體庫,使用資料流圖進行數值計算。它是由Google建立,在設計方面,它與
Theano最相似。
是一個Python庫,允許你自定義、優化和評估數學表達式。它包含許多用于深度神經網絡的基礎塊。Theano是一個類似于
Tensorflow的低級庫,進階庫包括
Keras和
Caffe 梯度消失 問題消失梯度問題通常出現在非常深的神經網絡中,通常是遞歸神經網絡,因為它使用了使梯度趨于很小的激活函數(在0到1的範圍内)。而這些小梯度在反向傳播期間成倍增加,是以它們傾向于在整個層中“消失”,進而阻止網絡學習遠端依賴性。解決此問題的常用方法是使用不受小梯度影響的
激活函數或使用明确消除梯度消失的
LSTM等架構,與此問題相反的是
梯度爆炸問題 關于訓練遞歸神經網絡的難點 VGGVGG指的是一種卷積神經網絡模型,這個模型分别在2014年ImageNet圖像定位和分類中獲得第一名和第二名。VGG模型由16-19個權重層組成,并使用尺寸為3×3和1×1的小卷積濾波器。
用于大規模圖像識别的非常深的卷積網絡 word2vecword2vec是一種算法和
工具,通過嘗試預測文檔中單詞的上下文來學習詞
嵌入。例如,生成的單詞向量具有一些有趣的屬性vector(‘queen')
~= vector('king')-vector('man')+vector('woman')。可以使用兩個不同的目标來學習這些嵌入:Skip-Gram目标嘗試從單詞上預測上下文,并且CBOW目标嘗試從其上下文預測單詞。
向量空間中Word表示的有效估計 詞語分布式表達及其組合性 word2vec參數學習解釋本文由
阿裡雲雲栖社群組織翻譯。
文章原标題《deep-learning-glossary》
作者:wildml 譯者:虎說八道,審校:。
文章為簡譯,更為詳細的内容,請檢視
原文