天天看點

淺析深度學習中優化方法

       目前而言,深度學習是機器學習的發展前沿,一般針對大資料量的學習目标。其優化方法來源于基本的機器學習的優化方法,但也有所不同。

       下面,小結一下,其基礎是随機梯度下降的方法,但是為了學習的自适應性,做了如下改進:1. 因為每次訓練的資料不一樣,可能導緻目标函數的梯度變化劇烈,為了解決這個問題,聯合上次疊代的梯度和目前梯度,使梯度變化變緩(指數衰減);2. 在學習過程中,當疊代結果接近最優值時,我們需要學習率(即步長)越來越小,去逼近最優值,要不然會出現震蕩情況導緻網絡不收斂。為了解決這個問題,引入學習率自适應減小機制。

淺析深度學習中優化方法
淺析深度學習中優化方法

參考資料:

1) Ruder, An overview of gradient descent optimization algorithms http://sebastianruder.com/optimizing-gradient-descent/index.html#gradientdescentoptimizationalgorithms 2) https://climin.readthedocs.org/en/latest/#optimizer-overview 3) Schaul, Antonoglou, Silver, Unit Tests for Stochastic Optimization 4) Sutskever, Martens, Dahl, and Hinton, “On the importance of initialization and momentum in deep learning” (ICML 2013) 5) Dyer, “Notes on AdaGrad” 6) Duchi, Hazan, and Singer, “Adaptive Subgradient Methods for Online Learning and Stochastic Optimization” (COLT 2010) 7) Hinton, Srivastava, and Swersky, “rmsprop: Divide the gradient by a running average of its recent magnitude” 8) Dauphin, Vries, Chung and Bengion, “RMSProp and equilibrated adaptive learning rates for non-convex optimization” 9) Graves, “Generating Sequences with Recurrent Neural Networks” 10) Zeiler, “Adadelta: An Adaptive Learning Rate Method” 11) Kingma and Ba, “Adam: A Method for Stochastic Optimization” 12)http://colinraffel.com/wiki/stochastic_optimization_techniques

繼續閱讀