如果這篇文章對你有一點小小的幫助，請給個關注，點個贊喔~我會非常開心的~

花書+吳恩達深度學習（五）正則化方法（防止過拟合）

花書+吳恩達深度學習（六）優化方法之 Mini-batch（SGD, MBGD, BGD）

花書+吳恩達深度學習（七）優化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）

花書+吳恩達深度學習（八）優化方法之 Batch normalization

花書+吳恩達深度學習（九）優化方法之二階近似方法（牛頓法, CG, BFGS, L-BFGS）

0. 前言

在使用 Mini-batch 的時候，通常梯度估計的方向不直接指向最小值點，容易造成曲折波動的路線。

為了防止這種路線，改善梯度估計的方向，可對反向傳播作修改。

如下圖所示（圖源：深度學習），黑色路線是未修改的梯度估計方向，紅色路線是修改後的梯度估計方向：

花書+吳恩達深度學習（七）優化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）0. 前言1. 指數權重平均（exponentially weighted averages）2. Momentum 動量3. Nesterov 動量4. AdaGrad5. RMSProp6. Adam

1. 指數權重平均（exponentially weighted averages）

假設，

表示前

個值的和，

表示第

個值，則指數權重平均表示為：

根據

的不同，

表示大約前

個數的平均。

被稱為指數的原因是，表達式遞歸展開，從 0 到 t 的權重表現為指數的形式：

因初始化

，是以造成

等幾個初始點會較小，可進行偏差修正：

但是這種方法不常用，通常可以接受在開始階段的誤差，随着疊代更新，誤差會逐漸消失。

2. Momentum 動量

動量的方法旨在加速學習，特别是處理高曲率、小但一緻的梯度，或是帶噪聲的梯度。

動量算法通過指數權重平均，累計了之前的梯度，調整了梯度估計的方向。

注：

的取值一般為 0.5，0.9，0.99 。

3. Nesterov 動量

Nesterov 和 Momentum 的差別在于，先施加目前的累計速度，然後再計算梯度。

但是，在 Mini-batch 的情況下，這并沒有改進收斂率。

4. AdaGrad

具有損失最大偏導的參數相應地有一個快速下降的學習率，而具有小偏導的參數在學習率上有相對較小的下降。

這可防止下降過快，或者在平坦區域下降過慢。

但是從訓練開始時累計梯度平方會導緻有效學習率過早和過量的減小。

5. RMSProp

RMSProp 修改 AdaGrad 以在非凸設定下效果更好，改變梯度累計為指數權重平均。

RMSProp 已被證明是一種有效且實用的深度神經網絡優化算法。

注：

的取值一般推薦為 0.999，

的取值一般推薦為

。

6. Adam

Adam 全稱是 Adaptive Moments Estimation 。

Adam 是結合了 Momentum 和 RMSProp 的算法。

如果這篇文章對你有一點小小的幫助，請給個關注，點個贊喔~我會非常開心的~

花書+吳恩達深度學習（七）優化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）0. 前言1. 指數權重平均（exponentially weighted averages）2. Momentum 動量3. Nesterov 動量4. AdaGrad5. RMSProp6. Adam

目錄

0. 前言

1. 指數權重平均（exponentially weighted averages）

2. Momentum 動量

3. Nesterov 動量

4. AdaGrad

5. RMSProp

6. Adam

繼續閱讀

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

GNU科學函數庫[參考手冊][v0.1 Build 090129 Beta][GNU Scientific Library]

對于0-1分數規劃的Dinkelbach算法的分析

Sql優化一：sql語句優化

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

Git學習筆記5 merge沖突時二選一