如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（五）正则化方法（防止过拟合）

花书+吴恩达深度学习（六）优化方法之 Mini-batch（SGD, MBGD, BGD）

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）

花书+吴恩达深度学习（八）优化方法之 Batch normalization

花书+吴恩达深度学习（九）优化方法之二阶近似方法（牛顿法, CG, BFGS, L-BFGS）

0. 前言

在使用 Mini-batch 的时候，通常梯度估计的方向不直接指向最小值点，容易造成曲折波动的路线。

为了防止这种路线，改善梯度估计的方向，可对反向传播作修改。

如下图所示（图源：深度学习），黑色路线是未修改的梯度估计方向，红色路线是修改后的梯度估计方向：

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）0. 前言1. 指数加权平均（exponentially weighted averages）2. Momentum 动量3. Nesterov 动量4. AdaGrad5. RMSProp6. Adam

1. 指数加权平均（exponentially weighted averages）

假设，

表示前

个值的和，

表示第

个值，则指数加权平均表示为：

根据

的不同，

表示大约前

个数的平均。

被称为指数的原因是，表达式递归展开，从 0 到 t 的权重表现为指数的形式：

因初始化

，所以造成

等几个初始点会较小，可进行偏差修正：

但是这种方法不常用，通常可以接受在开始阶段的误差，随着迭代更新，误差会逐渐消失。

2. Momentum 动量

动量的方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。

动量算法通过指数加权平均，累计了之前的梯度，调整了梯度估计的方向。

注：

的取值一般为 0.5，0.9，0.99 。

3. Nesterov 动量

Nesterov 和 Momentum 的区别在于，先施加当前的累计速度，然后再计算梯度。

但是，在 Mini-batch 的情况下，这并没有改进收敛率。

4. AdaGrad

具有损失最大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。

这可防止下降过快，或者在平坦区域下降过慢。

但是从训练开始时累计梯度平方会导致有效学习率过早和过量的减小。

5. RMSProp

RMSProp 修改 AdaGrad 以在非凸设定下效果更好，改变梯度累计为指数加权平均。

RMSProp 已被证明是一种有效且实用的深度神经网络优化算法。

注：

的取值一般推荐为 0.999，

的取值一般推荐为

。

6. Adam

Adam 全称是 Adaptive Moments Estimation 。

Adam 是结合了 Momentum 和 RMSProp 的算法。

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔~我会非常开心的~

花书+吴恩达深度学习（七）优化方法之基本算法（Momentum, Nesterov, AdaGrad, RMSProp, Adam）0. 前言1. 指数加权平均（exponentially weighted averages）2. Momentum 动量3. Nesterov 动量4. AdaGrad5. RMSProp6. Adam

目录

0. 前言

1. 指数加权平均（exponentially weighted averages）

2. Momentum 动量

3. Nesterov 动量

4. AdaGrad

5. RMSProp

6. Adam

继续阅读

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

GNU科学函数库[参考手册][v0.1 Build 090129 Beta][GNU Scientific Library]

对于0-1分数规划的Dinkelbach算法的分析

Sql优化一：sql语句优化

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

Git学习笔记5 merge冲突时二选一