深度学习之梯度检验与高级优化

反向传播算法很难调试得到正确结果，尤其是当实现程序存在很多难于发现的bug时。举例来说，索引的缺位错误（off-by-one error）会导致只有部分层的权重得到训练，再比如忘记计算偏置项。这些错误会使你得到一个看似十分合理的结果（但实际上比正确的结果要差）。因此，但从计算结果上来看，我们很难发现代码中有什么东西遗漏了。本节中，我们将介绍一种对求导结果进行数值检验的方法，该方法可以验证求导代码是否正确。另外，使用本节所述求导检验方法，可以帮助你提升写正确代码的信心。

缺位错误（Off-by-one error）举例说明：比如for 循环中循环m次，正确应该是

for (i=1;i<=m;i++)

，但有时程序员疏忽，会写成

for(i=1;i<m;i++)

，这就是缺位错误。

假设我们想要最小化以 θ 为自变量的目标函数 J(θ) 。假设 :ℜ↦ℜ ，则 θ∈ℜ 。在一维的情况下，一次迭代的梯度下降公式是

θ:=θ−αddθJ(θ).

再假设我们已经用代码实现了计算 ddθJ(θ) 的函数 g(θ) ，接着我们使用 θ:=θ−αg(θ) 来实现梯度下降算法。那么我们如何检验 g 的实现是否正确呢？

回忆导数的数学定义：

ddθJ(θ)=limϵ→0J(θ+ϵ)−J(θ−ϵ)2ϵ.

那么对于任意 θ 值，我们都可以对等式左边的导数用：

J(θ+EPSILON)−J(θ−EPSILON)2×EPSILON

来近似。

实际应用中，我们常将 EPSILON 设为一个很小的常量，比如在 10−4 数量级（虽然 EPSILON 的取值范围可以很大，但是我们不会将它设得太小，比如 10−20 ，因为那将导致数值舍入误差。）

给定一个被认为能计算 ddθJ(θ) 的函数 g(θ) ，我们可以用下面的数值检验公式

g(θ)≈J(θ+EPSILON)−J(θ−EPSILON)2×EPSILON.

计算两端是否一样来检验函数是否正确。

上式两端值的接近程度取决于 J 的具体形式。但是在假定EPSILON=10−4的情况下，你通常会发现上式左右两端至少有4位有效数字是一样的（通常会更多）。

现在，考虑 θ∈ℜn 是一个向量而非一个实数（那么就有 n 个参数要学习得到），并且J:ℜn↦ℜ。在神经网络的例子里我们使用 J(W,b) ，可以想象为把参数 W,b 组合扩展成一个长向量 θ 。现在我们将求导检验方法推广到一般化，即 θ 是一个向量的情况。

假设我们有一个用于计算 ∂∂θiJ(θ) 的函数 gi(θ) ；我们想要检验 gi 是否输出正确的求导结果。我们定义 θ(i+)=θ+EPSILON×e⃗ i ，其中

e⃗ i=⎡⎣⎢⎢⎢⎢⎢⎢⎢00⋮1⋮0⎤⎦⎥⎥⎥⎥⎥⎥⎥

是第 i 个基向量（维度和θ相同，在第 i 行是“1”而其他行是“ 0”）。所以，θ(i+) 和 θ 几乎相同，除了第 i 行元素增加了EPSILON。类似地， θ(i−)=θ−EPSILON×e⃗ i 得到的第 i 行减小了 EPSILON。然后我们可以对每个 i 检查下式是否成立，进而验证 gi(θ)的正确性：

gi(θ)≈J(θ(i+))−J(θ(i−))2×EPSILON.

当用反射传播算法求解神经网络时，正确算法实现会得到：

∇W(l)J(W,b)∇b(l)J(W,b)=(1mΔW(l))+λW(l)=1mΔb(l).

以上结果与反向传播算法中的最后一段伪代码一致，都是计算梯度下降。为了验证梯度下降代码的正确性，使用上述数值检验方法计算 J(W,b) 的导数，然后验证 (1mΔW(l))+λW 与 1mΔb(l) 是否能够给出正确的求导结果。

迄今为止，我们的讨论都集中在使用梯度下降法来最小化 J(θ) 。如果你已经实现了一个计算 J(θ) 和 ∇θJ(θ) 的函数，那么其实还有更精妙的算法来最小化 J(θ) 。举例来说，可以想象这样一个算法：它使用梯度下降，并能够自动调整学习速率 α ，以得到合适的步长值，最终使 θ 能够快速收敛到一个局部最优解。还有更妙的算法：比如可以寻找一个Hessian矩阵的近似，得到最佳步长值，使用该步长值能够更快地收敛到局部最优（和牛顿法类似）。此类算法的详细讨论已超出了这份讲义的范围，但是L-BFGS算法我们以后会有论述（另一个例子是共轭梯度算法）。你将在编程练习里使用这些算法中的一个。使用这些高级优化算法时，你需要提供关键的函数：即对于任一个 θ ，需要你计算出 J(θ) 和 ∇θJ(θ) 。之后，这些优化算法会自动调整学习速率/步长值 α 的大小（并计算Hessian近似矩阵等等）来自动寻找 J(θ) 最小化时 θ 的值。诸如L-BFGS和共轭梯度算法通常比梯度下降法快很多。

注：本文参考UFLDL教程

深度学习之梯度检验与高级优化

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络