SGD
先來看SGD。SGD沒有動量的概念,也就是說:

代入步驟3,可以看到下降梯度就是最簡單的
SGD最大的缺點是下降速度慢,而且可能會在溝壑的兩邊持續震蕩,停留在一個局部最優點。
SGD with Momentum
為了抑制SGD的震蕩,SGDM認為梯度下降過程可以加入慣性。下坡的時候,如果發現是陡坡,那就利用慣性跑的快一些。SGDM全稱是SGD with momentum,在SGD基礎上引入了一階動量:
一階動量是各個時刻梯度方向的指數移動平均值,約等于最近
個時刻的梯度向量和的平均值。
也就是說,t時刻的下降方向,不僅由目前點的梯度方向決定,而且由此前累積的下降方向決定。