天天看點

多種優化器SGD ,Adam,Momentum

SGD

先來看SGD。SGD沒有動量的概念,也就是說:

多種優化器SGD ,Adam,Momentum

代入步驟3,可以看到下降梯度就是最簡單的

多種優化器SGD ,Adam,Momentum

SGD最大的缺點是下降速度慢,而且可能會在溝壑的兩邊持續震蕩,停留在一個局部最優點。

SGD with Momentum

為了抑制SGD的震蕩,SGDM認為梯度下降過程可以加入慣性。下坡的時候,如果發現是陡坡,那就利用慣性跑的快一些。SGDM全稱是SGD with momentum,在SGD基礎上引入了一階動量:

多種優化器SGD ,Adam,Momentum

一階動量是各個時刻梯度方向的指數移動平均值,約等于最近 

多種優化器SGD ,Adam,Momentum

個時刻的梯度向量和的平均值。

也就是說,t時刻的下降方向,不僅由目前點的梯度方向決定,而且由此前累積的下降方向決定。