Optimization: Stochastic Gradient Descent

2023-08-07 11:20:04

introduction

optimization: finding W minimize the loss function

注意一點f擴充到神經網絡的時候，目标函數不再是凸函數了。存在不可導點，需要用到subgradient ，

嘗試不同的随機權重，找到最優。

起點随機，找到一個deltaW使得loss function變小，更新W

梯度下降

在每個次元上取一個微小量，計算近似的梯度，可以使用centered difference formula: [f(x+h)−f(x−h)]/2h。關鍵是步長（learning rate）的選擇

efficiency: 可能training set的次元太高，這種方法計算不是很好。

gradient check：這種方法計算出來比較可能會錯，是以一般會和前一種方法的計算值進行比較。

Mini-batch gradient descent。training set太大的情況下。