梯度下降 批量梯度下降 各種優化器整理 2.随機梯度下降 各種優化器整理 各種優化器整理 3.小批量梯度下降 各種優化器整理 各種優化器整理 各種優化器整理 牛頓法 各種優化器整理 m是梯度值 v是學習率 Momentum(動量法) 各種優化器整理 各種優化器整理 Nesterov Momentun(牛頓動量法) 各種優化器整理 Adagrad(Adaptive Gradient) 各種優化器整理 各種優化器整理 diag是累加 RMSprop 各種優化器整理 Adadelta 各種優化器整理 各種優化器整理 Adam 各種優化器整理